මෙම පර්යේෂණය
අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතීන් භාවිත කරන විවිධ ශිල්පීය ක්රම සංසන්දනය
කිරීම සඳහා කරන ලද අධ්යයනයක් ඉදිරිපත්
කරණු ලබයි . භාෂා පර්යේෂණ ක්ෂේත්රයේ ආදර්ශනය සඳහා විවිධ ශිල්පීය ක්රම පවතී . මේ
අතරින් අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතීන් "formant synthesis
","diphone concatenation " සහ "unit selection " යන ශිල්ප ක්රම මත
පදනම් වී ඇති බව දැකගත හැකිය . එහෙත් "HMM " නැත්නම් "Hidden Markov Model
" යනු සිංහල
භාෂාව සඳහා මීට පෙර භාවිතා නොකරණ ලද තවත් ජනප්රිය ශිල්පීය ක්රමයකි.අවසන් අරමුණ
සැලකිල්ලට ගැනීමෙන් "formant synthesis ", "diphone
concatenation ", "unit selection " සහ "Hidden Markov Model "
යන ශිල්පීය ක්රම 4 ඇගයීම සඳහා යොදා
ගැනුනි. "HMM " මත පදනම්වූ අකුරු
වලින් හඬ ලබා ගැනීමේ පද්ධතීන් සිංහල භාෂාව සඳහා නොමැති නිසා ,
අපගේ අධ්යයනයේ පළමු
පියවර සඳහා අප විසින් "HMM " මත පදනම් වූ අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතියක්
වැඩිදියුණු කරණ ලදී .
මෙම පර්යේෂණයේ
ප්රධාන අරමුණ වන්නේ සිංහල භාෂාව සඳහා ඇති අකුරු වලින් හඬ ලබා ගැනීමේ පද්ධතීන්
වැඩිදියුණු කිරීමේදී භාවිතා වන ශිල්පීය ක්රම ඇගයීම සහ අකුරු වලින් හඬ ලබා ගැනීමේ
සිංහල පද්ධතීන් සඳහා හොඳම ශිල්පීය ක්රමයක්
යෝජනා කිරීමත්ය . මෙම ක්රියාවලියේදී
සිංහල භාෂාව සඳහා "HMM " මත පදනම් වූ කාන්තා කටහඬක් වැඩිදියුණු කර තිබේ .
පලවෙනි
රූපයෙන් "HMM " මත පදනම් වූ
අකුරු වලින් හඬ ලබා ගැනීමේ පද්ධතියේ සැකැස්ම දැක්වේ .
අකුරු වලින්
හඬ ලබා ගැනීමේ පද්ධති නිර්මාණය කිරීමේදී හඬ සංකලනය සඳහා "frameworks"
භාවිත වේ . මෙම පර්යේෂණයේදී
අප විසින් MARRY (Modular Architecture for
Research on Speech Synthesis ) නම් අකුරුවලින් හඬ ලබා ගැනීමේ ක්ෂේත්රයේ පර්යේෂණ ,
වැඩිදියුණු කිරීම් සහ
ඉගැන්වීම් සඳහා platform 1ක් සපයනු ලබන
අකුරු වලින් හඬ ලබා ගැනීමේ ජර්මන් පධතියක් වන framework 1ක් භවිත කරන ලදී .
"HMM" මත පදනම් වූ
අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතිය වැඩිදියුණු කිරීමෙන් පසු ශබ්දයේ ගුණත්වය (Speech
Quality) , ස්වභාවික බව
(Naturalness) , තීරණ ගැනීමේ
හැකියාව (Intelligibility) සහ භාවිතා
කරන්නන්ගේ තේරීම (User Preference) යන තත්ත්ව ගුණාංග සැලකිල්ලට ගනිමින් ඇගයීම
සිදුකරනු ලැබේ .
විශ්ලේෂණය
අතරතුරදී අප විසින් කාණ්ඩ 3 කට අයත් , "HMM " සහ "Unit selection " පද්ධතීන්ගේ අභ්යාස වාක්ය කාණ්ඩයෙන් වාක්ය 5ක් , අභ්යාස වාක්ය
කාණ්ඩයේ නොමැති අලුත් වචන වලින් සෑදුන වාක්ය 5ක් සහ පුවත් ලිපි වලින් අහඹු ලෙස ගන්නා ලද
වාක්ය 5ක් ලෙස වක්ය 15ක් තෝරාගන්නා ලදී .
විශ්ලේෂණ
වාර්තාවේ ප්රතිඵල දෙස බැලීමේදී මනින ලද ගුණාංගය මත එක් එක් ශිල්පීය ක්රමය අනුව සිදුවන වෙනස්කම් දැකගත හැකි විය .
ශබ්දයේ
ගුණත්වය සැලකීමේදී "diphone concatenation " සහ "formant synthesis " යන ශිල්පීය ක්රම
පිලිවෙලින් 76.7% සහ 68.10% යන ඉහලම අගයන් ලබා ගැනුණි . තීරණ ගැනීමේ හැකියාව සැලකීමේදී නැවතත්
"diphone concatenation " ඉහලම 87.36% ලබා තිබුණි . තීරණ
ගැනීමේ හැකියාව සැලකීමේදී සියළු ශිල්පීය ක්රම 75% කට වඩා වැඩි ප්රතිඵල ලබා දී ඇත . එනම්
සියළු ශිල්පීය ක්රම දෙනලද වක්යයක් සඳහා 75%ක් නිවැරදි ප්රතිඵල ලබා දී ඇත. ශිල්පීය ක්රම
තනි තනිව ගත් විට ඒවාගේ කාර්යක්ෂමතාව පිළිබඳව මෙය හොඳ දර්ශකයක් වේ .ස්වභාවික බව
සැලකීමේදී "Unit selection " ඉහලම 73.2% ලබාගත් අතර "formant synthesis " පහළම 57% ලබාගෙන තිබුණි.
භාවිතා
කරන්නන්ගේ තේරීම සැලකීමේදී "Unit
selection",භාවිතා
කරන්නන්ගෙන් 50% ක් ද ,"diphone
concatenation " 42% ක් ද වන අතර "HMM " සඳහා එය 4%ක් විය . විශ්ලේෂණයට
අනුව "diphone concatenation " ශබ්දයේ ගුණත්වයසහ තීරණ ගැනීමේ හැකියාව අනුව
ඉහලින්ම සිටී . "Unit selection " සතුව හොඳම ස්වභාවික බව ඇත . භාවිතා
කරන්නන්ගේ තේරීම සැලකීමේදී භාවිතා කරන්නන් ස්වභාවික බවට ශබ්දයේ ගුණත්වය සහ තීරණ
ගැනීමේ හැකියාවට වඩා සැලකිල්ලක් දක්වා ඇති බව දැකගත හැකිය .
එයින් අදහස් වන්නේ ගුණාත්මක හඬක් නිපදවීමේදී ස්වභාවික බව ප්රධාන කාර්යභාරයක්
ඉටුකරනු ලබයි .
ප්රතිඑල
වශයෙන් විශ්ලේෂණය පෙන්වා දෙන්නේ , සිංහල භාෂාව සඳහා ස්වභාවික මිනිස් කටහඬට සමාන
හඬක්නිපදවීමේදී "Unit
selection " ක්රමය හොඳම
තේරීම බවයි . අවම ස්වභාවික මිනිස් කටහඬට සමාන හඬක් නිපදවා ඇත්තේ "formant synthesis " වේ . තීරණ ගැනීමේ
හැකියාව සහ ශබ්දයේ ගුණත්වය සඳහා "formant synthesis " සහ "diphone
concatenation " හොඳින් ක්රියා
කර ඇත . මේ අතර සියලු පද්ධතීන් විශ්ලේෂණය කල සියලු ගුණාංග සඳහා 50% කට වඩා අගයන් ලබාගෙන
තිබේ .
Y.T ජයමාන්න , W.V වෙල්ගම , Dr A.R වීරසිංහ
කොළඹ
විශ්වවිද්යාලයීය පරිගණක අධ්යයනායතනය