Wednesday, June 29, 2016

"Online " සම්මුඛ පරීක්ෂණයකදී මුහුණේ හැගීම් ප්‍රකාශණය හඳුනා ගැනීමේ ක්‍රමවේදයන් සහ කටහඬ විශ්ලේෂණය මගින් සම්මුඛ පරීක්ෂණයට භාජනය වන්නාගේ පෞරුෂත්ව ලක්ෂණ නීර්ණය කිරීම


සෑම සංවිධානයක්ම , ප්‍රමාණය සහ ක්‍රියාත්මක වන විෂය ප්‍රදේශය නොසලකා බන්දවගැනීමේ සම්මුඛ පරීක්ෂණ කාලීන ආකාරයට , එනම් සෑම තැනකම පවතින  ක්‍රියාවලියක් වන රැකියා අවස්ථාවක් සඳහා සේවා යෝජකයා විසින් ඇගයුම් කරණු ලබන ආකාරයට පවත්වනු ලැබේ . පෞද්ගලික බඳවා ගැනීම් වල  ස්වභාවය, "Online " එළැඹුමට  මතුවූ නැඹුරුව සමග වෙනස්වී තිබේ . මෙම පර්යේෂණයේදී අප සම්මුඛ පරීක්ෂණයට භාජනය වන්නාගේ පෞරුෂත්ව ලක්ෂණ හඳුනා ගැනීමටත්  පෞරුෂත්ව ලක්ෂණයට අදාලව  ප්‍රදර්ශනය කල මට්ටමට අනුව වර්ග කිරීමට , මුහුණේ හැගීම් ප්‍රකාශණය හඳුනා ගැනීමේ ක්‍රමවේදයන් සහ කටහඬ විශ්ලේෂණය මගින් රාජකාරි කටයුතු වලදී ඉහල සන්නිවේදන මට්ටමක් අවශ්‍ය IT රැකියා අවස්ථා සඳහා ළැදිකම, සහයෝගය දැක්වීම , විශ්වාස සහගත බව සහ චිත්තවේගාත්මක ස්ථායී බව යන පෞරුෂත්ව ලක්ෂණ ගැලපීමට ICT මත පදනම් වූ විසඳුමක් සපයනු ලබයි .

පාලිත ව්‍යුහාත්මක නොවන සම්මුඛ පරීක්ෂණ , සම්මුඛ පරීක්ෂණ ක්‍රියාවලියේදී ඇසට පෙනෙන දේ හඳුනාගැනීමට සහ ඔවුන් සම්මුඛ පරීක්ෂණයේදී  තක්සේරු කරන ලක්ෂණ හඳුනාගැනීමට බඳවාගැනීම්  හසුරුවන්නන් සමග පවත්වනු ලැබේ .බඳවාගැනීමට සහභාගී වන්නන් Expert sampling  මගින් තෝරාගනු ලබයි .  "Big Five personality Model " මත පදනම්ව ව්‍යුත්පන්න පෞරුෂයට අදාල තේමාවන් වෙන්කරනු ලැබේ .ගුණාත්මක දත්ත වලංගු කිරීම දැනටමත් බඳවා ගන්නා ලද  සේවානියුක්තියන් අතර "Goldberg 's Big Five personality Model " මත පදනම්ව කරන ලද පෞරුෂත්ව පරීක්ෂණය මගින් සිදු කරනු ලබයි .මෙම ක්‍රමය මගින් පෙර සඳහන් කරණ ලද පෞරුෂත්ව ගුණාංග හඳුනා ගැනේ . දත්ත එක්රැස් කිරීමේ දෙවන අදියර ලෙස ශබ්දය අවම කරණ ලද පරිසරයක මාස 06 සිට අවරුදු 04 දක්වා රැකියා අත්දැකීම් ඇති IT ව්‍යාපාර විශ්ලේෂකයන්ගේ  (පිරිමින් 26 , කාන්තාවන් 10) තාක්ෂණික නොවන මුහුණට මුහුණලා කෙරෙන පෙරහුරු  සම්මුඛ පරීක්ෂණ 36 ක වීඩියෝ සහ හඬ පටිගත කරගත හැකිවිය . පරීක්ෂා කිරීමේ හා ඇගයීමේ පරමාර්ථයෙන් "Online " ආකාරයට සිදුකරනු ලබන සම්මුඛ පරීක්ෂණ 08 ක් සමාන පරිසර තත්ත්ව යටතේ පටිගත කරගන්නා ලදී ."Piolet rating " මගින්  ගති ලක්ෂණ 4ක් අනුරූප ප්‍රශ්ණ සමග සම්බන්ද ( Map ) කරණ ලද අතර ඉහලින්ම ශ්‍රේණිගත කරණ ලද ප්‍රශ්ණ තෝරාගන්නා ලද අතර ඒවාගේ පිළිතුරු වෙන් කරගන්නා ලදී . පසුව එම වීඩියෝ සහ හඬ පට මිනිස් තක්සේරු කරන්නන් 5 දෙනෙකුට දෙන ලද අතර 1 සිට 5 දක්වා පරිමාණයට ඇගයුම් කරණු ලැබීය . ප්‍රාන්තර ආකාරයෙන් ඇගයුම් ප්‍රතිපල වෙනස් පංති 4 කට වෙන් කරණ ලදී .

මුහුණට මුහුණලා කෙරෙන සහ "Online "  සම්මුඛ පරීක්ෂණ වල හඬ පට අනවශ්‍ය ශබ්ද අවම කරණ ලද සහ audacity මගින් වෙන්කරණ ලද MP3 ආකෘතිය ආකාරයෙන් පටිගත කරගන්නා ලදී . ඉන්පසු PRAAT භාවිතයෙන් එම වෙන්කරගන්නා ලද ප්‍රශ්ණ 4 හි පිළිතුරු තෝරාගන්නා ලද අවාචික "Paralinguistic " සංඥා තීව‍්‍රතාව(intensity)(මධ්‍යම,අවම ,උපරිම ) , තාරතාව(Pitch)(මධ්‍යම,අවම ,උපරිම),සාධන්ත(formants)(F1,F2,F3,F4  ) සහ ඒවාගේ අදාල කලාප පළල(bandwidth) සඳහා විශ්ලේෂණය කෙරිණි . වීඩියෝ දත්ත සමුහය "Emotient " නම් වාණිජ මෘදුකාංගයක් භාවිතයෙන් විශ්ලේෂණය කරණ ලදී . යොදා ගන්නා ලද පරාමිතියන් වන්නේ සතුට , ශෝකය , අවඥාව , කෝපය , පිළිකුල , බිය සහ විමතියයි . අනෙක් පරාමිතියන් 3ක් වන අවධානය , බැඳීම සහ මනෝභාවය අපේක්ෂකයාගේ මූලික හැඟීම් වලින් ඇතිවිණි . මුහුණේ සංඥා සහ වාචික වර්ණාවලිය (vocal spectrum) විශ්ලේෂණයෙන් ලබාගත් දත්ත සඳහා , එක් එක් අපේක්ෂකයාගේ වාචික සහ මුහුණේ සංඥා සඳහා මිනිස් ඇගයීම් සිදුකරන්නන් විසින් ලබාදුන්  ලකුණු ගණන් වලින් උපදින ලද  සාමාන්‍යය ඇගයීම් අගයන් මගින් වර්ගීකරණ ප්‍රතිදාන පංති අගයන් ඇති කරණ ලදී .  මුහුණේ සංඥා විශ්ලේෂණය වර්ගීකරණය සඳහා "BayesNet" , "Naive Bayes" සහ "SVM" යන ප්‍රධාන වර්ගකාරක(classifiers) 3 භාවිත කරණ ලදී . වාචික වර්ණාවලිය (vocal spectrum) විශ්ලේෂණයෙන් ලබාගත් දත්ත "BayesNet" , "SVM" , "Random Tree" සහ "Random Forest" සමග භාවිත විය .

ප්‍රතිපල වලට අනුව චිත්තවේගී ස්ථායී බව හඬ සහ වීඩියෝ අනුව ක්‍රියාවට නැංවීමේදී හා පරීක්ෂා කිරීමේ අදියර වලදී සමස්ථ ඉහල නිවැරදි තාවන් (බොහෝ විට 85% ට වැඩි ) වලදී වර්ග කිරීම් වලට අනුව ලබාගත් ගුණාංගය විය . පර්යේෂණ සොයාගැනීම් වලට අනුව ,     "Random Forest " සහ "Random Tree " වැනි   "Tree" වර්ගීකාරකය(classifier ) මත පදනම් වූ  වර්ග කිරීමේ ආකෘතීන් සංසන්දනාත්මකව හොඳින් වාචික සංඥාවන් සමග සම්බන්ද ගුණාංග සමග සහ "LibSVM " වැනි  "Function " වර්ගීකාරක(classifier ) 65% ට වැඩි නිවරදිතාවක් මුහුණේ සංඥාවන් සමග සම්බන්ද ගුණාංග සම්බන්දයෙන් ලබාගෙන ඇත . මෙම පර්යේෂණය ANN විශාල නියැදි අගයන් සඳහා සලකමින් අනෙකුත් පෞරුෂත්ව ලක්ෂණ විවිධ රැකියා අවස්ථා සහ විවිධ ජාතීන් දක්වා දීර්ඝ කල හැකිය . ඉහත සොයා ගැනීම් අනාගතයේ "Real World Application " වැඩිදියුණු කිරීම සඳහා කරනු ලබන පර්යේෂණ වලට උපකාරයක් වේවි .

 



A.T Rupasinghe , N.L Gunawardena , D.A.S Athukorale
කොළඹ විශ්වවිද්‍යාලයීය පරිගණක අධ්‍යයනායතනය



Monday, May 30, 2016

“අන්ධ පුද්ගලයන්ට ඇස් ලබා දීම” - අකුරු වලින් උසස් තත්ත්වයේ සිංහල හඬ ලබා ගැනීම


මෙම පර්යේෂණය අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතීන් භාවිත කරන විවිධ ශිල්පීය ක්‍රම සංසන්දනය කිරීම සඳහා කරන ලද  අධ්‍යයනයක් ඉදිරිපත් කරණු ලබයි . භාෂා පර්යේෂණ ක්‍ෂේත්‍රයේ ආදර්ශනය සඳහා විවිධ ශිල්පීය ක්‍රම පවතී . මේ අතරින් අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතීන් "formant synthesis ","diphone concatenation " සහ "unit selection " යන ශිල්ප ක්‍රම මත පදනම් වී ඇති බව දැකගත හැකිය . එහෙත් "HMM " නැත්නම් "Hidden Markov Model " යනු සිංහල භාෂාව සඳහා මීට පෙර භාවිතා නොකරණ ලද තවත් ජනප්‍රිය ශිල්පීය ක්‍රමයකි.අවසන් අරමුණ සැලකිල්ලට ගැනීමෙන් "formant synthesis ", "diphone concatenation ", "unit selection " සහ "Hidden Markov Model " යන ශිල්පීය ක්‍රම 4 ඇගයීම සඳහා යොදා ගැනුනි. "HMM " මත පදනම්වූ අකුරු වලින් හඬ ලබා ගැනීමේ පද්ධතීන් සිංහල භාෂාව සඳහා නොමැති නිසා , අපගේ අධ්‍යයනයේ පළමු පියවර සඳහා අප විසින් "HMM " මත පදනම් වූ අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතියක් වැඩිදියුණු කරණ ලදී .

මෙම පර්යේෂණයේ ප්‍රධාන අරමුණ වන්නේ සිංහල භාෂාව සඳහා ඇති අකුරු වලින් හඬ ලබා ගැනීමේ පද්ධතීන් වැඩිදියුණු කිරීමේදී භාවිතා වන ශිල්පීය ක්‍රම ඇගයීම සහ අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතීන්  සඳහා හොඳම ශිල්පීය ක්‍රමයක් යෝජනා කිරීමත්ය . මෙම ක්‍රියාවලියේදී  සිංහල භාෂාව සඳහා "HMM " මත පදනම් වූ කාන්තා කටහඬක්  වැඩිදියුණු කර තිබේ .

පලවෙනි රූපයෙන් "HMM " මත පදනම් වූ අකුරු වලින් හඬ ලබා ගැනීමේ පද්ධතියේ සැකැස්ම දැක්වේ .




අකුරු වලින් හඬ ලබා ගැනීමේ පද්ධති නිර්මාණය කිරීමේදී හඬ සංකලනය සඳහා "frameworks" භාවිත වේ . මෙම පර්යේෂණයේදී අප  විසින්  MARRY (Modular Architecture for Research on Speech Synthesis )  නම්  අකුරුවලින් හඬ ලබා ගැනීමේ ක්ෂේත්‍රයේ පර්යේෂණ , වැඩිදියුණු කිරීම් සහ ඉගැන්වීම් සඳහා platform 1ක් සපයනු ලබන අකුරු වලින් හඬ ලබා ගැනීමේ ජර්මන් පධතියක් වන framework 1ක් භවිත කරන ලදී .

"HMM" මත පදනම් වූ අකුරු වලින් හඬ ලබා ගැනීමේ සිංහල පද්ධතිය වැඩිදියුණු කිරීමෙන් පසු ශබ්දයේ ගුණත්වය (Speech Quality) , ස්වභාවික බව (Naturalness) , තීරණ ගැනීමේ හැකියාව (Intelligibility) සහ භාවිතා කරන්නන්ගේ තේරීම (User Preference) යන තත්ත්ව ගුණාංග සැලකිල්ලට ගනිමින් ඇගයීම සිදුකරනු ලැබේ .

විශ්ලේෂණය අතරතුරදී අප විසින් කාණ්ඩ 3 කට අයත්  , "HMM " සහ "Unit selection " පද්ධතීන්ගේ  අභ්‍යාස වාක්‍ය කාණ්ඩයෙන් වාක්‍ය 5ක් , අභ්‍යාස වාක්‍ය කාණ්ඩයේ නොමැති අලුත් වචන වලින් සෑදුන වාක්‍ය 5ක් සහ පුවත් ලිපි වලින් අහඹු ලෙස ගන්නා ලද වාක්‍ය 5ක් ලෙස වක්‍ය 15ක් තෝරාගන්නා ලදී .

විශ්ලේෂණ වාර්තාවේ ප්‍රතිඵල දෙස බැලීමේදී මනින ලද ගුණාංගය මත එක් එක් ශිල්පීය ක්‍රමය  අනුව සිදුවන වෙනස්කම් දැකගත හැකි විය .

ශබ්දයේ ගුණත්වය සැලකීමේදී "diphone concatenation " සහ "formant synthesis " යන ශිල්පීය ක්‍රම පිලිවෙලින්  76.7% සහ 68.10% යන ඉහලම අගයන් ලබා ගැනුණි  . තීරණ ගැනීමේ හැකියාව සැලකීමේදී නැවතත් "diphone concatenation " ඉහලම 87.36% ලබා තිබුණි . තීරණ ගැනීමේ හැකියාව සැලකීමේදී සියළු ශිල්පීය ක්‍රම 75% කට වඩා වැඩි ප්‍රතිඵල ලබා දී ඇත . එනම් සියළු ශිල්පීය ක්‍රම දෙනලද වක්‍යයක් සඳහා 75%ක් නිවැරදි ප්‍රතිඵල ලබා දී ඇත. ශිල්පීය ක්‍රම තනි තනිව ගත් විට ඒවාගේ කාර්යක්ෂමතාව පිළිබඳව මෙය හොඳ දර්ශකයක් වේ .ස්වභාවික බව සැලකීමේදී "Unit selection " ඉහලම 73.2% ලබාගත් අතර "formant synthesis " පහළම 57% ලබාගෙන තිබුණි.

භාවිතා කරන්නන්ගේ තේරීම සැලකීමේදී  "Unit selection",භාවිතා කරන්නන්ගෙන් 50% ක් ද ,"diphone concatenation " 42% ක් ද  වන අතර "HMM " සඳහා එය 4%ක් විය . විශ්ලේෂණයට අනුව "diphone concatenation " ශබ්දයේ ගුණත්වයසහ තීරණ ගැනීමේ හැකියාව අනුව ඉහලින්ම සිටී . "Unit selection " සතුව හොඳම ස්වභාවික බව ඇත . භාවිතා කරන්නන්ගේ තේරීම සැලකීමේදී භාවිතා කරන්නන් ස්වභාවික බවට ශබ්දයේ ගුණත්වය සහ තීරණ ගැනීමේ හැකියාවට වඩා සැලකිල්ලක් දක්වා ඇති බව දැකගත හැකිය . එයින් අදහස් වන්නේ ගුණාත්මක හඬක් නිපදවීමේදී ස්වභාවික බව ප්‍රධාන කාර්යභාරයක් ඉටුකරනු ලබයි .

ප්‍රතිඑල වශයෙන් විශ්ලේෂණය පෙන්වා දෙන්නේ , සිංහල භාෂාව සඳහා ස්වභාවික මිනිස් කටහඬට සමාන හඬක්නිපදවීමේදී  "Unit selection " ක්‍රමය හොඳම තේරීම බවයි . අවම ස්වභාවික මිනිස් කටහඬට සමාන හඬක් නිපදවා ඇත්තේ  "formant synthesis " වේ . තීරණ ගැනීමේ හැකියාව සහ ශබ්දයේ ගුණත්වය සඳහා "formant synthesis " සහ "diphone concatenation " හොඳින් ක්‍රියා කර ඇත . මේ අතර සියලු පද්ධතීන් විශ්ලේෂණය කල සියලු ගුණාංග සඳහා 50% කට වඩා අගයන් ලබාගෙන තිබේ .


Y.T ජයමාන්න  ,  W.V වෙල්ගම , Dr  A.R වීරසිංහ 
කොළඹ විශ්වවිද්‍යාලයීය පරිගණක අධ්‍යයනායතනය