Topic Model and Tipitaka
Tue 15 September 2015အလုပ်မရှိ အလုပ်ရှာတယ်ပဲ ပြောပြောပေါ့ ကိုယ်လုပ်ချင်တာ လုပ်နေရရင် အိပ်ရေးပျက်လည်း ပျက်မှန်းမသိဘူး အချိန်လေးနည်းနည်းရလို့ Text Mining တွေပြန်ဖတ် လျှောက်စမ်းကြည့်နဲ့ တခါလာလည်း English Corpus တွေနဲ့ သံသရာလည်နေတော့ သိပ်ပြီးတော့ စိတ်မဝင်စားတာနဲ့ မဖြစ်သေးဘူးဆိုပြီး ထွက်ပေါက်ရှာတော့ လွန်ခဲ့တဲ့နှစ်ထဲက လုပ်ထားတဲ့ တိပိဋိက မြန်မာပြန်တွေကို Tipitaka Cropus ဆိုပြီး Text Corpus လုပ်ထားတာ ပြန်သတိရတာနဲ့ Topic Model တခုခုကို စမ်းကြည့်ဖို့အကြံရတယ်။
Data အနေနဲ့ကတော့ Sutta Central ထဲမှာရှိတဲ့ မြန်မာဘာသာပြန်တွေကို သင့်လျော်သလို Process လုပ်ပြီးထားတာ Data တွေအတွက်က ဦးဇင်း ငနုချောင်းသားကို ကျေးဇူးတင်ရမယ် ဦးဇင်းနဲ့ အရင်နှစ်ထဲက စကားပြောဖြစ်ကြရင်းနဲ့ ပိဋိကတ်ကို ပါဠိလိုကနေ မြန်မာပြန်အထိ ရှိတာတွေကို နမူနာပြလို့ လိုက်ရှာရင်းနဲ့ Sutta Central ရဲ့ Repo ကိုရောက်ပြီးတော့ Text Corpus လုပ်ဖို့ စိတ်ကူးရတာနဲ့ လုပ်ထားဖြစ်ခဲ့တယ်။
Topic Model ဆိုတာကတော့ အလွယ်ပြောရရင်တော့ Text တွေကို Statistically ပဲဖြစ်ဖြစ် Probabilistically ပဲဖြစ်ဖြစ် Analyze လုပ်ပြီးတော့ Text တွေဟာ ဘာအကြောင်းအရာကို ဆိုလိုလဲဆိုပြီး ခေါင်းစဉ်ခွဲပေးတာလို့ ပြောရင်ရမယ်။ Topic Model အမျိုးမျိုးထဲကမှ လူသုံးများတဲ့ Latent Dirichlet Allocation (LDA) ကိုသုံးပြီး စမ်းကြည့်ထားတယ် ဘယ်လိုအလုပ်လုပ်လဲ သိချင်ရင်တော့ ကိုယ့်ဟာကိုယ်ရှာဖတ်ပါ။ Text Processing မှာ အခြေခံအကျဆုံးဖြစ်တဲ့ Tokenization ကိုက မြန်မာစာအတွက် အတော်အခက်အခဲရှိတော့ သိပ်ပြီးတော့ကောင်းတဲ့ Result ထွက်လာမယ်တော့ မျှော်လင့်မထားခဲ့မိဘူး။
Data
https://github.com/suttacentral/suttacentral-data
Topics - မဇ္ဈိမနိကာယ်
Tokenization ကို Whitespace နဲ့ပဲဖြတ်လိုက်တယ် အဖြေတွေထွက်လာတော့ သိပ်ပြီးတော့မဆိုးဘူး ခံစားမိတယ် ဒါပေမယ့် ထွက်လာတဲ့ Result ကတော့ Stop Words တွေအတော်ပါတော့ Token တွေကို “ဖြစ်၏” “နှင့်” “ထို” “သို့သော်” စသည်ဖြင့် Stop Words List လုပ်ပြီး Filter လိုက်တော့ အခြေအနေက အတော်လေး တိုးတက်လာတယ် ထပ်ပြီးတော့ လုပ်စရာတွေက အများကြီးရှိပါတယ် အချိန်ရမှ စမ်းကြည့်ရမယ်။ အပေါ်ကပုံက မဇ္ဈိမနိကာယ်ကို LDA နဲ့ Topic ထုတ်ပြီးတော့ Visualized လုပ်ထားတာ သာမန်ဖတ်ကြည့်တာတော့ အဓိပ္ပာယ်မရှိတဲ့ Topic တွေ ထွက်လာတယ်တော့မဟုတ်ဘူး ဖတ်ကြည့်ရင် သာမန်လူအတွက် အဓိပ္ပာယ်က အထိုက်အလျောက် ရှိတယ်လို့ ယူဆလို့ရတယ်။ ကောင်းပါတယ်လို့ ပြောဖို့ဆိုတာက ကိုယ့်အခြေအနေက Field Expert မဟုတ်တာရယ် တကယ်တမ်း Statistically evaluate လုပ်မကြည့်တော့ ကောင်းတယ်မကောင်းဘူး တကယ်တမ်းပြောဖို့ကတော့ မသင့်သေးပါဘူး။