Topic Model and Tipitaka

Tue 15 September 2015

အလုပ်မရှိ အလုပ်ရှာတယ်ပဲ ပြောပြောပေါ့ ကိုယ်လုပ်ချင်တာ လုပ်နေရရင် အိပ်ရေးပျက်လည်း ပျက်မှန်းမသိဘူး အချိန်လေးနည်းနည်းရလို့ Text Mining တွေပြန်ဖတ် လျှောက်စမ်းကြည့်နဲ့ တခါလာလည်း English Corpus တွေနဲ့ သံသရာလည်နေတော့ သိပ်ပြီးတော့ စိတ်မဝင်စားတာနဲ့ မဖြစ်သေးဘူးဆိုပြီး ထွက်ပေါက်ရှာတော့ လွန်ခဲ့တဲ့နှစ်ထဲက လုပ်ထားတဲ့ တိပိဋိက မြန်မာပြန်တွေကို Tipitaka Cropus ဆိုပြီး Text Corpus လုပ်ထားတာ ပြန်သတိရတာနဲ့ Topic Model တခုခုကို စမ်းကြည့်ဖို့အကြံရတယ်။

Data အနေနဲ့ကတော့ Sutta Central ထဲမှာရှိတဲ့ မြန်မာဘာသာပြန်တွေကို သင့်လျော်သလို Process လုပ်ပြီးထားတာ Data တွေအတွက်က ဦးဇင်း ငနုချောင်းသားကို ကျေးဇူးတင်ရမယ် ဦးဇင်းနဲ့ အရင်နှစ်ထဲက စကားပြောဖြစ်ကြရင်းနဲ့ ပိဋိကတ်ကို ပါဠိလိုကနေ မြန်မာပြန်အထိ ရှိတာတွေကို နမူနာပြလို့ လိုက်ရှာရင်းနဲ့ Sutta Central ရဲ့ Repo ကိုရောက်ပြီးတော့ Text Corpus လုပ်ဖို့ စိတ်ကူးရတာနဲ့ လုပ်ထားဖြစ်ခဲ့တယ်။

Topic Model ဆိုတာကတော့ အလွယ်ပြောရရင်တော့ Text တွေကို Statistically ပဲဖြစ်ဖြစ် Probabilistically ပဲဖြစ်ဖြစ် Analyze လုပ်ပြီးတော့ Text တွေဟာ ဘာအကြောင်းအရာကို ဆိုလိုလဲဆိုပြီး ခေါင်းစဉ်ခွဲပေးတာလို့ ပြောရင်ရမယ်။ Topic Model အမျိုးမျိုးထဲကမှ လူသုံးများတဲ့ Latent Dirichlet Allocation (LDA) ကိုသုံးပြီး စမ်းကြည့်ထားတယ် ဘယ်လိုအလုပ်လုပ်လဲ သိချင်ရင်တော့ ကိုယ့်ဟာကိုယ်ရှာဖတ်ပါ။ Text Processing မှာ အခြေခံအကျဆုံးဖြစ်တဲ့ Tokenization ကိုက မြန်မာစာအတွက် အတော်အခက်အခဲရှိတော့ သိပ်ပြီးတော့ကောင်းတဲ့ Result ထွက်လာမယ်တော့ မျှော်လင့်မထားခဲ့မိဘူး။

Data

https://github.com/suttacentral/suttacentral-data

Topics - မဇ္ဈိမနိကာယ်

Tokenization ကို Whitespace နဲ့ပဲဖြတ်လိုက်တယ် အဖြေတွေထွက်လာတော့ သိပ်ပြီးတော့မဆိုးဘူး ခံစားမိတယ် ဒါပေမယ့် ထွက်လာတဲ့ Result ကတော့ Stop Words တွေအတော်ပါတော့ Token တွေကို “ဖြစ်၏” “နှင့်” “ထို” “သို့သော်” စသည်ဖြင့် Stop Words List လုပ်ပြီး Filter လိုက်တော့ အခြေအနေက အတော်လေး တိုးတက်လာတယ် ထပ်ပြီးတော့ လုပ်စရာတွေက အများကြီးရှိပါတယ် အချိန်ရမှ စမ်းကြည့်ရမယ်။ အပေါ်ကပုံက မဇ္ဈိမနိကာယ်ကို LDA နဲ့ Topic ထုတ်ပြီးတော့ Visualized လုပ်ထားတာ သာမန်ဖတ်ကြည့်တာတော့ အဓိပ္ပာယ်မရှိတဲ့ Topic တွေ ထွက်လာတယ်တော့မဟုတ်ဘူး ဖတ်ကြည့်ရင် သာမန်လူအတွက် အဓိပ္ပာယ်က အထိုက်အလျောက် ရှိတယ်လို့ ယူဆလို့ရတယ်။ ကောင်းပါတယ်လို့ ပြောဖို့ဆိုတာက ကိုယ့်အခြေအနေက Field Expert မဟုတ်တာရယ် တကယ်တမ်း Statistically evaluate လုပ်မကြည့်တော့ ကောင်းတယ်မကောင်းဘူး တကယ်တမ်းပြောဖို့ကတော့ မသင့်သေးပါဘူး။

Category: ကြံသည်ဖန်သည်

Tags: Topic Model, Text Mining, Data Mining, NLP

Calm Hill

Calm Hill My Random Thoughts

Topic Model and Tipitaka