Calm Hill My Random Thoughts

Data Mining Specialization - Reviews

Data Analysis နဲ့ပတ်သက်တဲ့ Data Warehousing, Data Mining, Text Retrieval, Text Mining စတာတွေဟာ ကိုယ့်ရဲ့ Professional Life ထဲက အလုပ်တွေဖြစ်သလို လုပ်လာခဲ့ရတာလည်း နှစ်လည်းအတော်ကြာခဲ့ပြီ။ Data Mining ကို ပထမဆုံး လေ့လာခဲ့တာက ကိုယ်ဂုဏ်ထူးတန်း တက်နေတုံးမှာ Master Thesis လုပ်နေတဲ့ တယောက်ကို ကူပေးရင်းနဲ့ Prof. Jiawei Han ရေးတဲ့ Data Mining Concepts and Techniques စာအုပ်နဲ့ စပြီးတော့ ရင်းနီးခဲ့ဖူးတယ်။ ကိုယ် Master တန်းရောက်တော့လည်း အဲဒီ့စာအုပ်နဲ့ပဲ သင်ခဲ့ရပဲဖြစ်သလို မြန်မာနိုင်ငံကထွက်လာပြီး တခြားတက္ကသိုလ်တခု ရောက်ပြန်တော့လည်း Data Mining ထပ်ယူဖြစ်တော့ အဲဒီ့စာအုပ်နဲ့ပဲ ထပ်ပြီးတော့ သင်ခဲ့ရပြန်တယ်။ Professor Jiawei Han ဟာ University of Illinois, Urbana-Champaign က Abel Bliss Professor ဖြစ်ပြီးတော့ ယနေ့ခေတ် Data Mining ရဲ့ အစောပိုင်းလူတွေထဲက တယောက်ဖြစ်သလို သူရေးတဲ့ Data Mining Concepts and Techniques ဆိုတဲ့စာအုပ်ဟာ တက္ကသိုလ်အများစုရဲ့ ကွန်ပျူတာသိပ္ပံဌာနတွေမှာ Data Mining အတွက် Textbook အဖြစ် အသုံးအများဆုံးစာအုပ်ပါ။

Coursera မှာ Data Mining Specialization ဆိုပြီးတော့ Specialization Course တခုစပြီးတော့ဖွင့်တော့ သင်မယ့်လူက Prof. Jiawei Han ပါတော့ ကိုယ့်ကို Textbook တအုပ်နဲ့တင် နှစ်ပေါင်းများစွာ ဒုက္ခပေးလာနိုင်ခဲ့တဲ့ လူတယောက်ဟာ ဘယ်လိုလဲလို့သိချင်မိတာနဲ့ Course ကို Register လုပ်ထားလိုက်တယ်။ Course ဟာ Data Mining Specialization လို့သာ နာမည်တပ်ထားပေမယ့် ယူရမယ့်ဘာသာတွေမှာ Data Mining က ၂ ဘာသာ Text Retrieval and Mining က ၂ ဘာသာ Data Visualization က ၁ ဘာသာနဲ့ နောက်ဆုံးအနေနဲ့ Applied Project ၁ ဘာသာဆိုပြီး စုစုပေါင်း ၆ ခုပါတယ်။ ၃ ဘာသာကို Semester တခုစာအတွင်း ပေါင်းထည့်ထားတော့ အတော်လေးတော့ Course ကိုလျှော့ထားပေမယ့် သိသင့်သိထိုက်တာတော့ အားလုံးပါအောင်တော့ စနစ်တကျအနေနဲ့ ထည့်ထားပါတယ်။

https://www.coursera.org/specializations/datamining

Data Mining အတွက် Pattern Discovery နဲ့ Cluster Analysis ဆိုတဲ့ ၂ ဘာသာကိုတော့ Prof. Jiawei Han ကိုယ်တိုင်သင်ပါတယ် သူသင်တဲ့ပုံစံဟာ ပြောတာနည်းပြီးတော့ ကိုယ်တိုင်ပဲ စာဖတ်ပြီးတော့ စဉ်းစားရတာက ပိုများတဲ့အခြေအနေရှိတယ် အပတ်စဉ်အတွက် ကြည့်ရတဲ့ Lecture Video ဟာ အတော်လေးတိုပါတယ် အများအားဖြင့်တော့ Course Contents တွေဟာ သူရေးတဲ့စာအုပ်ကနေ ထုတ်နှုတ်ထားတာပါ။ Cluster Analysis အတွက်မှာတော့ Course ဟာ Textbook ရဲ့ Content အပြင် လက်ရှိသူလုပ်နေတဲ့ Research တွေက Methods တွေကိုထည့်ထားတဲ့အတွက် ပေးထားတဲ့ Research Papers တွေကိုဖတ်ဖိုလိုတယ်။ ကိုယ့်အတွက်တော့ ပျားရည်အိုးထဲ မှောက်ကျသလိုဖြစ်ပေမယ့် အလေ့အကျင့်မရှိတဲ့ လူတွေအတွက်ဆိုရင်တော့ အတော်လေးခက်သွားတဲ့ အခြေအနေရှိလိမ့်မယ်။ Data Mining ၂ ဘာသာအတွက် ဂုဏ်ထူးထွက်ဖို့အတွက် Assessment မှာ 95% နဲ့အထက်ရဖို့လိုပါတယ် သာမန် MOOCs တွေမှာ Multiple Attempt ဆိုရင် အမှတ်ပြည့်ရဖို့ လွယ်ပေမယ့် Data Mining Course တွေမှာတော့ တခါထပ်ဖြေရင် မေးခွန်းက အသစ်စက်စက် ၁ခု ထပ်ထွက်လာလို့ သင်ထားတာတွေကို လက်နဲ့ချတွက်ရင်တွက် ဒါမှမဟုတ် Program ရေးမထားမိရင် နောက်တခါထပ်ဖြေလည်း နားမလည်ရင် ဘယ်လိုမှထပ်ပြီးတော့ ဖြေနိုင်မယ့် အခြေအနေမရှိပါဘူး။

Text Mining အတွက် Text Retrieval နဲ့ Text Mining ၂ ဘာသာကိုတော့ Prof. Cheng Xiang Zhai သင်ပါတယ် သူလည်း Text Mining Field မှာတော့ လူသိများတဲ့လူတယောက်ပါ။ သူကတော့ ရှင်းပြတာစိတ်အတော်ရှည်လို့ Lecture Video တွေဟာ ရှည်လွန်းလို့ တပတ်တပတ်အတွက် ပြီးအောင်ကိုမနည်း ကြည့်ရတဲ့အခြေအနေရှိပါတယ်။ Text Mining Course တွေမှာက Implementation တွေကို Programming Assignment တွေပါတယ် အများအားဖြင့်က C++ နဲ့ရေးရလိမ့်မယ် သိပ်ပြီးတော့ ခက်တယ်လို့ ပြောလို့မရပေမယ့် သာမန်လူအတွက်တော့ Setup, Build, Modify, Evaluate ဆိုတာတွေက အခြေအနေတခုအထိတော့ ခက်ခဲ့ပါလိမ့်မယ်။ အဲဒါအပြင် ပြိုင်ပွဲတွေလည်းရှိတယ် Text Corpus အကြီးကြီးပေးထားပြီးတော့ Mine လုပ်ပြီး ထွက်လာတဲ့အဖြေတွေ ဘယ်လောက်ကောင်းလဲကို Course ထဲမှာရှိတဲ့လူတွေ အပြိုင်အဆိုင်ပြိုင်ရတယ် Online Leaderboard ပေးထားတော့ တယောက်အမှတ်ကို တယောက်ကျော်တက်နဲ့ အပြိုင်အဆိုင်တော့ အတော်လေးလုပ်ရပါတယ်။ ပြိုင်ပွဲမှာအမှတ်ကို ဒဿမနေရာ ၂ နေရာလောက်မှာ ၁ ခုတက်လာဖို့ဆိုတာ မနည်းလုပ်ယူရတယ် အဲဒီအခြေအနေမှာ ကိုယ့်ရဲ့ Statistics Knowledge ဘယ်ကလောက် အခြေအနေရှိလဲ လက်တွေ့သိပါလိမ့်မယ်။ Text Mining Assessment တွေကတော့ တွက်ရတာသိပ်မပါပေမယ့် Equations တွေကို အသေအချာ နားလည်မှတော့ ဖြေလို့ရပါလိမ့်မယ် Single Attempt ပဲပေးထားပြီးတော့ 90% ကျော်မှပဲ ဂုဏ်ထူးထွက်ပါတယ်။

Data Visualization ကိုတော့ Prof. John C. Hart သင်ပါတယ်။ Course ရဲ့တကယ့် အနေအထားအရဆိုရင်တော့ ၁ လပဲသင်ရမှာဖြစ်လို့ ကျောင်းတက်နေစဉ်က ကိုယ်သင်ခဲ့ရသလို Semester တခုစာ Visualization Course နဲ့ယှဉ်ကြည့်ရင်တော့ အတော်လေးကို လျှော့ထားတာဖြစ်ပေမယ့် အရေးကြီးတဲ့ အခြေခံအားလုံးတော့ ပါတယ်လို့ပြောလို့ရပါတယ်။ John C. Hart သင်တာလည်း လူနားလည်အောင် အတော်လေးသင်နိုင်သလို Assessment တွေကတော့ Quiz တွေအပြင် Implementation ဟာလည်း မလုပ်မနေရဖြစ်ပါတယ် နောက်ပြီးတော့ Implementation အတွက် Grading ဟာ Peer Assessment ဖြစ်တဲ့အတွက် ကိုယ်လုပ်ထားတဲ့ Implementation ကို ကိုယ့်လိုပဲ အတန်းတက်နေတဲ့ ကျောင်းသား အနည်းဆုံး ၄ ယောက်ကစစ်ပြီးတော့ အမှတ်ပေးပါလိမ့်မယ် အားလုံးရဲ့ Average ကိုယူပြီးအမှတ်ပေးမှာဖြစ်လို့ အောင်ဖို့ကမခက်ပေမယ့် သာမန်အနေအထားနဲ့ အမှတ်များများရဖို့ခက်ပါတယ် အမှတ်ပေးမယ့်လူကို ကိုယ့်ရဲ့ Visualization ကိုမြင်တာနဲ့ အားကျသွားလောက်တဲ့ အခြေအနေဖြစ်အောင် လုပ်မပြထားနိုင်ရင် အမှတ်ပြည့်ရဖို့ခက်ပါတယ်။ Data Visualization မှာလည်း Data Mining လိုပဲ 95% အနည်းဆုံးရမှပဲ ဂုဏ်ထူးထွက်ပါလိမ့်မယ်။

နောက်ဆုံးအတန်းဖြစ်တဲ့ Data Mining Capstone ကတော့ အခက်ခဲဆုံးဖြစ်လိမ့်မယ် Real Dataset တခုပေးထားပြီးတော့ သင်ခဲ့သမျှ ၅ ဘာသာလုံးကို Apply လုပ်ရပါလိမ့်မယ် လိုအပ်တဲ့ Data တွေ Tools တွေကို သာမန်အနေအထားပဲ ပေးထားပြီးတော့ လိုအပ်တဲ့ Research Paper တွေထဲက Algoritham တွေကိုလည်း ကိုယ်တိုင်လည်း Implement လုပ်ဖို့ လိုအပ်တဲ့အခါလည်း လိုအပ်ပါတယ်။ Data Mining အတွက် Tasks တွေဟာ အများအားဖြင့် ၂ ပိုင်းပါပြီးတော့ ဒုတိယပိုင်းဟာ အများအားဖြင့် Data Mining Results တွေကို User နားလည်လွယ်တဲ့ Visualization လုပ်ပေးဖို့အမြဲလိုတယ်။ Text Mining အတွက် Tasks တွေက Text Mining ဘာသာတွေရဲ့ Assignment တွေလိုပဲ Competative တွေပါပဲ Capstone ရဲ့ Competitation တွေကတော့ အများကြီးပိုပြီးတော့ခက်ပါတယ်။ Data Mining Capstone မှာ Tasks တွေအမှတ်ပေးတာဟာ အားလုံး Peer Assessment တွေဖြစ်ပါတယ် Task တခုချင်းအတွက် Report တခုအမြဲရေးရတယ် Data တွေကို Process ဘယ်လိုလုပ်လဲ Implementation ဘယ်လိုလဲ Visualized Diagram စသည်ဖြင့် အမှတ်ပေးမယ့်လူ နားလည်အောင် အသေအချာရေးပေးရတယ် Academic Report အတော်လေးဆန်တော့ အလေ့အကျင့်မရှိတဲ့လူအတွက် နည်းနည်းခက်လိမ့်မယ်။

အားလုံးပြန်ပြီး အကျဉ်းချုပ်ပါဆိုရင် Data Mining နဲ့ Text Mining တွေဟာ ကျောင်းမှတက်စဉ်ကတည်းက အတော်လေးကို ပင်ပန်းတဲ့ဘာသာတွေဖြစ်လို့ ယူကြတဲ့လူလည်းနည်းပါတယ်။ တက်ကြည့်ချင်တယ်ဆိုရင်တောင် Undergrad ကို Computer Science or related ပြီးပြီးတော့ Data Mining ကို စိတ်ဝင်စားမှပဲ တက်ကြည့်ပါလို့ပဲ အကြံပေးရမယ် အစမ်းတက်ကြည့်သင့်တဲ့ Course တော့ မဟုတ်ပါဘူး။ On-Line ဆိုပေမယ့် Data Mining Specialization ဟာ အတော်လေးကို ပင်ပန်းပါတယ် ၆ လကျော်အောင် အချိန်ကိုဆက်တိုက်ပေးရမယ် အပတ်စဉ် Assessement တွေလုပ်ရတာ Stress များပါတယ်။ နောက်ဆုံး Capstone ဟာ အခက်ဆုံးဖြစ်လိမ့်မယ် အတန်းတွေရဲ့ Statistics အရဆိုရင် ပထမဆုံး Course မှာ Register လုပ်တဲ့လူ ၄၁၀၀၀ ကျော်ကနေ နောက်ဆုံး Captastone မှာ လူ ၁၀၀ ကျော်ပဲရှိတော့တယ် Forum တွေထဲက Profile တွေအရဆိုရင် နောက်ဆုံးတန်းအထိ ပါလာတဲ့လူတွေဟာ တက္ကသိုလ်တွေက ကျောင်းဆရာတွေနဲ့ Analytical Industry ထဲက လူတွေပဲများတယ်။ ကျောင်းသားတွေကို Motivate လုပ်ဖို့အတွက် ပြိုင်ပွဲတွေလုပ်တယ် ဆုတံဆိပ်တွေပေးတယ် အတန်းရဲ့အအောင်အရှုံးဟာ အဲဒါတွေနဲ့မပတ်သက်ပေမယ့် တက်နေတဲ့လူတွေကို သာမန်အနေအထားထက် ပိုပြီးကြိုးစားအောင် စနစ်တကျ Pedagogically Gamify လုပ်ပြီးတော့ Syllabus ကိုဆွဲထားကို သဘောအကျဆုံးပဲ။ Gamify လုပ်နေမှန်းသိပေမယ့် ကိုယ်တိုင်လည်း အဲဒီ့ Mood ထဲကိုပါသွားပြီးတော့ Data Mining, Text Mining and Visualization ၅ ဘာသာမှာအားလုံး ဂုဏ်ထူးထွက်တဲ့အတွက် Course အားလုံးရဲ့ Hall of Fame မှာ ကိုယ့်နာမည်ပါတယ် Capstone ကတော့ အမှတ်ပေးတာ Final Report အတွက် မပြီးသေးတော့ အတိအကျ မပြောနိုင်သေးပေမယ့် ပြီးခဲ့တဲ့အမှတ်တွေနဲ့တင် အောင်တာကအောင်နေပါပြီ။