SQL to dplyr
Tue 30 April 2019အရင်ကတော့ Software Development မှာ အသုံးပြုကြတဲ့ Programming Language တွေသာ ကွာခြားလိမ့်မယ် Database ကတော့ ဘာပဲသုံးသုံး Query က SQL ဆိုတော့ Ad Hoc အနေနဲ့ Report တွေတို့ Analytics Reports တွေတို့ ကိုယ်ထုတ်ချင်ရင် ပရိုဂရမ်မာတွေကို ထုတ်ခိုင်းလေ့မရှိဘူး။ သူတို့ထုတ်လာရင် ကိုယ်လိုချင်တာနဲ့ ကိုက်ပါ့မလား မှန်လားမမှန်လား ပြန်စစ်ရတာ ပိုအချိန်ကြာတာရယ် ကိုယ့်ဟာကိုယ်ရေးရင် ဘယ်လောက်မှ မရေးရဘူးဆိုတော့ ကိုယ်တိုင်လည်းလုပ်တယ်။ နောက်ပိုင်း Relational Database တွေသုံးတာ နည်းနည်းလာတော့ ကိုယ်တိုင်ဝင်ပြီး အလွယ်တကူ ဝင်ပြီးတော့ Query လုပ်ကြည့်လို့ မရတော့ဘူး။ ကိုယ်တိုင်ကလည်း ပရိုဂရမ်မာဆိုတော့ API တွေနဲ့ Loop တွေပတ်ပြီး Analytics Report လုပ်ရမယ်ဆိုရင် ကိုယ်ဟာကိုယ်တောင် မယုံတော့ခက်တယ်။
မယုံရဲတဲ့လူတွေကိုပဲ အားကိုးပြီးတော့ လုပ်ခိုင်းတယ်ဆိုပေမယ့် မှန်လားမမှန်လား စစ်ဖို့အတွက်ကျ ဘဏ်မှာစာရင်းစစ်သလို ဂဏန်းတွက်စက်တလုံးနဲ့ ထိုင်စစ်လို့မရတော့ ကိုယ့်မှာလည်း Tools တွေလိုပါတယ်။ စစ်ဖို့အတွက် CSV လို Format တခုခုနဲ့ Export လုပ်ခိုင်းပြီး ကိုယ့်နည်းကိုယ်ဟန်နဲ့ ပြန်စစ်ကြည့်ရတယ်။ လွန်ခဲ့တဲ့ ၄-၅ နှစ်ကစပြီး R ကိုသုံးဖြစ်တယ် Data Analysis တွေအတွက် အဆင်ပြေပေမယ့် Data Manipulation တွေမှာကျ R ရဲ့ Built-in Function တွေသုံးရတာ အလုပ်မတွင်တဲ့ အတွက် Third Party Package တမျိုးသုံးကြည့်လိုက် Function တွေပြောင်းမှတ်နဲ့ လုံးလည်လိုက်တယ်။ ကိုယ့်ဟာကိုယ် လေ့လာလို့ခက်တယ် ထင်ပါတယ်ဆိုပြီး အတန်းသွားတက်လိုက်ရင် အတန်းတတန်းကို Package တမျိုးသုံးတာမြင်ပြီး ရူးချင်တောင်ရူးနိုင်ပါတယ်။ ကြာလာတော့ စိတ်မရှည်တဲ့အခါ Relational Database တခုခုထဲ Import လုပ်ပြီး သုံးလိုက်တာရှိတယ်။
ကိုယ့်လိုဒုက္ခတွေက ကိုယ့်လိုမျိုးတူတဲ့ တခြားလူတွေလည်း အနည်းနဲ့အများရှိကြတော့ အခုနောက်ပိုင်းမှာ အများသဘောကျတဲ့ Packages တွေကို စုပေါင်းပြီးတော့ tidyverse ဆိုပြီး ထွက်လာတော့မှပဲ R ကိုသုံးတဲ့ Data Analyst တွေရဲ့ဘဝလည်း ကောင်းနိုးရာရာ Package ပေါင်းစုံရှာဖွေရေး မလုပ်ရတော့ပဲ ငြိမ်းချမ်းတော့တယ်။ tidyverse မှာပါတဲ့ dplyr နဲ့ magrittr နှစ်ခုပေါင်းဟာ Data Manipulation အတွက် အတော်အဆင်ပြေတယ်။ SQL ရေးနေကျလူတွေ စဉ်းစားလေ့ရှိတဲ့ Paradigm အတိုင်း dplyr နဲ့ ရေးလို့ရတဲ့အတွက် dplyr သုံးလိုက်တဲ့ အခုနောက်ပိုင်းတော့ Database ထဲကို Import လုပ်လိုက်ရတဲ့ နှံပြည်စုတ်ကို အမြောက်နဲ့ချိန်ရတဲ့ ဖြစ်ရပ်မျိုးတွေ ကိုယ့်မှာတော့ တဖြည်းဖြည်းနဲ့ နည်းတော့လာပါပြီ။
R က လူအသုံးနည်းတဲ့အတွက် တခြားလူတွေအတွက် သုံးမတည့်ဖို့ များပေမယ့် စိတ်ကူးပေါက်တာနဲ့ SQL နဲ့ရေးရမယ့် အလုပ်တွေကို dplyr နဲ့ magrittr သုံးရင် ဘယ်လိုရေးကြမလဲ ယှဉ်ပြီးတော့မှ ရေးကြည့်ထားတယ်။ dplyr ကို Design လုပ်ခဲ့ကြတဲ့ လူတွေက Memory ထဲက Data တွေအပြင် Database ထဲက Data တွေကို R ကနေ လှမ်းပြီးတော့ ဖတ်တဲ့အခါလည်း သုံးလို့ရဖို့အတွက် လုပ်ခဲ့ကြတဲ့အတွက် dplyr နဲ့ SQL ဟာ concepts တွေဟာ အတော်များများ ထပ်တူညီလို့ရပါတယ်။ အောက်မှာပြထားတဲ့ Table 1 မှာ တူညီတဲ့ Concept တွေကို နမူနာအနေနဲ့ ယှဉ်ပြီးပြထားတယ်။ magrittr ကတော့ dplyr မှာ pipe အနေနဲ့ တွဲသုံးလို့ရလို့ Function တခုကထွက်လာတဲ့ Results တွေကို နောက်တခုကို အလွယ်တကူ ပေးလို့ရတယ်။
Concepts | SQL | dplyr |
---|---|---|
Concepts | SQL | dplyr |
Columns | SELECT | select(), mutate() |
Tables | FROM | Pipe or data parameter |
Rows | WHERE, HAVING | filter() |
Aggregations | GROUP BY | group_by(), summarise() |
Sorting | ORDER BY | arrange() |
Removing duplicated rows | DISTINCT | distinct() |
Top | TOP | top_n() |
Table 1: SQL and dplyr
Data အနေနဲ့ကတော့ dplyr မှာ Example သုံးလို့ရအောင်ပါလာတဲ့ Star Wars နဲ့ Storm tracks data တွေကိုပဲ သုံးပြထားတယ်။ Star Wars Data က Star Wars ထဲမှာပါတဲ့ ဇာတ်ကောင်တွေရဲ့ နာမည်၊ အသားအရောင်၊ ဆံပင်အရောင်၊ အရပ်အမောင်း၊ အလေးချိန် စသည်ဖြင့် Data တွေရှိပါတယ်။ Storm Tracks Data ကတော့ အတ္တလန်တိတ်သမုဒ္ဒရာမှာ ဖြစ်ပွားခဲ့တဲ့ ဟာရီကိန်းတွေရဲ့ နာမည်၊ နေ့စွဲ၊ အမျိုးအစား၊ လေတိုက်နှုန်း၊ လေဖိအား စသည်ဖြင့် Data တွေပါတယ်။ Data တွေရဲ့ Schema နဲ့ Metadata အသေးစိတ်ကိုတော့ သိချင်တယ်ဆိုရင် References မှာပြထားတဲ့ URLs တွေကတဆင့် သွားကြည့်ကြပါ။
ပထမဆုံးအနေနဲ့ SELECT ကို စမ်းကြည့်မယ် starwars ထဲမှာပါတဲ့ Rows တွေနဲ့ Columns တွေ အကုန်လိုချင်တယ် ဆိုကြပါစို့။ SQL မှာဆိုရင် အောက်မှာ ပြထားသလို ရေးရလိမ့်မယ်။
SQL
SELECT *
FROM starwars;
dplyr နဲ့ဆိုရင်တော့ အကုန်လုံးလိုချင်ရင် ဘာမှရေးစရာမလိုဘူး data တွေကို သိမ်းထားတဲ့ variable နာမည်ကိုပဲ ရိုက်ထည့်လိုက်ရင်ရပြီ။
dplyr
starwars
Columns တွေ အကုန်မလိုချင်ပဲ name
, height
, mass
ပဲ လိုချင်တယ်ဆိုရင်တော့ SQL နဲ့ဆိုရင် အောက်မှာပြထားသလို ရေးရလိမ့်မယ်။
SQL
SELECT name, height, mass
FROM starwars;
dplyr နဲ့ဆိုရင်တော့ ပထမဆင့်အနေနဲ့ Data အားလုံးကို magrittr ရဲ့ Pipe operator %>%
သုံးပြီးတဆင့်ရယ် လိုချင်တဲ့ Columns တွေကိုပဲ ပြန်ထုတ်တဲ့ အဆင့်ရယ်ဆိုပြီး ၂ ခုရေးရတယ်။
dplyr
starwars %>%
select(name, height, mass)
ဇာတ်ကောင်တွေရဲ့ လိုချင်တဲ့ name
, height
, mass
ကို ရပေမယ့် ဇာတ်ကောင်တွေက လူတွေရော စက်ရုပ်တွေရော ရောနေတဲ့အတွက် Rows အကုန်မလိုချင်ပဲ လူဇာတ်ကောင်တွေပဲ သိချင်တယ်ဆိုရင် SQL နဲ့ဆို အောက်မှာ ပြထားသလိုရမယ်။
SQL
SELECT name, height, mass
FROM starwars
WHERE species='Human';
dplyr နဲ့ဆိုရင် SQL နဲ့ ရှေ့နောက်ကွဲပေမယ့် Concept အရဆိုရင် တူတယ်ပဲပြောရမယ် အောက်မှာပြထားသလို ရေးရပါလိမ်မယ်။
dplyr
starwars %>%
filter(species=='Human') %>%
select(name, height, mass)
နောက်တဆင့်အနေနဲ့ လူဇာတ်ကောင်တွေမှာ အရပ်အမောင်းနဲ့ အလေးချိန်ကိုသိရင် BMI တွက်ကြည့်လို့ရတယ်။ BMI ရဲ့ Equation က \(BMI = weight(kg)/height(m)^2\) ဆိုတော့ ခက်ခက်ခဲခဲ မတွက်ရပါဘူး။
SQL
SELECT name, height, mass, mass/POWER(height/100, 2) AS bmi
FROM starwars
WHERE species='Human';
SQL မှာ Column တိုးတာက SELECT ထဲမှာ သင့်လျော်သလို ထည့်ရေးလို့ရသလို dplyr မှာလည်း mutate() ကိုသုံးရင်ရပါတယ်။
dplyr
starwars %>%
filter(species=='Human') %>%
mutate(bmi = mass/(height/100)^2) %>%
select(name, height, mass, bmi)
ထွက်လာတဲ့ အဖြေတွေကို ကြည့်လိုက်ရင် Darth Vader ကြီးဟာ BMI 33.3 ဆိုတော့ အဝလွန်နေတာ တွေ့ရပါတယ်။ သိပ်မသေချာတာက Darth Vader ရဲ့ Weight မှာ အစားထိုးထားရတဲ့ ခြေလက်တုတွေ ပါလားမပါလားတော့ Document ထဲမှာလည်း မပါတဲ့အတွက် တရားသေအနေနဲ့ ကောက်ချက်ချလို့ မရပါဘူး။
Star Wars ကို ခဏနားပြီးတော့ ဟာရီကိန်း Data တွေနဲ့ Aggregations တွေကို စမ်းကြည့်ကြဦးမယ်။ ဟာရီကိန်း Data မှာ year
, wind
, pressure
ဆိုပြီး Columns တွေပါတယ် အဲဒါတွေကို အခြေခံပြီးတော့ နှစ်လိုက် မုန်တိုင်း ဘယ်နှစ်ခါဖြစ်ခဲ့တယ် လေတိုက်နှုန်းနဲ့ လေဖိအား ပျမ်းမျှကို တွက်မယ်ဆိုရင် အောက်မှာပြထားသလို SQL နဲ့ dplyr အတွက် ရေးလို့ရပါတယ်။
SQL
SELECT year, avg(pressure) AS pressure_avg, avg(wind) AS wind_avg, count(*) AS total
FROM storms
GROUP BY year;
dplyr
storms %>%
group_by(year) %>%
summarise(pressure_avg=mean(pressure), wind_avg=mean(wind), total=n())
ဟာရီကိန်းမုန်တိုင်း အဖြစ်အများဆုံး ခုနှစ်ကို သိချင်တယ်ဆိုရင်တော့ အပေါ်ကထွက်လာတဲ့ results တွေကို total
နဲ့ ကြီးစဉ်ငယ်လိုက် စီကြည့်ရင် အလွယ်တကူသိတယ်။
SQL
SELECT year, avg(pressure) AS pressure_avg, avg(wind) AS wind_avg, count(*) AS total
FROM storms
GROUP BY year
ORDER BY total DESC;
dplyr
storms %>%
group_by(year) %>%
summarise(pressure_avg=mean(pressure), wind_avg=mean(wind), total=n()) %>%
arrange(desc(total))
ဒီလောက် အစပျိုးပြီးပြီဆိုရင် စိတ်ဝင်စားတဲ့လူတွေ ဟာရီကိန်းအဖြစ်အများဆုံး ၁၀ နှစ်တို့ လေတိုက်နှုန်းအမြင့်ဆုံးက ဘယ်နှစ်မှာဆိုရင် ဘယ်လပိုင်းတွေလဲ Star Wars ထဲမှာ လူဇာတ်ကောင်နဲ့ တခြားဇာတ်ကောင်တွေ အချိုးအစား ဘယ်လောက်ကွာလဲ စသည်ဖြင့် စိတ်ကူးပေါက်ရာတွေ လက်တည့်စမ်းလို့ ရလောက်ပါပြီ။
dplyr မှာ magrittr ရဲ့ Pipe operator %>%
ကြောင့် select
ပြီးမှ filter
လာရမယ် စသည်ဖြင့် ကန့်သတ်ချက်တွေမရှိပဲ SQL မှာလို Subquery တွေ မလိုအပ်ပဲ ရေးစရာမလိုဘူး။ Query Language မဟုတ်ပဲ Programming Language ဖြစ်နေတော့ တန်းတူယှဉ်ကြည့်လို့တော့ မသင့်လျော်ဘူးပေါ့။ စမ်းသုံးကြည့်လို့ စိတ်ဝင်စားသွားရင် ဆက်ပြီးတော့ dplyr ရဲ့ Documents မှာဖြစ်ဖြစ် R for Data Science ရဲ့ Data Transformation Chapter မှာဖြစ်ဖြစ် ဖတ်ဖို့လိုပါလိမ့်မယ်။
မှတ်ချက်။ ။ SQL Statemens တွေက စိတ်ကူးထဲပေါ်လာတဲ့ Concept ကို ချရေးထားတာဖြစ်ပြီး Data တွေကို Database တခုခုထဲကို ထည့်စမ်းကြည့်ဖို့ ပျင်းတဲ့အတွက် စမ်းမထားမိတာကြောင့် Syntax အမှားပါနိုင်ပါတယ်။
References
- dplyr - https://dplyr.tidyverse.org
- R for Data Science - https://r4ds.had.co.nz/transform.html
- Starwars characters - https://dplyr.tidyverse.org/reference/starwars.html
- Storm tracks data - https://dplyr.tidyverse.org/reference/storms.html