15/02/2026
Data Analysis မစခင် ဒါတွေ စစ်ပြီးပြီလား? (Preprocessing Guide)
ဒေတာတွေ ရှိရုံနဲ့ မရပါဘူး၊ "အရည်အသွေး" ရှိဖို့လည်း လိုပါတယ်။ အမှိုက်ထည့်ရင် အမှိုက်ပဲ ထွက်လာမှာမို့ (Garbage In, Garbage Out) အောက်ပါ အဆင့် ၄ ဆင့်ကို သေချာ လုပ်ဆောင်ရပါမယ်။
၁။ Missing Values (ပျောက်ဆုံးနေသော ဒေတာများကို ကိုင်တွယ်ခြင်း)
ဒေတာတွေ စုတဲ့အခါ အကြောင်းအမျိုးမျိုးကြောင့် အချက်အလက် တချို့ လွတ်နေတတ်ပါတယ်။ ဒါကို Data Imputation လို့ ခေါ်တဲ့ နည်းလမ်းတွေနဲ့ ဖြေရှင်းကြပါတယ်။
ဘယ်လိုရှင်းမလဲ?
Deletion: အချက်အလက် အရမ်းနည်းရင် အဲဒီ Row ကို ဖျက်ပစ်ပါ။ (ဒါပေမဲ့ ဒေတာ အနည်းငယ်ပဲ ရှိရင်တော့ ဒါကို ရှောင်သင့်ပါတယ်)။
Mean/Median Imputation: ကိန်းဂဏန်းတွေ ဖြစ်နေရင် ပျမ်းမျှတန်ဖိုး (Mean) သို့မဟုတ် အလယ်ကိန်း (Median) နဲ့ အစားထိုးပါ။
Mode Imputation: စာသား (Category) တွေ ဖြစ်နေရင် အများဆုံး ပါဝင်တဲ့ စာသားနဲ့ အစားထိုးပါ။
၂။ Outlier Detection (ထူးခြားချက်တွေကို ရှာဖွေခြင်း)
အုပ်စုထဲမှာ တခြားဒေတာတွေနဲ့ လုံးဝမတူဘဲ ကွဲထွက်နေတဲ့ တန်ဖိုးတွေကို Outliers လို့ ခေါ်ပါတယ်။ ဥပမာ- လူကြီးတွေရဲ့ အသက်ကို စာရင်းသွင်းရာမှာ ၂၀၀ နှစ် ဆိုပြီး ပါနေတာမျိုးပါ။
ဘယ်လိုရှာမလဲ?
Box Plots: ဇယားဆွဲကြည့်ရင် အစက်ကလေးတွေ အဝေးကြီးမှာ ထွက်နေတာကို တွေ့ရပါလိမ့်မယ်။
Z-Score: သင်္ချာနည်းအရ Standard Deviation ရဲ့ အပြင်ဘက်ကို ရောက်နေတဲ့ ဒေတာတွေကို စစ်ထုတ်တာပါ။
ကိုင်တွယ်ပုံ: ဒါက အမှားဆိုရင် ဖျက်ပစ်ပါ၊ ဒါပေမဲ့ တစ်ခါတလေ ဒီ Outlier ကပဲ ထူးခြားတဲ့ Business Insight ဖြစ်နေတတ်တာကို သတိပြုပါ။
၃။ Feature Scaling (တန်ဖိုးများ ညှိယူခြင်း)
ဒေတာတွေရဲ့ ယူနစ်တွေ မတူတဲ့အခါ (ဥပမာ- အသက်က ၁၈-၆၀ ကြား၊ လစာက ၁ သိန်း ကနေ ၁၀ သိန်းကြား) Analysis လုပ်ရင် လစာက ပိုအရေးကြီးသလိုမျိုး Machine လွဲမှားသွားတတ်ပါတယ်။
ဘယ်လိုညှိမလဲ?
Normalization: ဒေတာအားလုံးကို 0 နဲ့ 1 ကြားထဲ ရောက်အောင် ချုံ့ပစ်တာပါ။
x_new = (x - x_min)/(x_max - x_min)
Standardization: ပျမ်းမျှတန်ဖိုး (Mean) ကို 0 ထားပြီး ဒေတာတွေကို ညှိတာပါ။
၄။ Data Encoding (စာသားမှ ဂဏန်းသို့ ပြောင်းခြင်း)
Computer တွေက စာသားတွေကို နားမလည်ပါဘူး။ ဒါကြောင့် "Male/Female" သို့မဟုတ် "City Names" တွေကို နံပါတ်ပြောင်းပေးရပါတယ်။
ဘယ်လိုပြောင်းမလဲ?
Label Encoding: Category တစ်ခုချင်းစီကို 0, 1, 2 ဆိုပြီး နံပါတ်ပေးတာပါ။
One-Hot Encoding: Column အသစ်တွေ ခွဲထုတ်ပြီး 0 နဲ့ 1 သုံးပြီး သတ်မှတ်တာပါ။ (ဥပမာ- ရန်ကုန်၊ မန္တလေး ဆိုရင် 'Is_Yangon', 'Is_Mandalay' ဆိုပြီး Column ခွဲတာမျိုးပါ)။
Data Preprocessing ဟာ Data Analysis ပရောဂျက်တစ်ခုရဲ့ အချိန် ၈၀% ခန့်ကို ယူပါတယ်။ "ဒေတာသန့်မှ အဖြေမှန်ရပါမယ်"
Statistical Analysis with SPSS, STATA, R from Basic to Advance သင်တန်းရှိပါတယ်
စိတ်ဝင်စားသူများ ဆက်သွယ်နိုင်ပါတယ်
ဆက်သွယ်ရန် viber 09 760373714
[email protected]