အင်တာနက်တွင် လွှင့်တင်ထားသော Website များ၏ ၆၀ ရာခိုင်နှုန်းကျော်သည် ယူနီကုဒ် (Unicode) အသုံးပြုကြောင်းသိရ

ကွန်ပျူတာ အနေဖြင့် စာလုံးတိုင်းကို Character Encoding ဟု ခေါ်သော စနစ်ဖြင့် မှတ်သားသိမ်းဆည်း ရလေ့ရှိသည်။ ထိုကဲ့သို့ မှတ်သားရာတွင် စာလုံးတိုင်းကို အမှတ်တစ်ခုစီပေးပြီး သတ်မှတ်လေ့ရှိသည်။ ဥပမာ အနေဖြင့် ASCII encoding စနစ်တွင် a ကို 61၊ b ကို ၆၂ စသည်ဖြင့် သတ်မှတ်လေ့ရှိသည်။ ASCII Encoding စနစ်ကို ၁၉၆၃ ခုနှစ်က စတင်ခဲ့ပြီး အင်္ဂလိပ်စာလုံးများအပေါ်တွင် အခြေခံပြီး သတ်မှတ်ခဲ့ခြင်း ဖြစ်သည်။ အင်တာနက် ခေတ်မစားခင် အချိန်အထိ ASCII အပြင် အခြား encoding စနစ်များလဲ အများအပြားရှိခဲ့သည်။ ထိုကဲ့သို့ encoding စနစ်ပေါင်း မြောက်များစွာ ရှိသည့်အတွက် ကွန်ပျူတာ တစ်လုံးနှင့် တစ်လုံး ကူးပြောင်းသည့်အခါ encoding မတူသည့် ပြသနာ ဖတ်မရသည့် ပြသနာများ ရင်ဆိုင်ရလေ့ရှိသည်။

ယူနီကုဒ်သည် အဆိုပါ အခက်အခဲများကို ဖြေရှင်းနိုင်ရန် ထွက်ပေါ်လာခြင်း ဖြစ်ပြီး ကမ္ဘာပေါ်ရှိ ဘာသာစကားတိုင်းကို encode လုပ်နိုင်ရန်  တီထွင်ခဲ့ခြင်း ဖြစ်ပြီး တရုတ်စာမှသည် ရုရှားစာ၊ အာရေဗျစာ emoji symbols ဟုခေါ်သော အခြားအမှတ်အသားများအထိ encode စနစ် ပေါင်းစပ်နိုင်ပေသည်။ Unicode စနစ်တွင် တရုပ်စာလုံးပေါင်း ၇၅၀၀၀ ကျော်ကို အလွယ်တကူ encode လုပ်နိုင်သောလဲ ANCII encoding တွင်မူ English စာလုံးများ အားလုံးအတွက်ပင် ပြည့်စုံအောင် encode မလုနိုင်ကြောင်း တွေ့ရသည်။ ယူနီကုဒ်စနစ်အား ၁၉၉၁ ခုနှစ်ခန့်က စတင်ခဲ့ပြီး တိုက်တိုက်ဆိုင်ဆိုင်  အင်တာနက်ကြီး စတင်သည့်နှစ်နှင့် တူနေပေသည်။ ယူနီကုဒ်နှင့် အင်တာနက် တစ်ပြိုင်တည်း ပေါ်လာခဲ့သည် မှန်သော်လဲ ထိုအချိန်က တစ်ခုအပေါ်​တစ်ခု အလွန်အရေးပါစွာ ဆက်စပ် ပတ်သက်မှု ရှိကြောင်း မည်သူမျှ သတိထားမိခဲ့ခြင်း မရှိချေ။ ယနေ့ခေတ်မှာတော့ ယူနီကုဒ်၏ ကျေးဇူးကြောင့် အင်တာနက်ပေါ်တွင် document များကို မည်သည့် ဘာသာစကားမဆို အလွယ်တကူ ဝေမျှလို့ ရနေပြီ ဖြစ်သည်။

ဇန်နဝါရီလတိုင်း Webpage များ၏ ရာခိုင်းနှုန်းများကို ဆန်းစစ်လေ့ရှိရာ ကွဲပြားခြားနားသည့် encoding  များ အသုံးပြုမှုအပေါ်​ အခြေခံလျှက် ရရှိလာသော ပုံစံသည် အောက်ပါအတိုင်း ဖြစ်သည်။

အထက်ပါ စစ်တမ်းသည် Google မှ ကောက်ယူထားသော စစ်တမ်း ဖြစ်သည်။ Website တိုင်းကို အသုံးပြုထားသည့် encoding စနစ်အား Search Engine မှ တစ်ဆင့် စစ်ဆေးရယူပြီး မှတ်တမ်းတင်ထားသော အချက်အလက်များ အပေါ်တွင် အခြေခံသည်။

အထက်ပါ မှတ်တမ်းအရ ယူနီကုဒ် စနစ်အသုံးပြုသော Website များသည် ၂၀၀၆ ခုနှစ်နောက်ပိုင်း ၈၀၀ ရာခိုင်နှုန်းခန့် များပြားလာကြောင်း တွေ့ရမည် ဖြစ်သည်။ အကြမ်းအားဖြင့် မည်သည့်  encoding စနစ်နှင့်မဆို အစိတ်အပိုင်း တစ်ခုအဖြစ် ပါဝင်နေသော ANCII ကိုပါ ထည့်တွက်မည် ဆိုလျှင် ၈၀ ရာခိုင်နှုန်းသော web document များသည် Unicode(UTF-8) အပေါ်တွင် အခြေခံထားသည်။

Google အနေဖြင့် Unicode စနစ်အား လုပ်ငန်းသုံး format အဖြစ် အသုံးပြုခဲ့သည်မှာ ကြာခဲ့ပြီ ဖြစ်သည်။ အခြား encoding method များကိုလဲ unicode စနစ်သို့ ပြောင်းလဲ မှတ်သားသည်။ Google မှာ ရှာဖွေပေးနေသော အချက်အလက်များနှင့် လုပ်ဆောင်ချက်များသည် ယူနီကုဒ်အပေါ်တွင်သာ အခြေခံ ဝန်ဆောင်မှုပေးခြင်း ဖြစ်သည်။ ယခုအခါ ယူနီကုဒ် အနေဖြင့် Version 6.1 သို့ပင်ရောက်ရှိနေပြီ ဖြစ်ပြီး စာလုံးပေါင်း ၁၁၀၀၀၀ ကျော်ကို encode လုပ်နိုင်စွမ်း ရှိနေပြီ ဖြစ်သည်။ Google အနေဖြင့်လဲ မကြာတော့သည့် အချိန်အတွင်း ICU ၏ အလိုအတိုင်း Locale Data များကို CLDR 21 သို့ အဆင့်မြှင့်တင်တော့မည် ဖြစ်သည်။

(မှတ်ချက် – ICU ဆိုသည်မှာ International Components for Unicode ဟု အမည်ရသော အဖွဲ့အစည်း ဖြစ်ပြီး ယူနီကုဒ်နှင့် ပတ်သက်သော ပရိုဂရမ်ဆိုင်ရာ အထောက်အပံ့များနှင့် အခြား အထောက်အပံ့များကို ပေးနေသော နိုင်ငံတကာ အဖွဲ့အစည်းတစ်ခု ဖြစ်ပြီး CLDR 21 ဆိုသည်မှာ Unicode Common Locale Data Repository ဖြစ်ပြီး နောက်ဆုံးထွက် ဗားရှင်းမှာ ၂.၀.၁ ဖြစ်သည်။ CLDR 21 ဆိုသည်မှာ Version 2.0.1 ကို ညွန်းဆိုခြင်းဖြစ်ပြီး အဓိက အားဖြင့် နေ့စွဲများ၊​ အချိန်များနှင့် TimeZone ကွဲပြားခြားနားမှုများ အပေါ် ပုံစံချခြင်း၊ ကိန်းဂဏ္ဍန်းများ ငွေကြေးဆိုင်ရာ အမှတ်အသားများ အပေါ်​ ပုံစံချခြင်း၊ စာလုံးများ အစီအစဉ်ချခြင်း (sorting)၊​ အတိုကောက် အမည်ပေးစနစ်များ အပေါ်​ အခြေခံပြီး ဘာသာစကားများ ရွေးချယ်ခြင်း၊​ နိုင်ငံများ ရွေးချယ်ခြင်း စသည်တို့ကို အထောက်အပံ့ ပေးနိုင်သော Unicode အဖွဲ့အစည်းမှ လွင့်တင်ထားသော Repository ဖြစ်သည်။)

ယူနီကုဒ် အသုံးပြုမှု များပြားလာခြင်းဖြင့် အမျိုးမျိုးကွဲပြားသော ဘာသာစကားများအပေါ်​ Process လုပ်ရလွယ်ကူလာမည် ဖြစ်သည်။ ယူနီကုဒ်သာ မရှိခဲ့လျှင် Google ၏ တိကျသော index များသည်လည် အလုပ်ဖြစ်လာမည် မဟုတ်ဟု ဆိုနိုင်ပေသည်။ ထို့ပြင် ငွေကြေးဆိုင်ရာ အမှတ်အသားများ မှတ်သား သိမ်းဆည်းရာတွင်လဲ ယူနီကုဒ်သာ မရှိပါက စီးပွားရေး လုပ်ငန်းများတွင်လဲ အခက်အခဲများ ရင်ဆိုင်ရနိုင် ပေသည်။ ထို့ကြောင့် Google အနေဖြင့်လဲ ယူနီကုဒ်အား ကျေးဇူးရှင်အဖြင့် အသိအမှတ်ပြုရမည် ဖြစ်သည်။ ယူနီကုဒ် ကျေးဇူးကြောင့်သာ လူအများ သတင်းအချက်အလက်များ ရှာဖွေရာတွင် မည်သည့် ဘာသာစကားကို အလွယ်တကူရှာဖွေနိုင်အောင် အထောက်အပံ့ ပေးနိုင်နေခြင်း ဖြစ်ကြောင်း တင်ပြလိုက်ရပေသည်။

မာ့ခ် ဒေးဗစ်စ် (International Software Architect)

Official Google Blog မှ Unicode over 60 percent of the web  ကို ဘာသာပြန်ဆို ရေးသားထားခြင်း ဖြစ်သည်။

Facebook comments:

2 Responses

  1. သင်ဇာ says:

    ဒီလို ဗဟုသုတလဲရ..အသိဉာဏ်လဲ တွေးတော့နိုင်သမျှ တိုးပွားစေတဲ့ ဒီလိုစာမျိုးအတွက် ကျေးဇူးအများကြီးတင်ပါတယ်ကိုသီဟ

  2. ေက်းဇူးမ်ားစြာ တင္ရွိပါတယ္

Leave a comment


*