ကွန်ပျူတာသုံး မြန်မာစာ စနစ်များ
Encoding
ကွန်ပျူတာသည် ကျွန်ုပ်တို့လူအများ နားလည်သလို ဘာသာစကားများ၊ စာလုံးများကို နားလည်သိရှိနိုင်ခြင်းမရှိပါ။ အခြေခံအကျဆုံး အဆင့်တွင် ကွန်ပျူတာများသည် ဂဏန်းများကို သိမ်းနိုင်၊ တွက်ချက်နိုင်ခြင်း စွမ်းရည်သာ ရှိကြပါသည်။ ထို့ကြောင့် ဘာသာစကားများ၏ အက္ခရာများကို ကွန်ပျူတာများတွင် သုံးနိုင်ရန်အတွက်လည်း အက္ခရာတစ်လုံးချင်းစီကို ဂဏန်းများအဖြစ် သတ်မှတ်ရပါသည်။ ဥပမာ အင်္ဂလိပ်အက္ခရာ အေ ‘A’ ကို 41 ဟု သတ်မှတ်ပါသည်။ ထိုသို့ သတ်မှတ်မှသာ ကွန်ပျူတာက ကျွန်ုပ်တို့သုံးသော စာပေများကို သိမ်းဆည်းနိုင်ခြင်း၊ ပရင်တာထုတ်နိုင်ခြင်း၊ ဝက်ဘ်ဆိုက်များတွင် ဖတ်ရှုနိုင်ခြင်း စသည်တို့ကို ဆောင်ရွက်နိုင်ခြင်း ဖြစ်ပါသည်။ သို့သော်လည်း ဘာသာအသီးသီး၏ အက္ခရာအသီးသီးကို မည်သည့် ဂဏန်းအဖြစ် သိမ်းမည်ဆိုသော သတ်မှတ်ချက်သည် တစ်နိုင်ငံနှင့် တစ်နိုင်ငံ၊ ကွန်ပျူတာစနစ်တစ်ခုနှင့် တစ်ခု ဆော့ဝဲလ်တစ်ခုနှင့်တစ်ခု မတူညီခဲ့ကြပါ။ ဥပမာ အင်္ဂလိပ်ဘာသာစကားတွင်ပင် အက္ခရာများကို ANSI Encoding, ASCII Encoding, MacRoman Encoding စသည်ဖြင့် အမျိုးမျိုး သတ်မှတ်ခဲ့ကြပါသည်။ ထို့ကြောင့် Encoding ဆိုသည်မှာ မည်သည့် အက္ခရာကို မည်သည့် ဂဏန်းသတ်မှတ်သည်ဆိုသော သတ်မှတ်ချက် တစ်ခုသက်သက်ပင် ဖြစ်ပါသည်။ ASCII Encoding တွင် ‘A’ သည် 41 ဖြစ်ပြီး ‘Z’ သည် 90 ဖြစ်ပါသည်။
Encoding Standards
ဘာသာစကား တစ်ခုတည်းကိုပင် အမျိုးမျိုးသော ဂဏန်း သတ်မှတ်ချက်များနှင့် သိမ်းဆည်း ကြသောကြောင့် ကွန်ပျူတာတစ်ခုနှင့် တစ်ခု၊ ဒေသတစ်ခုနှင့်တစ်ခု အချက်အလက်များ (စာများ) ပေးပို့သည့်အခါ encoding မတူညီသောကြောင့် တစ်နေရာမှ အချက်အလက်ကို အခြားတစ်နေရာမှ ဖတ်၍ မရခြင်း ပြဿနာများ ပြေလည်စေရန် အတွက် International အဖွဲ့အစည်းများသည် စံသတ်မှတ်ချက်များ သတ်မှတ်ပြီး အကောင်အထည်ဖော်ခဲ့ကြပါသည်။ ပထမဦးဆုံး ထွက်ပေါ်လာသော စံသတ်မှတ်ချက်မှာ အင်္ဂလိပ်ဘာသာ စကားအတွက်ဖြစ်ပြီး ၎င်းကို ASCII ဟု ခေါ်ပါသည်။ ထိုအချိန်မှစ၍ တစ်ကမ္ဘာလုံးတွင် အင်္ဂလိပ်စာကို ASCII Encoding နှင့်သာ သိမ်းဆည်းကြသောကြောင့် စနစ်မတူခြင်း၊ ဖောင့်မတူခြင်း ပြဿနာများ ကင်းဝေးခဲ့ကြပါသည်။ ထို့နောက် အင်္ဂလိပ်ဘာသာ စကားကဲ့သို့ပင် တစ်ကမ္ဘာလုံးမှ ဘာသာစကားအားလုံး၏ အက္ခရာများကို စံသတ်မှတ်နိုင်ရန်အတွက် ISO နှင့် Unicode Consortium အဖွဲ့အစည်းများ ဖွဲ့စည်း၍ ကြိုးပမ်း လုပ်ဆောင်ခဲ့ကြပါသည်။ Unicode Standard သည် အဆိုပါ ISO နှင့် Unicode Consortium တို့၏ ကြိုးပမ်းမှုများမှ ရလဒ်ပင် ဖြစ်ပါသည်။ တစ်ကမ္ဘာလုံးတွင် လက်ရှိ သုံးနေသော Encoding စနစ်သည် Unicode Standard ပင် ဖြစ်ပါသည်။
မြန်မာစာ Encoding များ
ASCII ခေတ်တွင် မြန်မာစာ encoding များရှိခဲ့သော်လည်း Standard အဖြစ် သတ်မှတ်နိုင်ခြင်း မရှိခဲ့ပါ။ ထိုအချိန်က မြန်မာစာ encoding များမှ အင်္ဂလိပ်စာစာလုံးများကို အခြေခံသော စနစ်များသာ ဖြစ်ခဲ့ပါသည်။ ဥပမာ ကွန်ပျူတာကီးဘုတ်တွင် ‘u’ ကို နှိပ်လိုက်လျှင် ကကြီးပေါ်နိုင်ရန် ဖောင့်ထဲတွင်ရှိသော ‘u’ ၏ စာလုံးပုံစံဒီဇိုင်းကို ‘က’ ဖြစ်အောင် ပြင်ဆင်ထားသော ဖောင့်များသာ ထွက်ပေါ်ခဲ့ပါသည်။ ထို့ကြောင့် ကွန်ပျူတာစကရင်ပေါ်တွင် ကကြီးပေါ်သော်လည်း ကွန်ပျူတာက အမှန်တကယ် မှတ်သား သိမ်းဆည်းထားသည်မှာ အင်္ဂလိပ်အက္ခရာ ‘u’ သာ ဖြစ်ပါသည်။ ထို့ကြောင့် ၎င်းစနစ်များသည် စာပုံနှိပ်လုပ်ငန်းမှအပ အခြားလုပ်ငန်းများတွင် တွင်ကျယ်လာခဲ့ခြင်း မရှိပါ။ ASCII Encoding ဖြင့် မြန်မာစာစနစ်များကို ‘ဖောင့်’ များဟုသာ ခေါ်ခဲ့ကြပါသည်။ ရေးသားသူ မတူသော ASCII ဖောင့်အမျိုးမျိုးသည် အင်္ဂလိပ် အက္ခရာအမျိုးမျိုးကို နေရာလဲခဲ့သောကြောင့် တစ်ခုနှင့် တစ်ခု မတူညီကြပါ။ ထို့ကြောင့် English ASCII လို စနစ်အားလုံး၊ နေရာအားလုံးတွင် တစ်သတ်မှတ်တည်း သုံးနိုင်သော မြန်မာစာ ASCII စနစ်လည်း မရှိခဲ့ပါ။ ASCII Encoding/ Font များမှာ
- AvaLaser(Mac only)
- CE
- Academy
- M-Myanmar
- Ava
- Win Myanmar: Win Innwa, Win Hakha, Win Thanlwin, etc
- W Art House, A Art House
ထို့နောက်တွင် ISO/Unicode Consortium မှ မြန်မာဘာသာကို Unicode Standard ထဲတွင် ထည့်သွင်းနိုင်ခဲ့ပါသည်။ သို့ရာတွင် Unicode Standard Encoding ဆိုသည်မှာ အက္ခရာများကို ဂဏန်းသတ်မှတ်ပေးခြင်း ဖြစ်သော်လည်း မြန်မာဖောင့်ရေးသူများ နားလည်ထားသော အင်္ဂလိပ်အက္ခရာများကို မြန်မာစာနှင့် လဲမည်ဆိုသော အယူအဆနှင့် လုံးဝဆန့်ကျင်ဖက် ကွာခြားပါသည်။ ASCII ဖောင့်များတွင် ‘က’ တစ်လုံးအတွက် ၎င်း၏ ပုံသဏ္ဌာန်ကို လိုက်ပြီး ဂဏန်းများကို ကိုယ်စားပြုပါသည်။ ဥပမာ ဝင်းအင်းဝတွင် ‘က’ အတွက် 75 နှင့် ‘က- ’ အတွက် 250 ဟု မှတ်သားပါသည်။ ယူနီကုတ်တွင် ‘က’သည် 0×1000 (4096) ဖြစ်ပြီး ‘က ’သည်လည်း 0×1000 (4096) ဖြစ်ပါသည်။ ထို့ကြောင့် ASCII မှာလို ‘က’ ၏ စာလုံးဒီဇိုင်းရေးရန် တစ်နေရာ၊ ‘က- ’ အတွက် တစ်နေရာ မရှိပါ။ အခြေအနေကိုလိုက်၍ ‘က’ နှင့် ‘က- ’ ကို အလိုအလျောက် ပြောင်းလဲနိုင်သည့် ‘Rendering System’ ခေါ် နည်းပညာဖြင့် လုပ်ဆောင်ရမည် ဖြစ်ပါသည်။ ထို့မှသာ ကျွန်ုပ်တို့ ကွန်ပျူတာတွင် သုံးနေသော Database များ၊ အီးလ်မေးများ၊ Search Engine များ၊ ကွန်ပျူတာသုံးစနစ်များ (e-Government, Banking, POS, etc) သည် မှန်ကန်တိကျစွာ အလုပ်လုပ်နိုင်မည် ဖြစ်ပါသည်။ ‘က’ နှင့် ‘က’ သည် ဂဏန်းနှစ်ခုကိုသာ ကိုယ်စားပြုပါလျှင် ကွန်ပျူတာအား ‘တက္ကသိုလ်’တွင် ‘က’ ဘယ်နှလုံးပါသလဲမေးပါက ‘က−’ ကို ‘က’မှန်းမသိဘဲ ‘က’ တစ်လုံးသာပါသည်ဟု အဖြေထွက်ပါလိမ့်မည်။ ၎င်းအဖြေသည် database များ၊ အီးမေးလ်စနစ်များ၊ search engine များတွင် များစွာ ထိခိုက်စေနိုင်ပါသည်။ ဥပမာ သင်ရှာလိုသော အချက်အလက်များ တိကျစွာ မရှာဖွေနိုင်ခြင်း၊ အက္ခရာစဉ်ခြင်းအပါအဝင် အချက်အလက်များကို စီစဉ်နိုင်မှု မရှိခြင်းမှစ၍ စနစ်တစ်ခုလုံး အလုပ်သေချာစွာ မလုပ်နိုင်ခြင်းအထိ မလိုလားအပ်သော ဆိုးကျိုးများစွာ ရရှိနိုင်မည် ဖြစ်ပါသည်။ ထို့ကြောင့် Unicode Standard တွင် ‘က’ သည် ဂဏန်းတစ်ခုတည်းအဖြစ်သာ သတ်မှတ်ပါသည်။ ထိုနည်းတူ ASCII ဖောင့်များတွင် တွေ့ရသော ရရစ် အကြီးအသေးအမျိုးမျိုး၊ အောက်မြစ်အမျိုးမျိုး၊ တစ်ချောင်းငင်အမျိုးမျိုးတို့ မရှိတော့ပါ။ အားလုံးမှာ သတ်မှတ်ထားသော စံအတိုင်း တစ်ခုစီသာ ရှိပါသည်။ ၎င်းအက္ခရာများ မည်သည့်ပုံစံပေါ်မည်ဆို (ဥပမာ တစ်ချောင်းငင် တိုမည်၊ ရှည်မည်) ကို ကွန်ပျူတာစနစ်များက လုပ်ဆောင်ပေးမည် ဖြစ်ပါသည်။
Logical Order
တစ်ကမ္ဘာလုံးရှိဘာသာစကားများကို Unicode Standard ထဲထည့်သွင်းကြရာတွင် အင်္ဂလိပ်၊ ပြင်သစ် စသော ရိုးရှင်းသည့် ဘာသာစကားများအပြင် အိန္ဒိယအခြေခံ တည်ဆောက်မှုရှုပ်ထွေးသော ဘာသာစကားများ ပါပါဝင်လာခဲ့ပါသည်။ အင်္ဂလိပ်ဘာသာတွင် စကားလုံးတစ်လုံး၏အစစာလုံး (consonant) မှာ အမြဲတမ်း အစတွင်ရှိသော်လည်း ( Cat ၏ အစ,စာလုံးမှာ C ဖြစ်သည်) မြန်မာစာအပါအဝင် အိန္ဒိယအခြေခံ စာများတွင် အမြဲတမ်း အရှေ့ဆုံးတွင် မရှိပါ။ ( ကျောင်း ၏ အစစာလုံးမှာ ‘ေ’ မဟုတ်ပဲ ‘က’ ဖြစ်ပါသည်)။ ထို့သို့သော ဘာသာစကားများကို ကွန်ပျူတာတွင် သိမ်းဆည်းမည်ဆိုလျှင် ဂဏန်းများ သတ်မှတ်ပေးရုံနှင့်မပြီးပဲ စကားလုံး တည်ဆောက်ပုံ အစဉ်လိုက်အတိုင်း (Logical Order) အတိုင်း သိမ်းမှသာ ကွန်ပျူတာက အပြည့်အဝ အသုံးချနိုင်မည် ဖြစ်ပါသည်။ (ဥပမာ ကျောင်း ၏တည်ဆောက်ပုံ အစဉ်မှာ က-ျ-ေ-ာ-င- ်- း ဖြစ်ပါသည်။) ထို့ကြောင့် Unicode Standard တွင် အက္ခရာများ၏ ဂဏန်းတန်ဖိုးသာမက စကားလုံးများကို မည်သည့်အစဉ်ဖြင့် တည်ဆောက်ရသည်ကိုပါ ဘာသာစကား အားလုံးအတွက် သတ်မှတ်ပေးထားပါသည်။
Fake Unicode Encoding များ
Unicode Standard တွင် အထက်ပါ စာလုံးအပိုများ မပါခြင်း နှင့် အက္ခရာများကို တည်ဆောက်ပုံ အစဉ်လိုက် သိမ်းခြင်းများသည် မြန်မာဖောင့် ရေးသူများအတွက် Unicode Standard ကို သုံးစွဲရန် အခက်အခဲ ဖြစ်စေခဲ့ပါသည်။ ဥပမာ တက္ကသိုလ်၏ ကကြီးနှစ်လုံးတွင် အပေါ်ကကြီးသည်လည်း 4096 အောက်က ကြီးသည်လည်း 4096 ဖြစ်ပြီး ‘က’ နှင့် ‘က ’ စာလုံးဒီဇိုင်းနှစ်မျိုးကို 0×1000 (4096) တစ်နေရာထဲတွင် ရေး၍ မရပါ။ ယခင် ASCII တွင် ရသည်မှာ ကကြီးနှစ်လုံးသည် ဂဏန်းမတူသောကြောင့် ဂဏန်းနှစ်နေရာတွင် မတူသော ပုံစံနှစ်မျိုး ရေးနိုင်ခဲ့သော်လည်း ယခု Unicode Standard တွင် Rendering Engine, Input Engine များကို အသုံးချရန် လိုအပ်ပါသည်။ ထိုသို့သော နည်းပညာများကို အသုံးမချနိုင်ခင်တွင် အချို့ မြန်မာဖောင့်ရေးသူများက ဆေးမြီးတိုတစ်ခုကို စတင်အသုံးချခဲ့ကြပါသည်။ ၎င်းမှာ မြန်မာ့တိုင်းရင်းသား ဘာသာများအတွက် Unicode Consortium က သတ်မှတ်ထားသော ဂဏန်းနေရာများတွင် ASCII မှ စာလုံးအပိုများ ထည့်ကြခြင်း ဖြစ်ပါသည်။ ဥပမာ ‘တက္ကသိုလ်’ တွင် ‘-က ’နှင့် ‘က’ ဂဏန်းတူရမည် ဖြစ်သော်လည်း ‘-က ’ ကို တိုင်းရင်းသားစာလုံး ‘<’ ၏ ဂဏန်းနေရာတွင် ယခင် ASCII ဖောင့်များ ‘u’ နေရာတွင် ‘က’ ထားသလို သွားထားကြပါသည်။ ထိုသို့ လုပ်ခြင်းဖြင့် Rendering Engine များ မလိုဘဲ မြန်မာစာကို သုံးနိုင်လာခဲ့ပါသည်။ တဖန် အက္ခရာများကို တည်ဆောက်ပုံအလိုက် မသိမ်းနိုင်သော ဖောင့်များသည် တည်ဆောက်ပုံ အလိုက်မသိမ်းပဲ အမြင်အလိုက် သိမ်းကြပါသည်။ ထိုသို့ ခက်ခဲသော လုပ်ဆောင်ချက်များသည် ယူနီကုတ်၏ အနှစ်သာရများ ဖြစ်ပြီး မြန်မာစာပေါ်ရန် ၎င်းတို့ကို ချန်လှပ်ထားခြင်းသည် ယူနီကုတ်ဟု အမည်ပေးကြသော်လည်း တကယ်တမ်းတွင် Unicode Standard ၏ အနှစ်သာရများ လုံးဝ ပျောက်ဆုံးစေပါသည်။ တကယ်တမ်း ၎င်းဖောင့်များသည် Fake Unicode Font (သို့မဟုတ်) Unicode Standard ကို ချိုးဖောက်သော ဖောင့်များသာ ဖြစ်ပါသည်။ သို့ရာတွင် ၎င်းဖောင့်များသည် ASCII ဖောင့်များထက် အားသာချက် တစ်ခုရှိပါသည်။ ၎င်းမှာ ကွန်ပျူတာမှ ‘က’ ကို ‘u’ အဖြစ် သိမ်းဆည်းမှု မပြုခြင်း ဖြစ်ပါသည်။ အဆိုပါ အချက်ကြောင့် Fake Unicode Font များသည် အင်တာနက်ပေါ်တွင် ဝက်ဘ်ဆိုက်များတင်ခြင်းနှင့် ကွန်ပျူတာတွင် ဖိုင်များကို အမည်ပေးခြင်း စသည်တို့ကို ရရှိလာသော်လည်း encoding standard မရှိခြင်း၊ ဖောင့်တစ်ခုနှင့် တစ်ခု ရေးသားထားသော စာများ ဖလှယ်၍ သုံးနိုင်မှုမရှိခြင်း စသော ASCII ခေတ်က ရှိခဲ့သော အားနည်းချက်များအားလုံး မပျောက်မပျက် ဆက်လက်တည်ရှိနေပါသည်။
Unicode မဟုတ်သော Encoding များမှာ
- MyaZedi Unicode
- TPartial
- XPartial
- BIT
- ZawGyi Unicode
- Ayar Unicode
အထက်ပါ Fake Unicode ဖောင့်များကို အသုံးပြုခြင်းဖြင့် အောက်ပါ ဆိုးကျိုးများကို ရရှိနိုင်မည် ဖြစ်ပါသည်။
1. တိုင်းရင်းသား ဘာသာစကားများ အသုံးပြုရန် ပြဿနာရှိခြင်း
တိုင်းရင်းသားများအတွက် သတ်မှတ်ထားသော စာလုံးများကို လဲလှယ်အသုံးပြုထားခြင်း ဖြစ်သောကြောင့် ဤဖောင့်များကို ဆက်လက်အသုံးပြုပါက နောင်တစ်ချိန်တွင် ရှမ်းကွန်ပျူတာစနစ်၊ မွန်ကွန်ပျူတာစနစ်စသော တိုင်းရင်းသားစာပေများကို ကွန်ပျူတာပေါ်တွင် အသုံးချနိုင်ရန် ခက်ခဲသွားမည် ဖြစ်ပါသည်။
2. မြန်မာစာ Searching အသုံးမပြုနိုင်ခြင်း
‘က’ နှင့် ‘က ‘ ကိုပင် ကွန်ပျူတာက အတူတူဖြစ်သည်ဟု မသိပါက ဒေတာအချက်အလက်များစွာ ပါသော စနစ်များတွင် ကျွန်ုပ်တို့လိုချင်သည်ကို မှန်ကန်တိကျစွာ ရှာဖွေနိုင်မည် မဟုတ်ပါ။ ဥပမာ အင်တာနက်တွင် ကျွန်ုပ်တို့ မြန်မာလို ရှာဖွေလို့ရပါသလား။ ရှာဖွေ၍ ရလာသော ရလဒ်များသည် ရာခိုင်နှုန်းအနည်းငယ်မျှသာ မှန်ကန်မည် ဖြစ်ပြီး ကျန်အချက်အလက်များသည် ပျောက်ဆုံးနေမည် ဖြစ်ပါသည်။
3. မြန်မာစာ အစီအစဉ်များ လွဲမှားနိုင်ခြင်း
‘တက္ကသိုလ်’ နှင့် ‘တက်ကသိုလ်’ သည် အတူတူပင် ဖြစ်သည်ကို ကွန်ပျူတာမှ မသိနိုင်ပါက မြန်မာစာလုံးများကို ကြီးစဉ်ငယ်လိုက် စီစဉ်နိုင်မည် မဟုတ်ပါ။ အခြေခံကြီးစဉ်လိုက်စီစဉ်ခြင်းကို မလုပ်နိုင်ပါက ပိုမိုကြီးမားကျယ်ပြန့်သော စနစ်များတွင် စီစဉ်ခြင်းများ လုပ်ဆောင်နိုင်မည် မဟုတ်ပါ။ ဥပမာ အင်တာနက်တွင် ‘University’ ဟု ရှာပါက ရရှိလာသော ရလဒ်သည် ထိပ်ဆုံးတွင် အဖြစ်နိုင်ဆုံးမှ အောက်ဆုံးတွင် ဖြစ်နိုင်ခြေနည်းသော ဝက်ဘ်ဆိုက်များကို ရရှိမည် ဖြစ်ပါသည်။ ‘တက္ကသိုလ်’ ဟု ရှာ၍ ထွက်လာသော ထိပ်ဆုံးရလဒ်သည် အဖြစ်နိုင်ဆုံး ဝက်ဘ်ဆိုက်မဖြစ်နိုင်တော့ပါ။ အခြားစနစ်များ ဥပမာ Banking, e-Government, e-Commerce စနစ်များတွင်လည်း ရလဒ်များသည် သေချာတိကျခြင်း ရှိနိုင်မည် မဟုတ်ပါ။
4. ကွန်ပျူတာစနစ်များတွင် အံမဝင်ခြင်း
နိုင်ငံတကာမှ ရေးသားထားသော ဆော့ဖ်ဝဲများ ဥပမာ – စီမံခန့်ခွဲရေး ဆော့ဖ်ဝဲများ၊ အရောင်း ဆော့ဖ်ဝဲများ စသည် တို့သည် နိုင်ငံတကာမှ ဘာသာမျိုးစုံနှင့် အသုံးပြုနိုင်လေ့ရှိပါသည်။ ထိုသို့ အသုံးပြုရန် အဆိုပါ ဆော့ဖ်ဝဲများကို ဘာသာတစ်ခုစီအတွက် သီးခြားပြင်ဆင်ရန် မလိုအပ်သည်မှာ Unicode Standard ကို အသုံးပြုသောကြောင့် ဖြစ်ပါသည်။ အကယ်၍ မြန်မာစာအတွက် Fake Unicode များကို သုံးမည်ဆိုလျှင် ထိုဆော့ဖ်ဝဲများကို မြန်မာဘာသာဖြင့် သုံးရန် ခက်ခဲသွားမည် ဖြစ်ပါသည်။
5. Data Corruption ဖြစ်နိုင်ခြင်း
ASCII ဖောင့်များတွင် သုညနှင့် ဝလုံးသည် ပုံစံတူသောကြောင့် နှစ်လုံးစလုံးကို ဂဏန်း 30 အဖြစ် သတ်မှတ်ထားပါသည်။ ထို့ကြောင့် ကွန်ပျူတာသည် မည်သည့် နည်းနှင့်မျှ ဂဏန်းတူနေသော ထိုသုညနှင့် ဝလုံးကို ခွဲခြားသိရှိနိုင်မည် မဟုတ်ပါ။ ASCII နှင့် ရေးထားသော စာများကို သီးသန့် ပြုလုပ်ထားသော ဆော့ဖ်ဝဲများနှင့် Unicode Standard သို့ ပြောင်းလဲနိုင်သော်လည်း သုညနှင့် ဝလုံးသုံးထားသော နေရာများတွင် အချက်အလက်များသည် မှန်ကန်မှုရှိမည် မဟုတ်ပါ။ အချို့သော Fake Unicode Font များတွင်လည်း သုညနှင့် ဝလုံးကို ခွဲခြားထားလေ့ရှိမကြပါ။ အချက်အလက်များစွာ ထည့်သွင်းထားသော Database စနစ်များတွင် အချက်အလက်များသို့ ထည့်သွင်းထားသော အချက်အလက်များ မမှန်ကန်ခြင်းကို Data Corruption ဟု ခေါ်ပါသည်။ ဥပမာ ကွန်ပျူတာက အင်္ဂလိပ်မှ မြန်မာသို့ အလိုအလျောက် ဘာသာပြန်သော စနစ်တစ်ခု တည်ဆောက်မည်ဆိုပါလျှင် သုညနှင့် ဝလုံးတို့ ဆက်စပ်သော နေရာများတွင် အဖြေသည် အမြဲမှားမည် ဖြစ်ပါသည်။
Unicode Standard
Unicode Standard သည် encoding တစ်ခု တစ်နည်းအားဖြင့် အက္ခရာများကို ဂဏန်း သတ်မှတ်ပေးခြင်းသာ ဖြစ်သော်လည်း ၎င်းသတ်မှတ်ချက်အတိုင်း လိုက်နာပြီး မြန်မာစာစနစ်တစ်ခု ဖန်တီးရန်မှာ ဖောင့်တစ်ခုတည်းဖြင့် မဖြစ်နိုင်ပါ။ မြန်မာစာလုံးများကို screen ပေါ်တွင် ပေါ်နိုင်ရန် “Rendering Engine”၊ ၎င်းနှင့် အလုပ်လုပ်နိုင်သော “Smart Font” နှင့် မြန်မာစာကို ရိုက်နိုင်ရန် “Input Engine” တို့ လိုအပ်ပါသည်။ ဥပမာ ‘တက္ကသိုလ်’ တွင် ပါသော ‘က’ နှစ်လုံးတွင် မည်သည့် ‘က’ သည် ‘က ’ ဖြစ်မည်ကို “Smart Font” ထဲတွင် ရေးသားရပါသည်။ ၎င်းအချက်အလက်ကို “Rendering Engine” က သိရှိပြီး screen တွင် မှန်ကန်သော ပုံစံကို ပြပေးနိုင်မည် ဖြစ်ပါသည်။ ယနေ့အသုံးပြုနေသော ကွန်ပျူတာစနစ် (OS) များအားလုံးတွင် “Rendering Engine” များ တစ်ပါတည်း ပါရှိပါသည်။ ဥပမာ ဝင်းဒိုးကွန်ပျူတာများတွင် “Open Type Rendering Engine” ပါရှိပါသည်။ စာရိုက်ရာတွင်လည်း ယခင် ASCII စနစ်များတွင် ‘u’ ကို နှိပ်ပြီး ယူနီကုတ်ဂဏန်းများ သိမ်းရန်မှာမူ “Input Engine” လိုအပ်ပါသည်။ ASCII စနစ်များနှင့် Fake Unicode Font များတွင် ‘လေ’ ကို ‘ေ’ + ‘လ’ ဟု သိမ်းဆည်း သော်လည်း Unicode Standard တွင် ‘လေ’ ကို ‘လ’ + ‘ေ’ ဟု သိမ်းဆည်းပါသည်။ ထို့ကြောင့် “Input Engine” မှ ကီးဘုတ်ပေါ်တွင် ရိုက်သော စာလုံးများကို ယူနီကုတ်စံအတိုင်း ကွန်ပျူတာက သိမ်းဆည်းအောင် လုပ်ဆောင်ပေးပြီး ၎င်းစာများကို screen ပေါ်တွင် မှန်ကန်စွာ ပေါ်အောင် “Rendering Engine” မှ “Smart Font” ကို သုံးပြီး လုပ်ဆောင်ခြင်း ဖြစ်ပါသည်။
လက်ရှိ Unicode Standard မြန်မာစာစနစ်များမှာ
- Myanmar2, Myanmar3 (Open Type Font, Keyman Input Engine)
- Paduak (Open Type + Graphite Font for Linux and Windows, Keyman Input Engine)
- Parabaik (Open Type Font)
- Masterpiece
- MyMyanmar (Universal Font for Linux, Windows and Mac, MyInput Engine)
- MyMyanmar Developed Unicode Fonts from ASCII Fonts. (M-Myanmar Unicode, CE Unicode, Art House Unicode…)
- Yunghkio
Myanmar 2, 3 ဖောင့်များကို အစိုးရရုံးများတွင် အသုံးပြုရန် အခမဲ့ပေးထားပါသည်။ ပိတောက်ဖောင့်သည် Open Source Community ကြိုးပမ်းမှုတစ်ခုဖြစ်ပြီး အခမဲ့ရရှိနိုင်ပါသည်။ MyMyanmar အား အခမဲ့ရရှိသော အင်တာနက် ဗားရှင်းအဖြစ် လည်းကောင်း၊ ရောင်းချလျက်ရှိသော DVD Software ဗားရှင်း အဖြစ်လည်းကောင်း ရရှိနိုင်ပါသည်။ အင်တာနက်ဗားရှင်းသည် အင်တာနက်ရှိမှ အသုံးပြု၍ ရမည်ဖြစ်ပြီး ဝယ်ယူသော ဗားရှင်းနှင့် စွမ်းဆောင်ရည် မကွာခြားပါ။ MyMyanmar Font များဖြစ်အောင် ဖန်တီးထားပါသည်။ ၎င်းတို့တွင် အခမဲ့ရသော ဖောင့်များသည် အခမဲ့ရမည် ဖြစ်ပြီး စီးပွားဖြစ်ဖောင့်များလည်း ပါဝင်ပါသည်။ ၎င်းတို့ကို MyInput သို့မဟုတ် Myanmar 2, 3 Keyman စနစ်များနှင့် တွဲသုံးနိုင်ပါသည်။
ယူနီကုတ်စနစ်များသည် မည်သူရေးသောဖောင့် ဖြစ်စေ၊ မည်သည့်စနစ် ဖြစ်စေ ဖလှယ် အသုံးပြုနိုင်စွမ်း ရှိပါသည်။ ဥပမာ MyMyanmar နှင့် ရိုက်ထားသော စာများကို အစိုးရရုံးများတွင် Myanmar2, Myanmar3 ဖြင့် အသုံးပြုနိုင်သလို ပိတောက်နှင့် ရိုက်ထားသော စာများကိုလည်း MyMyanmar နှင့်လည်းကောင်း၊ အခြားယူနီကုတ်ဖောင့်များနှင့် လည်းကောင်း ဖတ်ရှုနိုင်ပါသည်။
ဖောင့်တစ်ခု သို့မဟုတ် စနစ်တစ်ခုကို ယူနီကုတ် ဟုတ်မဟုတ် စစ်ဆေးရန်မှာ လွယ်ကူပါသည်။ ထိုဖောင့်စနစ်ဖြင့် စာအနည်းငယ်ရိုက်ပြီး အထက်တွင်ပါသော ယူနီကုတ်စနစ်တစ်ခုခုနှင့် ဖွင့်ကြည့်နိုင်ပါက Unicode Standard နှင့် ကိုက်ညီသော ဖောင့်/စနစ်ဖြစ်ကြောင်း သိရှိနိုင်ပါသည်။ အထက်တွင် ဖော်ပြထားသော စာရင်းတွင် ပါဝင်သည့် ဖောင့်များမှအပ အခြားဖောင့်များသည် Unicode Standard နှင့် ကိုက်ညီလေ့မရှိကြပါ။ ထို့ကြောင့် ၎င်းတို့ကို သုံးမည်ဆိုလျှင် စနစ်အချင်းချင်း ဖလှယ်အသုံးပြုနိုင်စွမ်း မရှိရုံသာမက အနာဂတ်တွင် တွင်ကျယ်လာမည့် Search Engine များ၊ e-Government စနစ်များ၊ လုပ်ငန်းသုံး ကွန်ပျူတာစနစ်များ၊ ဝက်ဘ်ဆိုက် ပေါ်တယ်များတွင် မြန်မာစာသည် စာလုံးပေါ်ရုံမှလွဲ၍ အခြားဘာသာများတွင် အသုံးပြုနေကြသော စွမ်းဆောင်ရည်များ ရရှိနိုင်တော့မည် မဟုတ်ပါ။ ထို့ကြောင့် ဖြစ်နိုင်လျှင် Unicode Standard စနစ်များကိုသာ သုံးစွဲသင့်ပါသည်။
*ထူးမြင့်နောင်သည် Unicode Consortium ၏အဖွဲ့ဝင်ဖြစ်ပြီး ဝီကီပိဒိယ မြန်မာဘာသာအပိုင်းတွင် System Operator ဖြစ်ပါသည်။ Technomation Studios နှင့် MyMyanmar Projects တို့တွင် အမှုဆောင်ဒါရိုက်တာအဖြစ် တာဝန်ထမ်းဆောင်လျှက်ရှိပါသည်။
ဤဆောင်းပါးကို ကိုထူးမြင့်နောင် ကိုယ်တိုင်ရေးသားပေးပြီး ကိုထူးမြင့်နောင်၏ ခွင့်ပြုချက်ဖြင့် Myanmar Tutorials တွင် တင်ခြင်း ဖြစ်ပါသည်။
Facebook comments:



Unicode Standard အကြောင်းကို အရင်ကထက်ကို ပိုပြီး ရှင်းရှင်းလင်းလင်း နားလည်လာပါတယ်။ ကျေးဇူးအများကြီး တင်ပါတယ်ရှင့်
this is a damn good complete post, bro
thanks a lot.
ယူနီကုတ်စနစ်များသည် မည်သူရေးသောဖောင့် ဖြစ်စေ၊ မည်သည့်စနစ် ဖြစ်စေ ဖလှယ် အသုံးပြုနိုင်စွမ်း ရှိပါသည်။ ဥပမာ MyMyanmar နှင့် ရိုက်ထားသော စာများကို အစိုးရရုံးများတွင် Myanmar2, Myanmar3 ဖြင့် အသုံးပြုနိုင်သလို ပိတောက်နှင့် ရိုက်ထားသော စာများကိုလည်း MyMyanmar နှင့်လည်းကောင်း၊ အခြားယူနီကုတ်ဖောင့်များနှင့် လည်းကောင်း ဖတ်ရှုနိုင်ပါသည်။
ဆရာေရ
သူပြောသလို မရဘူးဗျာ။ ဇော်ဂျီထည့်ထားနှင့်လို့လား မသိဘူး- ယူနီကုဒ်တစ်ခုရှိရုံနဲ့ အခြားယူနီကုဒ်နှင့် ရေးထားတဲ့ စာတွေကို ဖတ်လို့မရပါဘူး။
mas မှာကတော့ ယွန်းချိုသုံးတဲ့ ဆိုက်တွေပဲ ဖတ်လို့ရတယ်။ myanmarnlpတို့ myanmarsတို့ mymyanmarတို့က စာတွေဖတ်မရဘူးဗျာ။
နောက်သိချင်တာလေးက ဇော်ဂျီကို ယူနီကုဒ်အစစ်ဖြစ်အောင် လုပ်လို့မရဘူးလား။
ဟုတ်တယ်ဗျ,, keyman သုံးထားရင် နောက်ပြီး ဇော်ဂျီရှိနေရင် နောက် ယူနီကုတ်က နှစ်ခုလောက်ရှိနေရင် ဖတ်လို့မရဘူး