https://www.facebook.com/104377462645323/

November

Beauty

22/10/2025

💃

17/10/2025

နောက်ဆုံးရ AI သတင်းများ

Baidu မှ AI နယ်ပယ်တွင် ထင်ရှားသော PaddlePaddle သုတေသနလုပ်ငန်းအဖွဲ့သည် PaddleOCR-VL 0.9B ကို မကြာသေးမီက စတင်ထုတ်ပြန်လိုက်သည်။ ၎င်းသည် ERNIE 4.5 0.3B တည်ဆောက်ပုံအပေါ်တွင် မူတည်သည့် vision-language model (VLM) တစ်ခုဖြစ်ပြီး၊ NaViT စတိုင်ဖြင့် ဖွဲ့စည်းထားသည်။ ဒါဟာ end-to-end multilingual document parsing အတွက် အထူးသင့်လျော်သည့် နည်းပညာဖြစ်သည်။

PaddleOCR-VL ကို ထုတ်လုပ်ပြီး Fine-tuning မပြုမီချင်းတွင်ပါ စွမ်းဆောင်ရည်မြင့်နေပြီး၊ artificial intelligence (AI) နှင့် machine learning နည်းလမ်းများကို အသုံးပြု၍ Vision-Language (V+L) task များတွင် ထိရောက်အောင် desempeñar (လုပ်ဆောင်) နိုင်သည်။ အထူးသဖြင့် ဆောင်းပါးထဲတွင်ဖော်ပြထားသည်မှာ နယူးထုတ် ERNIE 4.5 တွင် instruction-following စွမ်းရည်မြင့်မားလာပြီး၊ NaViT-style Encoder ကိုအသုံးပြုထားသဖြင့် Input Resolution မြင့်မားစွာကို ပံ့ပိုးနိုင်သည်။

ဤ model အသစ်သည် Layout-Aware Design ကိုလည်း အခြေခံထားပြီး၊ model ကို instruction-based vision-language interface များအတွက် ဖွံ့ဖြိုးလာအောင်လုပ်ဆောင်ထားသည်။ ဒါဟာ Visual Document Understanding (VDU) ဆိုတဲ့ field ဟာမျှ intelligence မြင့်မားလာသော AI တစ်ခုဖြစ်လာရန် အရေးကြီးတဲ့ ခြေလှမ်းတစ်ခုဖြစ်သည်။

PaddleOCR-VL 0.9B ရဲ့ architecture (ဖွဲ့စည်းပုံ) သည် Encoder-Decoder မော်ဒယ်စနစ်ကို NaViT encoder နှင့် ERNIE 4.5 decoder တို့ဖြင့် တည်ဆောက်ထားသည်။ ၎င်းသည် Transformer-based structure အပြည့်အဝဖြင့် တည်ဆောက်ထားပြီး Translation, Visual QA, Document Understanding စတာတွေကို multilingual setting တွင် Run လုပ်နိုင်အောင် မျှော်မှန်းဖန်တီးထားသည်။

ဖော်ပြချက်အရ VDU tasks များကို multilingual ပံ့ပိုးမှုအပြည့်အဝဖြင့် တုံ့ပြန်နိုင်သည်။ သတင်းအရ ပထမ version ဖြစ်တဲ့ PaddleOCR-VL 0.9B ကို training ပြုလုပ်ရာတွင် large-scale synthetic dataset နှင့် instruction data များကို အသုံးပြုခဲ့သည်။ ထို့ကြောင့် AI model ဟာ Data မြောက်မြားစွာအပေါ် မှီခိုကာ ယုံကြည်စိတ်ချရလောက်အောင် generalize လုပ်နိုင်တယ်လို့ ယူဆထားသည်။

Baidu ရဲ့ team ကနေ ချပြချက်တစ်ရပ်အနေနဲ့ ချပြထားတာကတော့ – ဒီ model ဟာ OCR application များအတွက် နောက်ဆုံးပေါ် multilingual parsing system တစ်ခုဖြစ်လာအောင် ရည်ရွယ်ထားတာဖြစ်သည်။ အဖွဲ့က open-source framework ဖြစ်တဲ့ PaddleOCR တွင်ထည့်သွင်းထားပြီး၊ မတူညီသော Document Language Pair များ၊ Layout Design များနှင့် Instruction condition များကို တုံ့ပြန်နိုင်အောင်လုပ်ဆောင်ထားသည်။

အညာမှာ ဖော်ပြထားတဲ့ Original Website Link:
https://www.marktechpost.com/2025/10/17/baidus-paddlepaddle-team-releases-paddleocr-vl-0-9b-a-navit-style-ernie-4-5-0-3b-vlm-targeting-end-to-end-multilingual-document-parsing/

ယခု Project သည် AI ၊ Machine Learning နှင့် Deep Learning အသုံးအနှုန်းများဖြင့် Natural Language Processing (NLP) နှင့် Computer Vision (CV) နယ်ပယ်များကို ပေါင်းစပ်၍ Document Intelligence ကို ဖော်ဆောင်ခြင်းအတွက် ပိုမိုနည်းလမ်းအသစ်များအား ဖန်တီးပေးမည်ဟု မျှော်လင့်ရသည်။

Claim ownership or report listing

Want your business to be the top-listed Beauty Salon in Yangon?
Click here to claim your Sponsored Listing.

Website

facebook.com

Address

Yangon

November

Share

Category

Website

Address