November

November

Share

Beauty

22/10/2025

💃

17/10/2025

နောက်ဆုံးရ AI သတင်းများ

Baidu မှ AI နယ်ပယ်တွင် ထင်ရှားသော PaddlePaddle သုတေသနလုပ်ငန်းအဖွဲ့သည် PaddleOCR-VL 0.9B ကို မကြာသေးမီက စတင်ထုတ်ပြန်လိုက်သည်။ ၎င်းသည် ERNIE 4.5 0.3B တည်ဆောက်ပုံအပေါ်တွင် မူတည်သည့် vision-language model (VLM) တစ်ခုဖြစ်ပြီး၊ NaViT စတိုင်ဖြင့် ဖွဲ့စည်းထားသည်။ ဒါဟာ end-to-end multilingual document parsing အတွက် အထူးသင့်လျော်သည့် နည်းပညာဖြစ်သည်။

PaddleOCR-VL ကို ထုတ်လုပ်ပြီး Fine-tuning မပြုမီချင်းတွင်ပါ စွမ်းဆောင်ရည်မြင့်နေပြီး၊ artificial intelligence (AI) နှင့် machine learning နည်းလမ်းများကို အသုံးပြု၍ Vision-Language (V+L) task များတွင် ထိရောက်အောင် desempeñar (လုပ်ဆောင်) နိုင်သည်။ အထူးသဖြင့် ဆောင်းပါးထဲတွင်ဖော်ပြထားသည်မှာ နယူးထုတ် ERNIE 4.5 တွင် instruction-following စွမ်းရည်မြင့်မားလာပြီး၊ NaViT-style Encoder ကိုအသုံးပြုထားသဖြင့် Input Resolution မြင့်မားစွာကို ပံ့ပိုးနိုင်သည်။

ဤ model အသစ်သည် Layout-Aware Design ကိုလည်း အခြေခံထားပြီး၊ model ကို instruction-based vision-language interface များအတွက် ဖွံ့ဖြိုးလာအောင်လုပ်ဆောင်ထားသည်။ ဒါဟာ Visual Document Understanding (VDU) ဆိုတဲ့ field ဟာမျှ intelligence မြင့်မားလာသော AI တစ်ခုဖြစ်လာရန် အရေးကြီးတဲ့ ခြေလှမ်းတစ်ခုဖြစ်သည်။

PaddleOCR-VL 0.9B ရဲ့ architecture (ဖွဲ့စည်းပုံ) သည် Encoder-Decoder မော်ဒယ်စနစ်ကို NaViT encoder နှင့် ERNIE 4.5 decoder တို့ဖြင့် တည်ဆောက်ထားသည်။ ၎င်းသည် Transformer-based structure အပြည့်အဝဖြင့် တည်ဆောက်ထားပြီး Translation, Visual QA, Document Understanding စတာတွေကို multilingual setting တွင် Run လုပ်နိုင်အောင် မျှော်မှန်းဖန်တီးထားသည်။

ဖော်ပြချက်အရ VDU tasks များကို multilingual ပံ့ပိုးမှုအပြည့်အဝဖြင့် တုံ့ပြန်နိုင်သည်။ သတင်းအရ ပထမ version ဖြစ်တဲ့ PaddleOCR-VL 0.9B ကို training ပြုလုပ်ရာတွင် large-scale synthetic dataset နှင့် instruction data များကို အသုံးပြုခဲ့သည်။ ထို့ကြောင့် AI model ဟာ Data မြောက်မြားစွာအပေါ် မှီခိုကာ ယုံကြည်စိတ်ချရလောက်အောင် generalize လုပ်နိုင်တယ်လို့ ယူဆထားသည်။

Baidu ရဲ့ team ကနေ ချပြချက်တစ်ရပ်အနေနဲ့ ချပြထားတာကတော့ – ဒီ model ဟာ OCR application များအတွက် နောက်ဆုံးပေါ် multilingual parsing system တစ်ခုဖြစ်လာအောင် ရည်ရွယ်ထားတာဖြစ်သည်။ အဖွဲ့က open-source framework ဖြစ်တဲ့ PaddleOCR တွင်ထည့်သွင်းထားပြီး၊ မတူညီသော Document Language Pair များ၊ Layout Design များနှင့် Instruction condition များကို တုံ့ပြန်နိုင်အောင်လုပ်ဆောင်ထားသည်။

အညာမှာ ဖော်ပြထားတဲ့ Original Website Link:
https://www.marktechpost.com/2025/10/17/baidus-paddlepaddle-team-releases-paddleocr-vl-0-9b-a-navit-style-ernie-4-5-0-3b-vlm-targeting-end-to-end-multilingual-document-parsing/

ယခု Project သည် AI ၊ Machine Learning နှင့် Deep Learning အသုံးအနှုန်းများဖြင့် Natural Language Processing (NLP) နှင့် Computer Vision (CV) နယ်ပယ်များကို ပေါင်းစပ်၍ Document Intelligence ကို ဖော်ဆောင်ခြင်းအတွက် ပိုမိုနည်းလမ်းအသစ်များအား ဖန်တီးပေးမည်ဟု မျှော်လင့်ရသည်။

Want your business to be the top-listed Beauty Salon in Yangon?
Click here to claim your Sponsored Listing.

Category

Website

Address


Yangon