November
Beauty
💃
နောက်ဆုံးရ AI သတင်းများ
Baidu မှ AI နယ်ပယ်တွင် ထင်ရှားသော PaddlePaddle သုတေသနလုပ်ငန်းအဖွဲ့သည် PaddleOCR-VL 0.9B ကို မကြာသေးမီက စတင်ထုတ်ပြန်လိုက်သည်။ ၎င်းသည် ERNIE 4.5 0.3B တည်ဆောက်ပုံအပေါ်တွင် မူတည်သည့် vision-language model (VLM) တစ်ခုဖြစ်ပြီး၊ NaViT စတိုင်ဖြင့် ဖွဲ့စည်းထားသည်။ ဒါဟာ end-to-end multilingual document parsing အတွက် အထူးသင့်လျော်သည့် နည်းပညာဖြစ်သည်။
PaddleOCR-VL ကို ထုတ်လုပ်ပြီး Fine-tuning မပြုမီချင်းတွင်ပါ စွမ်းဆောင်ရည်မြင့်နေပြီး၊ artificial intelligence (AI) နှင့် machine learning နည်းလမ်းများကို အသုံးပြု၍ Vision-Language (V+L) task များတွင် ထိရောက်အောင် desempeñar (လုပ်ဆောင်) နိုင်သည်။ အထူးသဖြင့် ဆောင်းပါးထဲတွင်ဖော်ပြထားသည်မှာ နယူးထုတ် ERNIE 4.5 တွင် instruction-following စွမ်းရည်မြင့်မားလာပြီး၊ NaViT-style Encoder ကိုအသုံးပြုထားသဖြင့် Input Resolution မြင့်မားစွာကို ပံ့ပိုးနိုင်သည်။
ဤ model အသစ်သည် Layout-Aware Design ကိုလည်း အခြေခံထားပြီး၊ model ကို instruction-based vision-language interface များအတွက် ဖွံ့ဖြိုးလာအောင်လုပ်ဆောင်ထားသည်။ ဒါဟာ Visual Document Understanding (VDU) ဆိုတဲ့ field ဟာမျှ intelligence မြင့်မားလာသော AI တစ်ခုဖြစ်လာရန် အရေးကြီးတဲ့ ခြေလှမ်းတစ်ခုဖြစ်သည်။
PaddleOCR-VL 0.9B ရဲ့ architecture (ဖွဲ့စည်းပုံ) သည် Encoder-Decoder မော်ဒယ်စနစ်ကို NaViT encoder နှင့် ERNIE 4.5 decoder တို့ဖြင့် တည်ဆောက်ထားသည်။ ၎င်းသည် Transformer-based structure အပြည့်အဝဖြင့် တည်ဆောက်ထားပြီး Translation, Visual QA, Document Understanding စတာတွေကို multilingual setting တွင် Run လုပ်နိုင်အောင် မျှော်မှန်းဖန်တီးထားသည်။
ဖော်ပြချက်အရ VDU tasks များကို multilingual ပံ့ပိုးမှုအပြည့်အဝဖြင့် တုံ့ပြန်နိုင်သည်။ သတင်းအရ ပထမ version ဖြစ်တဲ့ PaddleOCR-VL 0.9B ကို training ပြုလုပ်ရာတွင် large-scale synthetic dataset နှင့် instruction data များကို အသုံးပြုခဲ့သည်။ ထို့ကြောင့် AI model ဟာ Data မြောက်မြားစွာအပေါ် မှီခိုကာ ယုံကြည်စိတ်ချရလောက်အောင် generalize လုပ်နိုင်တယ်လို့ ယူဆထားသည်။
Baidu ရဲ့ team ကနေ ချပြချက်တစ်ရပ်အနေနဲ့ ချပြထားတာကတော့ – ဒီ model ဟာ OCR application များအတွက် နောက်ဆုံးပေါ် multilingual parsing system တစ်ခုဖြစ်လာအောင် ရည်ရွယ်ထားတာဖြစ်သည်။ အဖွဲ့က open-source framework ဖြစ်တဲ့ PaddleOCR တွင်ထည့်သွင်းထားပြီး၊ မတူညီသော Document Language Pair များ၊ Layout Design များနှင့် Instruction condition များကို တုံ့ပြန်နိုင်အောင်လုပ်ဆောင်ထားသည်။
အညာမှာ ဖော်ပြထားတဲ့ Original Website Link:
https://www.marktechpost.com/2025/10/17/baidus-paddlepaddle-team-releases-paddleocr-vl-0-9b-a-navit-style-ernie-4-5-0-3b-vlm-targeting-end-to-end-multilingual-document-parsing/
ယခု Project သည် AI ၊ Machine Learning နှင့် Deep Learning အသုံးအနှုန်းများဖြင့် Natural Language Processing (NLP) နှင့် Computer Vision (CV) နယ်ပယ်များကို ပေါင်းစပ်၍ Document Intelligence ကို ဖော်ဆောင်ခြင်းအတွက် ပိုမိုနည်းလမ်းအသစ်များအား ဖန်တီးပေးမည်ဟု မျှော်လင့်ရသည်။
Click here to claim your Sponsored Listing.
Category
Website
Address
Yangon