TechGlam
"Where technology meets glamour, showcasing AI-driven artistry."
02/09/2025
เห็นหลายคนช่วงนี้ฮิตเล่นทำ figure จาก nano banana กัน 🍌 จริงๆ มันทำจาก model ไหนก็ได้ที่เป็นสาย image edit อยู่แล้ว แค่ต้อง prompt ให้เป็น 🎨
วันนี้เลยจัดการ ต่อยอดเป็นวีดีโอ ซะเลย 💃✨
รอบนี้ใช้หลายตัวผสมกันเลย:
Kling 2.1 master
See Dance Pro
Wan 2.2
Minimax Hailuo 02
ส่วน veo3 ไม่ได้ใช้ เพราะว่า:
ไม่ได้ต้องการเสียง
คุณภาพเสียงยังไม่ดี เอาไปทำงานจริงเน้น quality ไม่ไหว แต่โพสต์ขำๆ ได้อยู่
ราคาแพงกว่าตัวอื่นเยอะ ไม่คุ้ม
ถ้าจะทำ production จริงๆ ใช้ flow อื่นดีกว่า เช่น ทำเสียงจาก AI ตัวอื่นแล้วเอาไปจัดใน Adobe PR/AE คุณภาพเนี๊ยบกว่าเยอะ
เรื่อง video model ตอนนี้ฝั่งจีนไปไกลกว่า US แล้ว แถมราคาถูกกว่าด้วย 🏮
ลองไปเล่นกันดูค่ะ สนุกเวอร์! 😍
----
Lately, I’ve seen a lot of people playing with nano banana figures 🍌😂 Honestly, you can create them with any image edit model—it’s all about the prompt! 🎨
So today, I decided to take it one step further and turn it into a video 💃✨
I mixed a few models together:
Kling 2.1 master
See Dance Pro
Wan 2.2
Minimax Hailuo 02
Why not veo3? Here’s why:
I didn’t need audio
The audio quality isn’t great yet—fine for fun posts, but not for high-quality work
It’s way more expensive than the others, not really worth it
For production-level projects, I’d use another flow: generate voice with a different AI and polish it in Adobe PR/AE—much better quality
Honestly, when it comes to video models, China is already ahead of the US… and way cheaper 🏮
Go try it out—it’s super fun! 😍
29/08/2025
สวัสดีค่ะทุกคน ตอนนี้หลายๆคนอาจตื่นเต้นกับ nano banana กัน
แต่วันนี้ Techglam มีเรื่องใหม่สุดว้าวจาก ByteDance ที่เราอยากแชร์—นั่นคือ UNO (Universal Novelty generator) โมเดล AI สำหรับสร้างภาพที่ควบคุมความสม่ำเสมอของตัวบุคคลหรือวัตถุได้อย่างแม่นยำ จะใช้แค่ภาพอ้างอิงเดียวหรือหลายภาพก็ได้เลยค่ะ
UNO คืออะไร?
UNO คือเทคโนโลยี AI สำหรับสร้างภาพ (image generation framework) ที่สามารถสร้างภาพโดยรักษาลักษณะสำคัญของ “ตัวบุคคล” หรือ “วัตถุ” ให้เหมือนเดิมไม่ว่าจะอยู่ในสไตล์หรือฉากไหนก็ตาม ทั้งสำหรับ single‑subject และ multi‑subject scenarios
model ตัวนี้ถูกเปิดตัวโดยทีม Intelligent Creation ของ ByteDance และเน้นที่การควบคุม (controllability) และความสอดคล้อง (consistency) ของภาพเป็นพิเศษ
จุดเด่นทางเทคนิคของ UNO
1. Less-to-More Generalization
UNO ถูกฝึกในลักษณะ “น้อยไปมาก” เริ่มจากสร้างความเชี่ยวชาญในภาพเดียว (single‑subject) แล้วขยายไปสู่ภาพหลายตัวบุคคล (multi‑subject) ได้อย่างลื่นไหลและแม่นยำ
2. Progressive Cross-modal Alignment
เป็นการฝึกแบบสองขั้นตอน:
ขั้นแรก ปรับโมเดลที่เรียนจากข้อความ-เป็น-ภาพ (T2I) ให้สามารถทำ single‑subject generation ได้
ขั้นที่สอง เพิ่มการฝึกด้วยข้อมูล multi‑subject เพื่อให้โมเดลจัดการฉากซับซ้อนได้ดีขึ้น
3. Universal Rotary Position Embedding (UnoPE)
เทคนิค encoding ที่ช่วยป้องกันการ “สับสน” ของลักษณะตัวบุคคลหลายคนในฉากเดียว ทำให้แต่ละคนยังมีเอกลักษณ์ชัดเจน เช่น ถ้ามีคนสองคนในภาพ โมเดลจะรักษาคุณสมบัติของแต่ละคนไม่ให้หลุดไปเป็นอันอื่น
4. High-Consistency Data Synthesis Pipeline
UNO ใช้วิธีสร้างข้อมูลฝึกแบบ Paired Data ผ่าน Diffusion Transformers ที่เน้น “ความสอดคล้องสูง” ของภาพ ทำให้ต้นแบบและผลลัพธ์มีคุณภาพและสไตล์ใกล้เคียงกันมาก
หากเพื่อนๆ คนไหนสนใจ อยากทดลอง UNO หรืออยากให้ Techglam ลงลึกไปในเรื่องการใช้งานหรือ เบื้องหลัง model ด้านเทคนิค—บอกเลยนะคะ ยินดีช่วยเต็มที่!
-------
Meet USO: ByteDance’s Breakthrough in AI Image Generation
Hello, Techglam readers! It’s me, your AI-loving pal, here to introduce an exciting new marvel from ByteDance's Intelligent Creation Lab—USO (Unified Style‑Subject Optimized). This model is absolutely stunning in how effortlessly it blends style and subject identity in AI-generated images—from portraits to more creative scenes.
What Makes USO So Special?
Freedom to Mix Any Style with Any Subject
USO is designed to combine any subject (say, your favorite character or item) with any style, producing natural-looking results that preserve both the subject’s identity and the intended aesthetic—whether it’s photo-realism, illustration, or something out-of-the-box.
A Complete Open-Source Package
ByteDance has generously open-sourced everything: the training code, inference scripts, model weights, and even the datasets—all to support and empower creators and researchers alike.
How It Works Under the Hood
- Triplet Learning: Content + Style + Stylized Image
The model trains on triplet datasets—each containing a content image, a style image, and a stylized content image—so it can learn how to separate (disentangle) content from style effectively.
- Disentangled and Reward-Guided Learning
USO uses a dual-objective technique: one for aligning style features and another for disentangling content from style, plus a style-specific reward learning mechanism (SRL) that enhances performance.
- USO-Bench: A Benchmark Designed for Both Style & Subject
ByteDance didn’t stop at training—they created USO‑Bench, a specialized benchmark to evaluate both style fidelity and subject consistency, ensuring the model excels in both aspects.
คลิกที่นี่เพื่อเป็นสมาชิก?