20 ส.ค. เวลา 06:59 • วิทยาศาสตร์ & เทคโนโลยี

News of the Week: 8 โมเดลใหม่ Typhoon, Grok 2, Imagen 3 ฯลฯ

มัดรวม 8 โมเดลใหม่ประจำสัปดาห์ ที่มีทั้ง Multimodal Model จาก Typhoon ของไทย และ LLaVA-OneVision จากจีน พร้อมด้วยโมเดลที่รองรับภาษาเกาหลี EXAONE 3.0 ฟากโมเดลสำหรับการทำงานกับภาพและวิดีโอก็มีทั้ง LLaVA-OneVision และโมเดลสร้างภาพจากข้อความอย่าง FLUX.1, Grok, และ Imagen 3 ที่แข่งขันกันพัฒนาให้ภาพมีรายละเอียดที่สมจริงมากขึ้นเรื่อยๆ
Typhoon Multimodal
SCB10X เปิดตัวโมเดล Multimodal Typhoon 2 โมเดล ได้แก่ Typhoon-Vision และ Typhoon-Audio โดยมีขนาด 8B และยังเป็นเวอร์ชันพรีวิวสำหรับการวิจัย ที่ต่อยอดมาจาก llama-3-typhoon-v1.5-8b-instruct
- Typhoon-Vision รองรับข้อมูลทั้งข้อความและภาพ และให้ผลลัพธ์เป็นข้อความ สามารถนำไปใช้กับงานประเภท การบรรยายภาพ การถาม-ตอบจากภาพ หรือการแชตด้วยภาพ
- Typhoon-Audio เป็นโมเดลภาษา-เสียง รองรับการป้อนข้อมูลทั้งแบบข้อความและเสียง และให้ผลลัพธ์เป็นข้อความ สามารถนำไปใช้กับงานประเภท การถอดความ การแปลคำพูด การทำตามคำสั่งเสียง การถามตอบจากเอกสารเสียง และการบรรยายเสียง
ภาษาที่รองรับ: ไทยและอังกฤษ
License: Llama 3 Community License
LLaVA-OneVision
เป็น Open source LLMโดยนักวิจัยชาวจีนพัฒนาขึ้นร่วมกับ ByteDance ซึ่งมีขนาด 0.5B, 7B, และ 72B มีความสามารถในการประมวลผลทั้งภาพนิ่งและวีดีโอ และยังสามารถรองรับรูปภาพหลายรูปได้ในทีเดียว
LLaVA-OneVision สามารถเข้าใจบริบทของสถานที่และสถานการณ์ในรูปและวีดีโอได้ดี จึงทำให้โมเดลมีความสามารถในการเข้าใจในรูปภาพและวีดีโอมากกว่าโมเดลอื่นๆ
แหล่งเข้าถึง: https://huggingface.co/lmms-lab
EXAONE 3.0
โมเดลภาษารุ่นใหม่ ขนาด 7.8B ซึ่งถูกเทรนด้วยชุดข้อมูลขนาด 8T tokens จาก LG AI Research ที่รองรับทั้งภาษาอังกฤษและเกาหลี ได้เปิดให้ใช้งานใน Open source ครั้งแรก เพื่อสนับสนุนการทำงานวิจัย
ในการ benchmark ได้ใช้การวัดบน Chatbot Arena โดย EXAONE มีคะแนนเฉลี่ยสูงสุดในด้าน Math และ Coding เป็นอันดับ 1
ในแง่ความคุ้มค่า EXAONE สามารถประมวลผลเร็วขึ้นถึง 56% ช่วยต้นทุนลดลงถึง 72% สำหรับเวอร์ชัน 2.0 และ 6% สำหรับเวอร์ชัน 1.0
ภาษาที่รองรับ: อังกฤษและเกาหลี
License: EXAONE AI Model License Agreement 1.1 - NC
Qwen2-Math
โมเดลภาษาเฉพาะทางด้านคณิตศาสตร์จาก Qwen โดย Alibaba Cloud สำหรับซีรีส์ Qwen 2 ประกอบด้วย Qwen2-Math และ Qwen2-Math-Insrtuct มีทั้งหมด 3 ขนาด ได้แก่ 1.5B, 7B, และ 72B
Qwen2-Math มีความสามารถทางคณิตศาสตร์เหนือกว่าโมเดลภาษาอื่นๆ เนื่องจาก Qwen ถูก pretrain ด้วยข้อมูลด้านคณิตศาสตร์ในปริมาณมาก ทั้งหนังสือ โค้ด ข้อสอบ จึงเหมาะกับการแก้ปัญหาทางคณิตศาสตร์ที่ซ้ำซ้อนได้
จากการทดสอบโมเดลบน benchmark ด้านคณิตศาสตร์ ไม่ว่าจะเป็น GSM8K, Math, หรือ MMLU-STEM และข้อสอบคณิตศาสตร์ AIME 2024 และ AMC 2023 แสดงให้เห็นว่าโมเดล Qwen2 มีประสิทธิภาพดีที่สุด ซึ่งเก่งกว่าสุดยอดโมเดลของวงการอย่าง Llama-3.1-405B, GPT-4o, Claude-3.5-Sonnet, หรือ Gemini-1.5-Pro
ภาษาที่รองรับ: รองรับเฉพาะภาษาอังกฤษ (และอยู่ในระหว่างพัฒนาให้รองรับภาษาจีน)
License: โมเดลขนาด 1.5B และ 7B ได้รับการปล่อยภายใต้ License Apache 2.0 ส่วนขนาด 72B ใช้ License Qianwen
แหล่งเข้าถึง: https://huggingface.co/Qwen
Falcon Mamba 7B
LLM ตัวใหม่ ในซีรีส์ Falcon สร้างโดย Technology Innovation Institute (TII) สหรัฐอาหรับเอมิเรตส์ โมเดล Falcon Mamba 7B ได้รับการตรวจสอบจาก Hugging Face ว่าเป็น State Space Language Model (SSLM) แบบ Open source ที่มีประสิทธิภาพอันดับหนึ่งของโลก
โมเดล Falcon Mamba 7B ถือเป็นรุ่นแรกที่ใช้สถาปัตยกรรม Mamba ทั้งหมด และมีประสิทธิภาพเหนือกว่า Llama 3.1 8B และ Llama 3 8B ของ Meta และ Mistral 7B
สำหรับโมเดลแบบ SSLM มีการใช้ memory ที่น้อยกว่าสถาปัตยกรรมแบบ Transformers และยังมีคุณสมบัติในการประมวลผลภาษาธรรมชาติ (Natural Language Processing) จึงนำไปประยุกต์ใช้ใน การแปลภาษาอัตโนมัติ การสรุปข้อความ การประมวลผลภาพ และการประมวลเสียง
ภาษาที่รองรับ: อังกฤษ
License: TII Falcon License 2.0
แหล่งเข้าถึง: https://huggingface.co/tiiuae/falcon-mamba-7b
FLUX.1
FLUX.1 โมเดล generate ภาพจากข้อความขนาด 12B โดยทีมนักวิจัยจาก Black Forest Labs โดยมีทั้งหมด 3 โมเดล ได้แก่
- FLUX.1 [pro] เป็นรุ่นที่ดีที่สุด มีประสิทธิภาพในการ generate ภาพดีที่สุด สามารถเข้าใจ prompt ได้อย่างยอดเยี่ยม ภาพที่ได้มีรายละเอียดคมชัด คุณภาพภาพสูง และให้ผลลัพธ์ที่หลากหลาย
- FLUX.1 [dev] เป็นโมเดลที่ปล่อย weight สำหรับการนำไปใช้ในเชิง non-commercial
- FLUX.1 [schnell] โมเดลที่เร็วที่สุด เพื่อการพัฒนาบน local หรือ edge device ใช้งานได้ภายใต้ License Apache 2.0
โมเดล FLUX.1 [pro] และ [dev] มีประสิทธิภาพเหนือกว่า Midjourney v6.0, DALL-E 3 (HD) และ SD3-Ultra ในหลายด้าน ไม่ว่าจะเป็น คุณภาพของภาพ, ความเข้าใจต่อ prompt, ความหลากหลายของขนาดภาพ/อัตราส่วน, การแสดงผลตัวอักษร, และความหลากหลายของผลลัพธ์
แหล่งเข้าถึง: https://huggingface.co/black-forest-labs/FLUX.1-dev
Grok 2
โมเดลภาษาในตระกูล Grok จาก xAI ที่มีความสามารถในการแชต การเขียนโค้ด และการให้เหตุผล (Reasoning) มีทั้งหมด 2 โมเดล ได้แก่ Grok-2 และ Grok-2 mini ซึ่งเป็นรุ่นขนาดเล็ก Grok ถูก benchmark บน LMSYS Leaderboard ในชื่อ “sus-column-r" และได้แสดงให้เห็นว่ามีประสิทธิภาพที่ดีกว่า Claude 3.5 Sonnet และ GPT-4-Turbo
โมเดลทั้งสองรุ่นมีจุดเด่นคือ ความสามารถในการทำความเข้าใจทั้งข้อความและภาพ พร้อมเชื่อมต่อข้อมูลจาก X ได้แบบเรียลไทม์
นอกจากนี้ xAI ยังร่วมมือกับ Black Forest Labs ในการทดสอบการทำงานร่วมกับโมเดล FLUX.1 ที่เพิ่งเปิดตัวด้วย
ทั้งสองโมเดลได้เปิดให้ใช้งานบนแพลตฟอร์ม X แล้ว โดยผู้ใช้ X Premium และ Premium+ สามารถเข้าถึงโมเดลได้ทั้งสองรุ่น และเตรียมที่จะเปิดให้บริการผ่านทาง API สำหรับองค์กรเร็วๆ นี้
Imagen 3
โมเดล generate รูปภาพล่าสุดจาก Google สามารถสร้างภาพที่มีรายละเอียดสมจริงเสมือนภาพถ่ายจริง
Imagen 3 ได้รับการพัฒนาให้มีความเข้าใจขั้นสูงในภาษาธรรมชาติมากขึ้น จึงสามารถเข้าใจ prompt ที่ผู้ใช้ป้อนเข้ามา รวมถึงรายละเอียดเล็กๆ จากข้อความ prompt ที่ยาวขึ้น ช่วยให้โมเดลสามารถสร้างภาพได้หลากหลายสไตล์ นอกจากนี้ ยังสามารถแสดงข้อความในภาพได้ เช่น ข้อความอวยพรวันเกิด หัวข้อในงานนำเสนอ และอื่นๆ
Imagen 3 ได้เปิดให้ทดลองใช้งานใน ImageFX หรือสามารถลง waiting list ได้บน VertexAI
แหล่งเข้าถึง:
อ่านบทความฉบับเต็มที่: https://visai.ai/blogs/29/dsandai-19-23-aug
โฆษณา