10 ก.ย. เวลา 08:01 • วิทยาศาสตร์ & เทคโนโลยี

News of the Week: 7 โมเดลใหม่ LTM-2-mini, Command R ฯลฯ

โมเดลใหม่ประจำสัปดาห์ที่มาด้วยวิธีการพัฒนาโมเดลที่หลากหลาย เริ่มตั้งแต่ค่าย Magic ที่ปล่อยโมเดล LTM-2-mini ที่มี Context Window ถึง 100M tokens, ด้าน Cohere ปรับปรุงโมเดลเพื่อการทำงานด้าน RAG โดยเฉพาะ, Zyphra เปิดตัว Small Language Model ที่ใช้สถาปัตยกรรม Mamba 2, Salesforce เปิดตัวโมเดลที่ทำหน้าที่ AI Agent ได้อีก 3 ขนาด, Alibaba Cloud พัฒนาโมเดลด้าน Vision ที่เข้าใจวิดีโอที่มีความยาวมากขึ้นเรื่อยๆ, Hugging Face ปล่อยโมเดล Speech-to-Speech และยังมีโมเดล OCR ที่แปลงข้อมูลด้านคณิตศาสตร์ได้
LTM-2-mini
Magic ได้ปล่อยโมเดลตัวแรกที่รองรับ context window ขนาด 100M tokens ในครั้งเดียว ซึ่งเทียบเท่ากับโค้ด 10 ล้านบรรทัด หรือนิยาย 750 เล่ม ถือเป็นการก้าวข้ามขีดจำกัดของโมเดล AI ที่แต่เดิม โมเดลส่วนใหญ่จะใช้วิธีการเทรนและสามารถรองรับ context length ที่ค่อนข้างสั้น ซึ่ง Magic ตั้งใจที่จะนำโมเดลนี้ไปใช้เพื่อการพัฒนาซอฟต์แวร์ โดยเชื่อว่า โมเดลที่สามารถเข้าถึงโค้ดทั้งหมด เอกสารประกอบ และไลบรารีของโปรเจกต์ได้ จะช่วยพัฒนาการสร้างโค้ดได้อย่างมาก
Command R
โมเดลจาก Cohere เวอร์ชั่นปรับปรุงใหม่มาด้วยกัน 2 ตัวคือ Command R ขนาด 32B และ Command R+ ขนาด 104B ออกแบบมาเพื่อใช้งานในธุรกิจโดยเฉพาะ สามารถทำงานค้นคืนข้อมูล พร้อมกับการอ้างอิงข้อมูล ในกระบวนการสร้างข้อความ (RAG - Retrieval-augmented Generation) ได้อย่างดีเลิศ สามารถรองรับได้มากกว่า 10 ภาษา และยังมีเครื่องมือ Structure Outputs ที่ช่วยเพิ่มประสิทธิภาพในการสร้าง JSON
Zamba2-mini 1.2B
โมเดลภาษาขนาดเล็กตัวใหม่ (Small Language Model) แต่ความสามารถไม่เล็ก จากโมเดลซีรีส์ Zamba โดย Zyphra สามารถทำคะแนนและให้ประสิทธิภาพในระดับที่สูงมากเทียบเท่าโมเดลขนาดใหญ่อย่าง Gemma-2B (Google), OpenELM-1.1B (Apple) และ Phi-1.5 (Microsoft) ในหลายๆ งานได้ โดยเฉพาะงานที่เกี่ยวกับการประมวลผล Zamba2-mini สามารถทำงานได้เร็วกว่าโมเดลอื่นๆ ถึง 2 เท่าเมื่อแสดงผลครั้งแรก ลดการใช้หน่วยความจำลงได้ 27% และประมวลผลได้เร็วกว่าโมเดลอย่าง Phi3-3.8B ถึง 1.29 เท่า
xLAM
โมเดลภาษาขนาดใหญ่ขั้นสูงประเภท Large Action Model (LAMs) จาก Salesforce มาใหม่อีก 3 ขนาด ได้แก่ ขนาด 7B และโมเดลแบบ Mixure of Expert (MoE) ขนาด 8x7B และ 8x22B เป็นโมเดลทำหน้าที่แบบ AI Agents สามารถทำงานตามวัตถุประสงค์ได้ด้วยตนเอง มีความสามารถทางภาษาและโต้ตอบกลับได้อย่างเป็นธรรมชาติ และยังสร้างสื่อได้อย่างหลากหลายรูปแบบ
Qwen2-VL
Alibaba Cloud ปล่อยโมเดลด้าน Vision ตัวใหม่ในตระกูล Qwen 2 มี 2 ขนาดคือ Qwen2-VL-2B และ Qwen2-VL-7B มีจุดเด่นหลายด้าน ไม่ว่าจะเป็น สามารถทำความเข้าใจภาพที่มีความละเอียดและสัดส่วนหลากหลาย สามารถผสานเข้ากับอุปกรณ์ต่างๆ เช่น โทรศัพท์มือถือ หรือหุ่นยนต์ ในการรับคำสั่งข้อความหรือภาพ สามารถเข้าใจวิดีโอที่มีความยาวกว่า 20 นาที ได้อย่างมีคุณภาพ โดยสามารถตอบคำถาม สนทนา หรือสร้างเนื้อหา
Speech-to-Speech
Hugging Face ปล่อยโมเดลใหม่ Speech-to-Speech ที่รองรับได้หลายภาษา โดยระบบ modular สามารถใช้งานข้ามแพลตฟอร์ม และสลับภาษาระหว่างการสนทนาได้อย่างราบรื่น โดยมีความล่าช้าในการสลับภาษาเพียง 100 มิลลิวินาทีเท่านั้น
โมเดล OCR แบบครบวงจรรจาก Yifei Hu ผู้สร้าง Open Research Assistant สามารถประมวลผลข้อความ คณิตศาสตร์ LaTeX และรูปแบบ Markdown ทั้งหมดในคราวเดียว เหมาะสำหรับการแปลงข้อมูลจากเอกสารวิชาการ
อ่านบทความต่อที่นี่ https://visai.ai/blogs/33/dsandai-9-13-sep
โฆษณา