3 ก.ย. เวลา 07:34 • วิทยาศาสตร์ & เทคโนโลยี

News of the Week: โมเดล Jamba 1.5, Sapiens, CogVideoX

แนะนำโมเดลภาษาตัวใหม่จาก AI21 ที่ใช้สถาปัตยกรรม SSM-Transformer โมเดลด้าน Vision ตัวใหม่จาก Meta และโมเดลสร้างวิดีโอจากข้อความจาก CogVideoX ที่คุณภาพเหนือคู่แข่งอย่าง VideoCrafter-2.0 และ OpenSora
Jamba 1.5
โมเดลภาษาที่เน้นออกแบบมาให้ใช้งานภายในองค์กรจาก AI21 มาด้วยกัน 2 โมเดลคือ Jamba 1.5 mini และ Jamba 1.5 Large สร้างขึ้นบนสถาปัตยกรรม SSM-Transformer ที่จัดว่ามีประสิทธิภาพเทียบเท่าโมเดลชั้นนำ โดยมี context window มากถึง 256,000 tokens ซึ่งเป็นขนาดที่ยาวที่สุดในตลาด จึงนำไปใช้ในการปรับปรุงคุณภาพของแอปพลิเคชันในองค์กร ในด้านการสรุปและวิเคราะห์เอกสารที่มีความยาว รวมถึงการค้นคืนข้อมูล (RAG) ได้
นอกจากนี้ ในการออกแบบโมเดล Jamba 1.5 ยังเน้นไปที่ประสิทธิภาพในการใช้ทรัพยากร คุณภาพ ความเร็ว และความสามารถในการแก้ไขปัญหางานได้จริง ซึ่งเป็นปัจจัยหลักๆ ที่องค์กรจะเลือกโมเดลไปใช้ โดย Jamba 1.5 มีความเร็วมากขึ้น 2.5 เท่า จัดว่าเร็วที่สุดในทุกขนาด context length เมื่อเทียบกับโมเดลในขนาดเดียวกัน สามารถรองรับได้หลายภาษา อาทิ อังกฤษ สเปน ฝรั่งเศส โปรตุเกส อิตาลี ดัตช์ เยอรมัน อาหรับ และฮิบรู และยังรองรับการสร้าง Output แบบ JSON สำหรับนักพัฒนาอีกด้วย
ในการทดสอบคุณภาพโมเดล Jamba 1.5 mini ได้คะแนน 46.1 ในการทดสอบ Arena Hard ซึ่งเหนือกว่าโมเดล Mixtral 8x22B ที่มีขนาดใหญ่กว่า ส่วน Jamba 1.5 Large ได้คะแนน 65.4 เหนือกว่าโมเดล Llama 3.1 70B และ 405B
โมเดลสามารถใช้งานได้บน Hugging Face ภายใต้ License Jamba Open Model และยังสามารถใช้งานได้บน cloud อย่าง Google Cloud Vertex AI, Microsoft Azure และ NVIDIA NIM และแพลตฟอร์มอื่น รวมถึงการใช้งานแบบส่วนตัวบนเซิร์ฟเวอร์ขององค์กร (on-prem) และ VPC เร็วๆ นี้
Sapiens
Meta Reality Labs เปิดตัวโมเดลด้าน vision สำหรับการประมวลผลท่าทางของมนุษย์ที่มีความละเอียดสูง สามารถวิเคราะห์และทำความเข้าใจท่าทางต่างๆ ในภาพหรือวิดีโอ โดยสามารถแบ่งได้เป็น 4 ประเภท ได้แก่
การรู้จำท่าทางของมนุษย์แบบ 2 มิติ (2D Pose Estimation), การแบ่งส่วนของร่างกาย (Body Part segmentation) โดยสามารถแยกส่วนต่างๆ ของร่างกาย เช่น มือ เท้า ศรีษะ จากภาพได้, การวัดความลึก (Depth Estimation) ของวัตถุในรูปภาพ และการประเมินมุมของพื้นผิวของวัตถุต่างๆ (Surface Normal Prediction) เพื่อทำความเข้าใจรูปร่างและวัสดุของวัตถุได้ดีขึ้น
โมเดลนี้ได้รับการฝึกฝนด้วยภาพของมนุษย์มากกว่า 300 ล้านภาพ สามารถทำงานได้ดีกับภาพที่มีความละเอียดสูงมาก หรือทำงานกับข้อมูลที่มีการติดป้ายกำกับน้อย หรือข้อมูลจำลอง ทำให้โมเดลเป็นประโยชน์เมื่อนำไปใช้งานจริง โดยเฉพาะเมื่อมีข้อมูลจำกัด
แหล่งเข้าถึง: https://github.com/facebookresearch/sapiens
CogVideoX
โมเดลสร้างวิดีโอจากข้อความ CogVideoX-5B จากนักวิจัยมหาวิทยาลัยชิงหวา และ Zhipu AI สามารถสร้างวิดีโอที่มีความยาวมากถึง 6 นาที โดยมี parameters ขนาด 2B และ 5B ให้เลือก ความละเอียด 720x480 ที่ 8 เฟรมต่อวินาที และมีประสิทธิภาพเหนือคู่แข่งอย่าง VideoCrafter-2.0 และ OpenSora ในหลายตัวชี้วัดจากการทดสอบโดยนักวิจัย
คุณสมบัติของโมเดลยังแสดงให้เห็นถึงความก้าวหน้าหลายด้าน ไม่ว่าจะเป็น โมเดลแบบ Multimodal ที่ทำงานได้ทั้งการประมวลผลภาษาธรรมชาติและ Computer Vision จึงสามารถแปลข้อความเป็นลำดับภาพวิดีโอที่สอดคล้องและดึงดูดสายตาได้ และโมเดลยังเข้าถึงง่ายขึ้น โดยสามารถทำงานกับฮาร์ดแวร์ที่ใช้ในบ้านได้ ต่างจากโมเดลก่อนหน้าที่ต้องการทรัพยากรคอมพิวเตอร์ระดับสูง จึงเป็นประโยชน์ต่อนักวิจัย นักพัฒนา และเหล่าคอนเทนต์ครีเอเตอร์ ที่ต้องการนำโมเดลไปใช้
แหล่งเข้าถึง: https://github.com/THUDM/CogVideo
อ่านบทความต่อ: https://visai.ai/blogs/32/dsandai-2-6-sep
ข้อมูลจาก:
โฆษณา