26 ส.ค. เวลา 08:53 • วิทยาศาสตร์ & เทคโนโลยี

News of the Week: โมเดล Phi 3.5 (Small Language Model) จาก Microsoft

Microsoft ปล่อยโมเดล Phi รุ่นใหม่ถึง 3 โมเดลด้วยกัน ได้แก่ Phi-3.5 mini, Phi-3.5-vision และ Phi-3.5-MoE ซึ่งเป็นโมเดลประเภท Small Language Model (SLMs) ที่ Microsoft ได้มีการเปิดตัวตั้งแต่เดือนเมษายน 2024 ที่ผ่านมา
Phi มีความสามารถสูงเทียบเท่ากับโมเดลที่มีขนาดใกล้เคียงหรือใหญ่กว่าในหลายๆ ด้าน เช่น ภาษา การให้เหตุผล การเขียนโค้ด หรือคณิตศาสตร์ และเน้นความคุ้มค่าในการใช้งาน เพื่อให้ผู้ใช้งานมีทางเลือกในการเข้าถึงโมเดลเพื่อนำไปใช้สร้างและพัฒนา Generative AI มากขึ้น
สำหรับโมเดล 3 ตัวใหม่นี้ มีโมเดล Phi-3.5-MoE ที่เป็นโมเดลแบบ Mixture-of-Experts (MoE) และยังเป็นโมเดลที่รองรับได้หลายภาษา ซึ่งรวมถึงภาษาไทย เช่นเดียวกับโมเดล Phi-3.5 mini และยังมี Phi-3.5-vision ที่พัฒนาความสามารถในการเข้าใจภาพด้วย
1. Phi-3.5-mini
โมเดลภาษาที่แม้จะมีขนาด parameters กะทัดรัดเพียงแค่ 3.8B แต่เมื่อนำมาทดสอบร่วมกับโมเดลขนาดใหญ่อื่นๆ ก็สามารถชนะโมเดลอย่าง Mistral-7B-instruct-v0.3 (คะแนนเฉลี่ย 61.4 ต่อ 48.5) และ Llama-3.1-8B-Ins (คะแนนเฉลี่ย 61.4 ต่อ 61.0) และยังมีประสิทธิภาพเทียบเท่า Mistral-Nemo-12B-Ins-2407 (คะแนนเฉลี่ย 61.4 ต่อ 61.3) ตามภาพตารางด้านล่าง
Phi-3.5-mini ยังเพิ่มการรองรับได้มากกว่า 20 ภาษา โดยในเวอร์ชันนี้ได้มีการปรับปรุงประสิทธิภาพเพิ่มขึ้น 25-50% ในภาษาอาหรับ ดัตช์ ฟินแลนด์ โปแลนด์ ไทย และยูเครน นอกจากนี้ ยังมีความสามารถในการรับ context length ได้ถึง 128K tokens
2. Phi-3.5-vision
มีขนาด parameters 4.2B ได้เพิ่มประสิทธิภาพในการทำความเข้าใจ และการให้เหตุผลเกี่ยวกับภาพที่มีหลายเฟรม ช่วยให้สามารถเปรียบเทียบภาพได้อย่างละเอียด สรุปหรือเล่าเรื่องจากภาพหลายภาพ และสรุปเนื้อหาจากวิดีโอได้
3. Phi-3.5 MoE
โมเดลแบบ Mixture-of-Experts (MoE) ในตระกูล Phi มีขนาด 3.8B x 16 experts (6.6B เมื่อใช้งานจริง) เป็นโมเดลที่มีน้ำหนักเบา สร้างขึ้นจากชุดข้อมูลที่ใช้กับโมเดล Phi-3 รวมถึงข้อมูลสาธารณะและข้อมูลสังเคราะห์ที่มีคุณภาพสูง รองรับได้มากกว่า 20 ภาษา รวมถึงภาษาไทย เช่นเดียวกับโมเดล Phi-3.5-mini และยังรองรับ context length สูงสุดถึง 128K tokens
โมเดล Phi ทั้ง 3 ตัวนี้ถูกออกแบบมาเพื่อใช้ในเชิงพาณิชย์และการวิจัย ทั้งในระบบ AI ทั่วไปและแอปพลิเคชัน แต่โมเดลยังไม่ได้ถูกออกแบบและนำไปทดสอบกับงานในหลายๆ วัตถุประสงค์ นักพัฒนาจึงควรพิจารณาถึงข้อจำกัดของการใช้โมเดลภาษา และประเมินถึงความแม่นยำ และความปลอดภัย ก่อนนำไปใช้กับงานที่มีความเสี่ยงสูงด้วย
แหล่งเข้าถึง:
ข้อมูลจาก:
โฆษณา