30 ก.ค. เวลา 08:47 • วิทยาศาสตร์ & เทคโนโลยี

สัปดาห์แห่งการปล่อยโมเดล

เมื่อ Meta บริษัทเทคยักษ์ใหญ่ ได้ปล่อยโมเดล Llama 3.1 ให้ออกมาใช้งานกันด้วยลิขสิทธิ์ Open-source เมื่อวันที่ 23 กรกฎาคมที่ผ่านมา บริษัทเทคเจ้าอื่นก็ไม่น้อยหน้าต่างรีบปล่อยโมเดลของตัวเองออกมากันแบบรัวๆ เลยเป็นสัปดาห์แห่งการปล่อยโมเดลภาษามาให้ใช้งานกัน มาเริ่มกันที่
Llama 3.1
โมเดลภาษาขนาดใหญ่หลายภาษา (LLMs) จาก Meta ที่เพิ่งประกาศให้เปิดใช้งานได้ในลิขสิทธิ์ open-source เมื่อวันที่ 23 กรกฎาคม 2567 ประกอบด้วย โมเดล pre-trained และ instruction tuned generative ขนาด 8B, 70B, และ 405B ตามลำดับ รองรับการใช้งานในการสนทนาหลายภาษา และยังเป็นโมเดลเดียวที่มีการพูดถึงการรองรับภาษาไทยในบรรดาโมเดลที่ปล่อยออกมาทั้งหมดในช่วงนี้
คุณสมบัติ
- จำนวน parameter 8B, 70B และ 405B
- รูปแบบการป้อนข้อมูล: ข้อความหลายภาษา
- รูปแบบการตอบ: ข้อความหลายภาษาและโค้ด
- Context Length: 128,000 token
- จำนวน token: 15T token
- ภาษาที่รองรับ: อังกฤษ เยอรมัน ฝรั่งเศส อิตาลี โปรตุเกส ฮินดี สเปน ไทย
- License: Llama 3.1 community License สามารถแข่งขันกับโมเดลชั้นนำได้หลากหลายงาน ทั้ง GPT-4, GPT-4o และ Claude 3.5 Sonnet
แหล่งเข้าถึง: https://huggingface.co/meta-llama/Meta-Llama-3.1-405B
NeMo Base 2407
โมเดลขนาด 12B parameter พัฒนาโดย Nvidia และ Mistral ที่ผ่านการพัฒนาภายใต้สัญญาอนุญาต Apache 2.0 และปล่อยออกมาเป็น open-source model เพื่อสนับสนุนให้นักวิจัยและองค์กรต่างๆ สามารถนำไปใช้ได้โดยไม่มีค่าใช้จ่าย
คุณสมบัติ
- จำนวน parameter: 12B parameter
- มีเวอร์ชัน: Base model และ Instruct model
- รองรับได้สูงสุดถึง 128,000 context window
- ภาษาที่รองรับ: อังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี
- แทนที่โมเดล Mistral 7B ในระบบใดก็ได้
- สามารถนำไปใช้ในรูปแบบ FP8 ช่วยลดขนาดหน่วยความจำและเพิ่มความเร็วในการใช้งาน โดยแลกมากับความแม่นยำที่ลดลงเล็กน้อย
- สามารถแข่งขันกับ: Llama 3 ขนาด 8B parameter และ Gemma 2 ขนาด 9B parameter
- License: Apache 2.0
แหล่งเข้าถึง: https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
GPT-4o mini
โมเดลขนาดเล็ก จาก OpenAI ที่มาในราคาย่อมเยากว่า GPT-3.5 Turbo มากกว่า 60% สามารถเรียกใช้งานผ่าน API ได้
คุณสมบัติ
- ได้คะแนน 82% ในการทดสอบ MMLU
- ประสิทธิภาพดีกว่า GPT-4 ในการทดสอบการสนทนาบน LMSYS leaderboard
- มีราคา 15 เซนต์ต่อ 1 ล้าน input token และ 60 เซนต์ ต่อ 1 ล้าน output token
- รองรับการใช้งานหลากหลาย ไม่ว่าจะเป็น การเรียกใช้ API หลายตัว หรือการส่งข้อมูลปริมาณมาก เช่น ฐานข้อมูลขนาดใหญ่, ประวัติการสนทนา
- แชตบอตโต้ตอบลูกค้าผ่านข้อความแบบเรียลไทม์
แหล่งเข้าถึง: https://openai.com/chatgpt/
DeepSeek-V2-Chat-0628
เป็นโมเดลภาษา จาก DeepSeek ที่อัปเกรดมาจากโมเดล DeepSeek-V2-Chat ได้รับการรับรองว่าเป็นโมเดล open-source อันดับ 1 บน LMSYS Chatbot Arena Leaderboard และยังติดอันดับอื่นๆ ได้แก่ Overall อันดับที่ 11, Hard Prompts อันดับที่ 3, Coding อันดับที่ 3, Longer Query อันดับที่ 4, และ Math อันดับที่ 7
แหล่งเข้าถึง: https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat-0628
DCLM-7B
โมเดลภาษา จาก Apple ที่มี 7B parameter ผ่านการฝึกฝนด้วยชุดข้อมูล DCLM-Baseline ที่มีการคัดสรรอย่างพิถีพิถัน อันเป็นส่วนหนึ่งของการวัดมาตรฐาน DataComp for Language Model (DCLM) เพื่อเน้นถึงความสำคัญของคุณภาพข้อมูลที่มีต่อประสิทธิภาพของโมเดล
คุณสมบัติ
- จำนวน parameter: 7B parameter
- ข้อมูลที่ใช้ในการเทรน: 2.5T token
- Initial Context Length: 2048 token
- Extended Content Length: 8,000 token (ในเวอร์ชันที่อัปเดต)
- License: Apple ASCL
แหล่งเข้าถึง: https://huggingface.co/apple/DCLM-7B
NuminaMath-7B-TIR
ชุดข้อมูลและโมเดลสำหรับการฝึกฝนโมเดลภาษาขนาดใหญ่ (LLMs) บนโจทย์คณิตศาสตร์ จาก Numina ที่รวบรวมคำถาม-คำตอบ จากการแข่งขันคณิตศาสตร์ตั้งแต่ระดับง่ายที่สุดจนถึงระดับการแข่งขันคณิตศาสตร์โอลิมปิก โดยใช้วิธีการในการเทรน 2 ขั้นตอน
- ขั้นตอนที่ 1 Chain of Thought (CoT): เทรนโมเดลพื้นฐาน Deepseek-math-7b บนชุดข้อมูลขนาดใหญ่ ประกอบด้วย คำถาม-คำตอบคณิตศาสตร์ประมาณ 860,000 คู่ ที่จัดรูปแบบด้วย CoT เพื่อเสริมสร้างความสามารถในการให้เหตุผลทางคณิตศาสตร์ด้วยภาษาธรรมชาติ
- ขั้นตอนที่ 2 Tool-integrated Reasoning (TIR): เทรนโมเดลต่อจากขั้นตอนที่ 1 ด้วยชุดข้อมูลสังเคราะห์ 73,000 ที่ได้จาก GPT-4 พร้อมขั้นตอนในการเขียกใช้เครื่องมือ python เพื่อแตกปัญหายากๆ ออกจากปัญหาย่อยที่สามารถแก้ได้ด้วย Python
คุณสมบัติ
- ภาษาที่รองรับ: ภาษาอังกฤษ
- License: Apache 2.0
- ปรับแต่งจากโมเดล: DeepSeekMath 7B Base
โฆษณา