[VISAI] สัปดาห์แห่งการปล่อยโมเดล เมื่อ Meta บริษัทเทคยักษ์ใหญ่ ได้ปล่อยโมเดล Llama 3.1 ให้ออกมาใช้งานกันด้วยลิขสิทธิ์ Open-source เมื่อวันที่ 23 กรกฎาคมที่ผ่านมา บริษัทเทคเจ้าอื่นก็ไม่น้อยหน้าต่างรีบปล่อยโมเด

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

•

30 ก.ค. 2024 เวลา 08:47 • วิทยาศาสตร์ & เทคโนโลยี

สัปดาห์แห่งการปล่อยโมเดล

เมื่อ Meta บริษัทเทคยักษ์ใหญ่ ได้ปล่อยโมเดล Llama 3.1 ให้ออกมาใช้งานกันด้วยลิขสิทธิ์ Open-source เมื่อวันที่ 23 กรกฎาคมที่ผ่านมา บริษัทเทคเจ้าอื่นก็ไม่น้อยหน้าต่างรีบปล่อยโมเดลของตัวเองออกมากันแบบรัวๆ เลยเป็นสัปดาห์แห่งการปล่อยโมเดลภาษามาให้ใช้งานกัน มาเริ่มกันที่

Llama 3.1

โมเดลภาษาขนาดใหญ่หลายภาษา (LLMs) จาก Meta ที่เพิ่งประกาศให้เปิดใช้งานได้ในลิขสิทธิ์ open-source เมื่อวันที่ 23 กรกฎาคม 2567 ประกอบด้วย โมเดล pre-trained และ instruction tuned generative ขนาด 8B, 70B, และ 405B ตามลำดับ รองรับการใช้งานในการสนทนาหลายภาษา และยังเป็นโมเดลเดียวที่มีการพูดถึงการรองรับภาษาไทยในบรรดาโมเดลที่ปล่อยออกมาทั้งหมดในช่วงนี้

คุณสมบัติ

- จำนวน parameter 8B, 70B และ 405B

- รูปแบบการป้อนข้อมูล: ข้อความหลายภาษา

- รูปแบบการตอบ: ข้อความหลายภาษาและโค้ด

- Context Length: 128,000 token

- จำนวน token: 15T token

- ภาษาที่รองรับ: อังกฤษ เยอรมัน ฝรั่งเศส อิตาลี โปรตุเกส ฮินดี สเปน ไทย

- License: Llama 3.1 community License สามารถแข่งขันกับโมเดลชั้นนำได้หลากหลายงาน ทั้ง GPT-4, GPT-4o และ Claude 3.5 Sonnet

แหล่งเข้าถึง: https://huggingface.co/meta-llama/Meta-Llama-3.1-405B

NeMo Base 2407

โมเดลขนาด 12B parameter พัฒนาโดย Nvidia และ Mistral ที่ผ่านการพัฒนาภายใต้สัญญาอนุญาต Apache 2.0 และปล่อยออกมาเป็น open-source model เพื่อสนับสนุนให้นักวิจัยและองค์กรต่างๆ สามารถนำไปใช้ได้โดยไม่มีค่าใช้จ่าย

คุณสมบัติ

- จำนวน parameter: 12B parameter

- มีเวอร์ชัน: Base model และ Instruct model

- รองรับได้สูงสุดถึง 128,000 context window

- ภาษาที่รองรับ: อังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี

- แทนที่โมเดล Mistral 7B ในระบบใดก็ได้

- สามารถนำไปใช้ในรูปแบบ FP8 ช่วยลดขนาดหน่วยความจำและเพิ่มความเร็วในการใช้งาน โดยแลกมากับความแม่นยำที่ลดลงเล็กน้อย

- สามารถแข่งขันกับ: Llama 3 ขนาด 8B parameter และ Gemma 2 ขนาด 9B parameter

- License: Apache 2.0

แหล่งเข้าถึง: https://huggingface.co/mistralai/Mistral-Nemo-Base-2407

GPT-4o mini

โมเดลขนาดเล็ก จาก OpenAI ที่มาในราคาย่อมเยากว่า GPT-3.5 Turbo มากกว่า 60% สามารถเรียกใช้งานผ่าน API ได้

คุณสมบัติ

- ได้คะแนน 82% ในการทดสอบ MMLU

- ประสิทธิภาพดีกว่า GPT-4 ในการทดสอบการสนทนาบน LMSYS leaderboard

- มีราคา 15 เซนต์ต่อ 1 ล้าน input token และ 60 เซนต์ ต่อ 1 ล้าน output token

- รองรับการใช้งานหลากหลาย ไม่ว่าจะเป็น การเรียกใช้ API หลายตัว หรือการส่งข้อมูลปริมาณมาก เช่น ฐานข้อมูลขนาดใหญ่, ประวัติการสนทนา

- แชตบอตโต้ตอบลูกค้าผ่านข้อความแบบเรียลไทม์

แหล่งเข้าถึง: https://openai.com/chatgpt/

DeepSeek-V2-Chat-0628

เป็นโมเดลภาษา จาก DeepSeek ที่อัปเกรดมาจากโมเดล DeepSeek-V2-Chat ได้รับการรับรองว่าเป็นโมเดล open-source อันดับ 1 บน LMSYS Chatbot Arena Leaderboard และยังติดอันดับอื่นๆ ได้แก่ Overall อันดับที่ 11, Hard Prompts อันดับที่ 3, Coding อันดับที่ 3, Longer Query อันดับที่ 4, และ Math อันดับที่ 7

แหล่งเข้าถึง: https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat-0628

DCLM-7B

โมเดลภาษา จาก Apple ที่มี 7B parameter ผ่านการฝึกฝนด้วยชุดข้อมูล DCLM-Baseline ที่มีการคัดสรรอย่างพิถีพิถัน อันเป็นส่วนหนึ่งของการวัดมาตรฐาน DataComp for Language Model (DCLM) เพื่อเน้นถึงความสำคัญของคุณภาพข้อมูลที่มีต่อประสิทธิภาพของโมเดล

คุณสมบัติ

- จำนวน parameter: 7B parameter

- ข้อมูลที่ใช้ในการเทรน: 2.5T token

- Initial Context Length: 2048 token

- Extended Content Length: 8,000 token (ในเวอร์ชันที่อัปเดต)

- License: Apple ASCL

แหล่งเข้าถึง: https://huggingface.co/apple/DCLM-7B

NuminaMath-7B-TIR

ชุดข้อมูลและโมเดลสำหรับการฝึกฝนโมเดลภาษาขนาดใหญ่ (LLMs) บนโจทย์คณิตศาสตร์ จาก Numina ที่รวบรวมคำถาม-คำตอบ จากการแข่งขันคณิตศาสตร์ตั้งแต่ระดับง่ายที่สุดจนถึงระดับการแข่งขันคณิตศาสตร์โอลิมปิก โดยใช้วิธีการในการเทรน 2 ขั้นตอน

- ขั้นตอนที่ 1 Chain of Thought (CoT): เทรนโมเดลพื้นฐาน Deepseek-math-7b บนชุดข้อมูลขนาดใหญ่ ประกอบด้วย คำถาม-คำตอบคณิตศาสตร์ประมาณ 860,000 คู่ ที่จัดรูปแบบด้วย CoT เพื่อเสริมสร้างความสามารถในการให้เหตุผลทางคณิตศาสตร์ด้วยภาษาธรรมชาติ

- ขั้นตอนที่ 2 Tool-integrated Reasoning (TIR): เทรนโมเดลต่อจากขั้นตอนที่ 1 ด้วยชุดข้อมูลสังเคราะห์ 73,000 ที่ได้จาก GPT-4 พร้อมขั้นตอนในการเขียกใช้เครื่องมือ python เพื่อแตกปัญหายากๆ ออกจากปัญหาย่อยที่สามารถแก้ได้ด้วย Python

คุณสมบัติ

- ภาษาที่รองรับ: ภาษาอังกฤษ

- License: Apache 2.0

- ปรับแต่งจากโมเดล: DeepSeekMath 7B Base

แหล่งเข้าถึง:

- https://huggingface.co/AI-MO/NuminaMath-7B-TIR

- https://huggingface.co/datasets/AI-MO/NuminaMath-CoT

- https://huggingface.co/datasets/AI-MO/NuminaMath-TIR

- https://huggingface.co/AI-MO/NuminaMath-7B-CoT

ข้อมูลจาก:

[1] - https://x.com/reach_vb/status/1813949014259236956

-https://mistral.ai/news/mistral-nemo/