Blockdit Logo
Blockdit Logo (Mobile)
สำรวจ
ลงทุน
คำถาม
เข้าสู่ระบบ
มีบัญชีอยู่แล้ว?
เข้าสู่ระบบ
หรือ
ลงทะเบียน
ณัฐมาคุย
ยืนยันแล้ว
•
ติดตาม
1 ก.พ. เวลา 05:00 • วิทยาศาสตร์ & เทคโนโลยี
DeepSeek Mixture of Experts ตอนที่ 2: Router
หลังจากที่เข้าใจกลไกเรื่องการใช้ Mixture of Experts กันไปแล้ว คราวนี้มาเรียนรู้กลไกในการเลือก expert กัน
Router หรือ gating function เป็นหนึ่งในกลไกที่สำคัญมากๆ เพราะจะเป็นตัวเลือกว่า expert ไหนจะเป็นตัวประมวลผล ซึ่งในแต่ละ token router จะมีการคำนวณน้ำหนักที่ให้กับแต่ละ expert เสร็จแล้วเลือก expert ที่ได้คะแนนสูงที่สุด n experts มา เพื่อมาประมวลผลแต่ละ token
สิ่งที่ต้องระวังคือ router นั้นเสี่ยงต่อปัญหา route collapse ที่เลือก experts ซ้ำๆ จนไม่ปล่อยให้ experts ตัวอื่นๆ ได้ทำงาน นั่งว่างงาน จึงต้องมีกลไกในการ load balance การประมวลผลให้กระจายๆ กันไปด้วย
อย่างใน DeepSeek แต่ละ layer จะมีการแบ่งเป็น 256 experts และ router จะเลือก มา 8 experts เพื่อให้ process token แต่จะมี 1 shared expert เสมอ การทำแบบนี้ทำให้ถึงแม้ model ของ DeepSeek-R1 จะมีขนาดใหญ่ถึง 671 พันล้าน parameters แต่ในแต่ละครั้งที่เรียกใช้จะมีการใช้ parameter เพียง 37 พันล้าน parameter เท่านั้น ซึ่งช่วยลดการใช้ GPU ลงไปได้กว่า 95% เลยทีเดียว
deepseek
1 บันทึก
7
1
1
7
1
โฆษณา
ดาวน์โหลดแอปพลิเคชัน
© 2025 Blockdit
เกี่ยวกับ
ช่วยเหลือ
คำถามที่พบบ่อย
นโยบายการโฆษณาและบูสต์โพสต์
นโยบายความเป็นส่วนตัว
แนวทางการใช้แบรนด์ Blockdit
Blockdit เพื่อธุรกิจ
ไทย