1 ก.พ. เวลา 05:00 • วิทยาศาสตร์ & เทคโนโลยี

DeepSeek Mixture of Experts ตอนที่ 2: Router

หลังจากที่เข้าใจกลไกเรื่องการใช้ Mixture of Experts กันไปแล้ว คราวนี้มาเรียนรู้กลไกในการเลือก expert กัน
Router หรือ gating function เป็นหนึ่งในกลไกที่สำคัญมากๆ เพราะจะเป็นตัวเลือกว่า expert ไหนจะเป็นตัวประมวลผล ซึ่งในแต่ละ token router จะมีการคำนวณน้ำหนักที่ให้กับแต่ละ expert เสร็จแล้วเลือก expert ที่ได้คะแนนสูงที่สุด n experts มา เพื่อมาประมวลผลแต่ละ token
สิ่งที่ต้องระวังคือ router นั้นเสี่ยงต่อปัญหา route collapse ที่เลือก experts ซ้ำๆ จนไม่ปล่อยให้ experts ตัวอื่นๆ ได้ทำงาน นั่งว่างงาน จึงต้องมีกลไกในการ load balance การประมวลผลให้กระจายๆ กันไปด้วย
อย่างใน DeepSeek แต่ละ layer จะมีการแบ่งเป็น 256 experts และ router จะเลือก มา 8 experts เพื่อให้ process token แต่จะมี 1 shared expert เสมอ การทำแบบนี้ทำให้ถึงแม้ model ของ DeepSeek-R1 จะมีขนาดใหญ่ถึง 671 พันล้าน parameters แต่ในแต่ละครั้งที่เรียกใช้จะมีการใช้ parameter เพียง 37 พันล้าน parameter เท่านั้น ซึ่งช่วยลดการใช้ GPU ลงไปได้กว่า 95% เลยทีเดียว
โฆษณา