Blockdit Logo
Blockdit Logo (Mobile)
สำรวจ
ลงทุน
คำถาม
เข้าสู่ระบบ
มีบัญชีอยู่แล้ว?
เข้าสู่ระบบ
หรือ
ลงทะเบียน
ณัฐมาคุย
ยืนยันแล้ว
•
ติดตาม
13 ก.พ. เวลา 07:56 • วิทยาศาสตร์ & เทคโนโลยี
The Curse of Depth
หลังจากที่ DeepSeek เขย่าวงการ AI เรื่องต้นทุนไปทีนึง paper นี้เองก็ยิ่งทำให้เรื่องน่าสนใจขึ้นไปอีก เมื่อทีมนักวิจัยไปสำรวจความจำเป็นของจำนวนชั้นของ neural network
สำหรับคนที่ไม่ทราบ neural network เป็นการเลียนแบบ (mimicry) การทำงานของสมองมนุษย์ ซึ่งเป็นการทำงานร่วมกันของ neuron จำนวนมากในสมองมนุษย์ ซึ่งเริ่มมาตั้งแต่ Frank Rosenblatt นักจิตวิทยาได้คิดพยายามจำลองการทำงานของสมอง โดยนำเสนอ perceptron และ artificial neural network ในปี 1958 และเริ่มคิดถึงการใช้ neural network หลายๆ ชั้นเข้ามาทำให้การทำงานดีขึ้น แต่ก็ไม่ได้ผล
แต่ก็มีการพัฒนาต่อยอดเรื่อยมา จนค้นพบว่าการมีจำนวน layer ที่มากขึ้น ทำให้ผลลัพธ์ออกมาดีขึ้น จึงเกิด concept ของ deep learning ขึ้นมา โดยมีการทดลองใช้จำนวน layer มากถึง 1,000 layers เลยทีเดียว
แต่ยิ่งมีจำนวน layer ยิ่งมากยิ่งส่งผลถึงจำนวนการคำนวณ และต้นทุนไปด้วย ดังนั้นจึงต้องหาจำนวน layer ที่เหมาะสมไปด้วย
พอมี model ที่เป็น open weight อย่าง DeepSeek, Llama, Qwen ก็ทำให้นักวิจัยสามารถต่อยอดงานวิจัยโดยไม่ต้องเริ่มจากศูนย์ ซึ่งในเคสนี้ นักวิจัยได้พูดถึงคำว่า The Curse of Depth ที่อ้างว่า layers ที่ LLM มีกว่าครึ่งนั้นไม่มีความจำเป็น และเป็นเพราะ Pre-Layer Normalization (Pre-LN)
อย่าง DeepSeek เองมีจำนวน layer มากถึง 61 layers แต่พวกเขาพบว่ามีเพียง 20 layers เท่านั้นเองที่มีผลกับประสิทธิภาพของ LLM
ทางทีมจึงแนะนำไอเดีย LayerNorm Scaling ในการปรับการทำงาน เพื่อทำให้ layers ลึกๆ ที่มีอยู่ มีประโยชน์กับการทำงานมากขึ้น
ผมอ่านยังไม่ค่อยรู้เรื่อง แต่ถ้าใครสนใจ ไปตามอ่านที่
https://huggingface.co/papers/2502.05795
แต่ไอเดียนี้จริงๆ มีมานานแล้ว ใครสนใจลองดูตามนี้ครับ
https://www.amazon.science/.../do-large-language-models
...
https://medium.com/.../ai-llm-layer-redundancies-optimize
...
https://arxiv.org/html/2409.14381v1
https://arxiv.org/html/2410.17875v1
ส่วนใครอยากเห็นภาพว่าจำนวน layer ส่งผลกับผลลัพธ์ของ neural network อย่างไร ไปดู demo ได้ที่
https://playground.tensorflow.org/
deepseek
บันทึก
4
4
โฆษณา
ดาวน์โหลดแอปพลิเคชัน
© 2025 Blockdit
เกี่ยวกับ
ช่วยเหลือ
คำถามที่พบบ่อย
นโยบายการโฆษณาและบูสต์โพสต์
นโยบายความเป็นส่วนตัว
แนวทางการใช้แบรนด์ Blockdit
Blockdit เพื่อธุรกิจ
ไทย