24 ธ.ค. 2024 เวลา 04:50 • วิทยาศาสตร์ & เทคโนโลยี

12 Days of OpenAI: Day 12- OpenAI o3: ยกระดับ AI สู่ความสามารถที่เกินขอบเขตมนุษย์

ในซีรีส์ "12 Days of OpenAI" OpenAI ได้ปิดท้ายกิจกรรมในวันที่ 20 ธันวาคม 2024 ด้วยการเปิดตัว o3 และ o3-mini โมเดล AI ใหม่ล่าสุดที่พัฒนาต่อยอดจาก o1-series เพื่อเสริมความสามารถด้านการแก้ปัญหาและการให้เหตุผล โมเดลเหล่านี้แสดงให้เห็นถึงการเปลี่ยนแปลงครั้งสำคัญในวงการ AI โดยเฉพาะอย่างยิ่งในการแข่งขันด้านการเขียนโค้ดและการแก้ปัญหาคณิตศาสตร์ระดับสูง วันนี้เราจะมาสรุปและเจาะลึกถึงความสำเร็จที่โดดเด่นของโมเดลเหล่านี้ 🚀📊✨
1. โมเดล o3 และ o3-mini: การพัฒนาครั้งใหญ่ของ OpenAI 🌟🔍🛠️
o3: ความสามารถระดับสูงสุด
โมเดล o3 ถูกออกแบบมาเพื่อแก้โจทย์ที่ซับซ้อนและไม่เคยเจอมาก่อน โดยเน้นการให้เหตุผลที่ใกล้เคียงมนุษย์ที่สุด: ตัวอย่างหนึ่งคือการแก้โจทย์คณิตศาสตร์ขั้นสูง เช่น การคำนวณค่าลอการิทึมหรืออนุพันธ์ในโจทย์ที่ไม่ได้ให้สูตรสำเร็จรูป และในด้านการเขียนโค้ด โมเดลสามารถพัฒนาโปรแกรมที่แก้ปัญหาอัลกอริทึมที่ซับซ้อน เช่น Dynamic Programming หรือ Graph Theory ได้อย่างมีประสิทธิภาพ
ความก้าวหน้าของโมเดล AI จากคะแนน ARC-AGI Semi-Private v1
ความก้าวหน้าของโมเดล AI
การพัฒนาคะแนนของโมเดล AI บนมาตรฐาน ARC-AGI Semi-Private v1 ตั้งแต่ปี 2019 จนถึง 2025
มีความก้าวกระโดดอย่างมาก
  • 2019-2023: โมเดลในกลุ่ม GPT (เช่น GPT-2, GPT-3, GPT-4) มีคะแนนใกล้เคียงศูนย์ แสดงถึงข้อจำกัดในการแก้ปัญหาที่ซับซ้อน
  • 2024: การเปิดตัว o1-series (o1-preview, o1-high, และ o1 Pro) ทำให้คะแนนเพิ่มขึ้นอย่างก้าวกระโดด (32%-50%)
  • 2025: o3-series (o3 tuned low และ o3 tuned high) บรรลุความสำเร็จที่ยิ่งใหญ่ โดย o3 tuned high ทำคะแนนได้สูงสุดถึง 88%
ประสิทธิภาพของซีรีส์ o บน ARC-AGI Semi-Private Evaluation
  • ประสิทธิภาพใน ARC-AGI Benchmark: o3 tuned high ทำคะแนนได้ 88% ซึ่งเป็นคะแนนสูงสุดในมาตรฐาน ARC-AGI Semi-Private Eval และสะท้อนถึงศักยภาพของ AI ในการแก้ปัญหาที่ซับซ้อน
ประสิทธิภาพของโมเดล o-series ในด้านวิศวกรรมซอฟต์แวร์และการเขียนโค้ดแข่งขัน
  • Codeforces Elo: โมเดล o3 ทำคะแนนได้ถึง 2727 Elo บนแพลตฟอร์ม Codeforces ซึ่งเทียบเท่ากับโปรแกรมเมอร์มนุษย์ที่ติดอันดับ #175 ของโลก
ประสิทธิภาพของ o3 ในการแก้ปัญหาคณิตศาสตร์วิจัย (EpochAI Frontier Math)
  • การแก้ปัญหาคณิตศาสตร์ขั้นสูง: ในการทดสอบ EpochAI Frontier Math โมเดล o3 ทำคะแนนได้ถึง 25.2% เพิ่มขึ้นจากมาตรฐานเดิมที่อยู่เพียง 2.0%
o3-mini: ความคุ้มค่าที่เหนือความคาดหมาย
สำหรับการใช้งานที่ต้องการประสิทธิภาพสูงในราคาที่เข้าถึงได้ OpenAI ได้พัฒนา o3-mini ซึ่งเป็นรุ่นเล็กของ o3:
ระดับประสิทธิภาพ
Low Compute: คะแนน ~1800 Elo
Medium Compute: คะแนน ~2000 Elo
High Compute: คะแนน ~2200 Elo
จุดเด่น: o3-mini เหมาะสำหรับการใช้งานทั่วไปที่ต้องการความคุ้มค่าในการแก้ปัญหาเชิงตรรกะและการเขียนโค้ด 🌐💻📈
ต้นทุนและประสิทธิภาพของโมเดล o3 และ o3-mini บน Codeforces Elo” กราฟนี้แสดงการเปรียบเทียบประสิทธิภาพ (คะแนน Elo บน Codeforces) และต้นทุนของโมเดล o3 และ o3-mini
2. ความสำเร็จในงานด้านวิศวกรรมซอฟต์แวร์และการเขียนโค้ด 🖥️📚💡
การแข่งขันเขียนโค้ดและงานวิศวกรรมซอฟต์แวร์
จากการทดสอบ SWE-bench Verified
  • o3 ทำคะแนนความแม่นยำได้ถึง 71.7% (สูงกว่ารุ่นก่อนหน้าที่ทำได้เพียง 48.9%)
  • คะแนน Elo บน Codeforces ของ o3 สูงกว่ารุ่นก่อนหน้าทั้งหมด โดย Elo เป็นตัวชี้วัดระดับความสามารถของผู้เข้าแข่งขันเขียนโค้ดในแพลตฟอร์ม ซึ่งสะท้อนถึงทักษะการแก้ปัญหาและการเขียนโปรแกรมในระดับสูง เนื่องจากคะแนน Elo แสดงถึงความสามารถของ AI ในการวางแผน แก้โจทย์ และปรับตัวกับปัญหาที่ซับซ้อนในสภาพแวดล้อมที่มีการแข่งขัน
o1 Preview: 1258 Elo
o1: 1891 Elo
o3: 2727 Elo
คะแนนนี้สะท้อนถึงความสามารถในการแก้ปัญหาทางซอฟต์แวร์และเขียนโค้ดแข่งขันได้ในระดับโลก 🤖📈
3. ARC-AGI Benchmark: มาตรฐานที่ท้าทายที่สุดสำหรับ AI 🔬📊🧠
ARC-AGI คืออะไร?
ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) เป็นมาตรฐานที่ออกแบบมาเพื่อตรวจสอบว่า AI สามารถแก้ปัญหาใหม่ ๆ ที่ไม่เคยพบเจอมาก่อนได้ดีเพียงใด โดยวัดความสามารถในการ ให้เหตุผลเชิงตรรกะ และ การเรียนรู้แบบปรับตัว ซึ่งเป็นหัวใจสำคัญของ ปัญญาประดิษฐ์ทั่วไป (AGI)
4. ความฉลาดเชิงเปรียบเทียบ: IQ ของโมเดล AI 📊🧠
ตารางแสดงการเปรียบเทียบความฉลาดของโมเดล AI ผ่านการแปลงคะแนน Codeforces Elo เป็นค่า IQ
การเปรียบเทียบความฉลาดของโมเดล AI (อ้างอิงจาก Codeforces Rating)
  • GPT-4o: IQ ~115 (1 ใน 6 คนทั่วไป)
  • o1 Preview: IQ ~123
  • o1: IQ ~135 (1 ใน 93 คน)
  • o3 mini: IQ ~141 (1 ใน 333 คน)
  • o3: IQ ~157 (1 ใน 13,333 คน)
o3 โดดเด่นในแง่ของศักยภาพการแก้ปัญหา ซึ่งทำให้เป็นหนึ่งในโมเดล AI ที่ทรงพลังที่สุด โดยแสดงให้เห็นถึงความสามารถใกล้เคียงหรือเกินกว่ามนุษย์ในบางกรณี
5. Deliberative Alignment: ยกระดับความปลอดภัยในโมเดล AI 🔒🤖🛠️
Deliberative Alignment คือกลยุทธ์ใหม่ที่ OpenAI ใช้ในการพัฒนาโมเดล o-series โดยเน้นการฝึกสอนให้ AI สามารถทำความเข้าใจและให้เหตุผลบนพื้นฐานของข้อกำหนดด้านความปลอดภัยที่มนุษย์เขียนขึ้น โมเดลเหล่านี้สามารถใช้ Chain-of-Thought (CoT) ในการสะท้อนผลลัพธ์และปรับคำตอบให้สอดคล้องกับนโยบายความปลอดภัยของ OpenAI
ความสำคัญของ Deliberative Alignment
การฝึก AI ด้วย Deliberative Alignment ช่วยให้โมเดลสามารถประมวลผลและให้คำตอบที่ปลอดภัยยิ่งขึ้น เช่น ในสถานการณ์ที่ผู้ใช้งานพยายามโจมตีโมเดลด้วยการซ่อนเจตนาไม่ดีในคำถาม นอกจากนี้ยังสามารถใช้ในบริบทอื่น ๆ เช่น การตรวจสอบความปลอดภัยในงานวิจัยเพื่อป้องกันการเผยแพร่ข้อมูลที่ไม่เหมาะสม หรือการใช้งานในองค์กรเพื่อตรวจสอบนโยบายภายใน โมเดลสามารถวิเคราะห์เจตนาของคำขอ ระบุถึงความเป็นไปได้ของอันตราย และปฏิเสธคำขอนั้นอย่างชาญฉลาด พร้อมทั้งรักษาความเหมาะสมในการตอบคำถามทั่วไปที่ไม่ก่อให้เกิดความเสี่ยง
  • โมเดลสามารถปฏิเสธคำขอที่เป็นอันตรายได้อย่างแม่นยำ
  • ลดข้อผิดพลาดจากการปฏิเสธคำถามที่ไม่เป็นอันตราย
6. Early Access for Safety Testing 🚀🔒📊
ในวันที่ 20 ธันวาคม 2024 OpenAI ได้เปิดตัวโปรแกรม Early Access เพื่อให้นักวิจัยด้านความปลอดภัยได้เข้าถึงโมเดล AI frontier รุ่นใหม่ เพื่อสำรวจและพัฒนาวิธีการประเมินความเสี่ยงใหม่ๆ
วัตถุประสงค์ของ Early Access
  • พัฒนาวิธีประเมินความเสี่ยงใหม่ๆ (Robust Evaluations)
  • สาธิตความเสี่ยงในสถานการณ์ที่มีความซับซ้อนสูง (High-Risk Demonstrations)
  • เสริมสร้างความร่วมมือกับนักวิจัยเพื่อผลักดันการพัฒนาความปลอดภัย AI frontier 🌐🔍✨
บทสรุป: ก้าวใหม่ของ AI ที่ปลอดภัยและทรงพลัง 🌟🔐🤖
โมเดล o3 และ o3-mini เป็นก้าวสำคัญของ OpenAI ที่สะท้อนถึงความก้าวหน้าทาง AI ที่ไม่เพียงแค่ตอบโจทย์ด้านการแก้ปัญหาทางวิศวกรรมซอฟต์แวร์และคณิตศาสตร์วิจัย แต่ยังมาพร้อมกับแผนการพัฒนาต่อเนื่องในอนาคต เช่น การปรับปรุงโมเดลให้สามารถใช้งานได้หลากหลายขึ้น การสร้างระบบที่รองรับการเรียนรู้ในงานที่เฉพาะเจาะจง และยังสร้างมาตรฐานใหม่สำหรับความสามารถของ AI ในการแข่งขันระดับโลก
สำหรับ event “12 Days of OpenAI ก็ปิดฉากลงไปแล้ว ตลอด 12 วัน OpenAI ได้แสดงให้เห็นถึงความมุ่งมั่นในการผลักดัน AI ให้ก้าวล้ำไปอีกขั้นผ่านการเปิดตัวฟีเจอร์และโมเดลใหม่ที่ทรงพลัง เช่น o3 และ o3-mini ที่เน้นความสามารถในการแก้ปัญหาซับซ้อน การปรับปรุงความปลอดภัยด้วย Deliberative Alignment และการเปิดโปรแกรม Early Access เพื่อให้นักวิจัยได้ร่วมสำรวจศักยภาพของ AI Frontier
ขอขอบคุณทุกท่านที่ติดตามตลอดซีรีส์นี้ และในบทความครั้งถัดไป เราจะนำเสนอรายละเอียดของทุกการเปิดตัวเพื่อให้เห็นภาพรวมทั้งหมดของ 12 Days of OpenAI อย่างครบถ้วน! ขอบคุณครับ
References
  • 1.
    OpenAI Research Blog: https://openai.com
  • 2.
    ARC Prize Official Website: https://arcprize.org
  • 3.
    Codeforces Elo Leaderboard Data
  • 4.
    EpochAI Frontier Math Evaluation Results
  • 5.
    SWE-bench Verified Performance Data
  • 6.
    Deliberative Alignment Paper: OpenAI Safety Research

ดูเพิ่มเติมในซีรีส์

โฆษณา