[ChatGPT Insights] 12 Days of OpenAI: Day 12- OpenAI o3: ยกระดับ AI สู่ความสามารถที่เกินขอบเขตมนุษย์ ในซีรีส์ "12 Days of OpenAI" OpenAI ได้ปิดท้ายกิจกรรมในวันที่ 20 ธันวาคม 2024 ด้วยการเปิดตัว o3 และ o3-mini โมเดล AI ใ

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

•

24 ธ.ค. 2024 เวลา 04:50 • วิทยาศาสตร์ & เทคโนโลยี

12 Days of OpenAI: Day 12- OpenAI o3: ยกระดับ AI สู่ความสามารถที่เกินขอบเขตมนุษย์

ในซีรีส์ "12 Days of OpenAI" OpenAI ได้ปิดท้ายกิจกรรมในวันที่ 20 ธันวาคม 2024 ด้วยการเปิดตัว o3 และ o3-mini โมเดล AI ใหม่ล่าสุดที่พัฒนาต่อยอดจาก o1-series เพื่อเสริมความสามารถด้านการแก้ปัญหาและการให้เหตุผล โมเดลเหล่านี้แสดงให้เห็นถึงการเปลี่ยนแปลงครั้งสำคัญในวงการ AI โดยเฉพาะอย่างยิ่งในการแข่งขันด้านการเขียนโค้ดและการแก้ปัญหาคณิตศาสตร์ระดับสูง วันนี้เราจะมาสรุปและเจาะลึกถึงความสำเร็จที่โดดเด่นของโมเดลเหล่านี้ 🚀📊✨

1. โมเดล o3 และ o3-mini: การพัฒนาครั้งใหญ่ของ OpenAI 🌟🔍🛠️

o3: ความสามารถระดับสูงสุด

โมเดล o3 ถูกออกแบบมาเพื่อแก้โจทย์ที่ซับซ้อนและไม่เคยเจอมาก่อน โดยเน้นการให้เหตุผลที่ใกล้เคียงมนุษย์ที่สุด: ตัวอย่างหนึ่งคือการแก้โจทย์คณิตศาสตร์ขั้นสูง เช่น การคำนวณค่าลอการิทึมหรืออนุพันธ์ในโจทย์ที่ไม่ได้ให้สูตรสำเร็จรูป และในด้านการเขียนโค้ด โมเดลสามารถพัฒนาโปรแกรมที่แก้ปัญหาอัลกอริทึมที่ซับซ้อน เช่น Dynamic Programming หรือ Graph Theory ได้อย่างมีประสิทธิภาพ

ความก้าวหน้าของโมเดล AI จากคะแนน ARC-AGI Semi-Private v1

ความก้าวหน้าของโมเดล AI

การพัฒนาคะแนนของโมเดล AI บนมาตรฐาน ARC-AGI Semi-Private v1 ตั้งแต่ปี 2019 จนถึง 2025

มีความก้าวกระโดดอย่างมาก

●
2019-2023: โมเดลในกลุ่ม GPT (เช่น GPT-2, GPT-3, GPT-4) มีคะแนนใกล้เคียงศูนย์ แสดงถึงข้อจำกัดในการแก้ปัญหาที่ซับซ้อน
●
2024: การเปิดตัว o1-series (o1-preview, o1-high, และ o1 Pro) ทำให้คะแนนเพิ่มขึ้นอย่างก้าวกระโดด (32%-50%)
●
2025: o3-series (o3 tuned low และ o3 tuned high) บรรลุความสำเร็จที่ยิ่งใหญ่ โดย o3 tuned high ทำคะแนนได้สูงสุดถึง 88%

ประสิทธิภาพของซีรีส์ o บน ARC-AGI Semi-Private Evaluation

●
ประสิทธิภาพใน ARC-AGI Benchmark: o3 tuned high ทำคะแนนได้ 88% ซึ่งเป็นคะแนนสูงสุดในมาตรฐาน ARC-AGI Semi-Private Eval และสะท้อนถึงศักยภาพของ AI ในการแก้ปัญหาที่ซับซ้อน

ประสิทธิภาพของโมเดล o-series ในด้านวิศวกรรมซอฟต์แวร์และการเขียนโค้ดแข่งขัน

●
Codeforces Elo: โมเดล o3 ทำคะแนนได้ถึง 2727 Elo บนแพลตฟอร์ม Codeforces ซึ่งเทียบเท่ากับโปรแกรมเมอร์มนุษย์ที่ติดอันดับ #175 ของโลก

ประสิทธิภาพของ o3 ในการแก้ปัญหาคณิตศาสตร์วิจัย (EpochAI Frontier Math)

●
การแก้ปัญหาคณิตศาสตร์ขั้นสูง: ในการทดสอบ EpochAI Frontier Math โมเดล o3 ทำคะแนนได้ถึง 25.2% เพิ่มขึ้นจากมาตรฐานเดิมที่อยู่เพียง 2.0%

o3-mini: ความคุ้มค่าที่เหนือความคาดหมาย

สำหรับการใช้งานที่ต้องการประสิทธิภาพสูงในราคาที่เข้าถึงได้ OpenAI ได้พัฒนา o3-mini ซึ่งเป็นรุ่นเล็กของ o3:

ระดับประสิทธิภาพ

Low Compute: คะแนน ~1800 Elo

Medium Compute: คะแนน ~2000 Elo

High Compute: คะแนน ~2200 Elo

จุดเด่น: o3-mini เหมาะสำหรับการใช้งานทั่วไปที่ต้องการความคุ้มค่าในการแก้ปัญหาเชิงตรรกะและการเขียนโค้ด 🌐💻📈

ต้นทุนและประสิทธิภาพของโมเดล o3 และ o3-mini บน Codeforces Elo” กราฟนี้แสดงการเปรียบเทียบประสิทธิภาพ (คะแนน Elo บน Codeforces) และต้นทุนของโมเดล o3 และ o3-mini

2. ความสำเร็จในงานด้านวิศวกรรมซอฟต์แวร์และการเขียนโค้ด 🖥️📚💡

การแข่งขันเขียนโค้ดและงานวิศวกรรมซอฟต์แวร์

จากการทดสอบ SWE-bench Verified

●
o3 ทำคะแนนความแม่นยำได้ถึง 71.7% (สูงกว่ารุ่นก่อนหน้าที่ทำได้เพียง 48.9%)
●
คะแนน Elo บน Codeforces ของ o3 สูงกว่ารุ่นก่อนหน้าทั้งหมด โดย Elo เป็นตัวชี้วัดระดับความสามารถของผู้เข้าแข่งขันเขียนโค้ดในแพลตฟอร์ม ซึ่งสะท้อนถึงทักษะการแก้ปัญหาและการเขียนโปรแกรมในระดับสูง เนื่องจากคะแนน Elo แสดงถึงความสามารถของ AI ในการวางแผน แก้โจทย์ และปรับตัวกับปัญหาที่ซับซ้อนในสภาพแวดล้อมที่มีการแข่งขัน

o1 Preview: 1258 Elo

o1: 1891 Elo

o3: 2727 Elo

คะแนนนี้สะท้อนถึงความสามารถในการแก้ปัญหาทางซอฟต์แวร์และเขียนโค้ดแข่งขันได้ในระดับโลก 🤖📈

3. ARC-AGI Benchmark: มาตรฐานที่ท้าทายที่สุดสำหรับ AI 🔬📊🧠

ARC-AGI คืออะไร?

ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) เป็นมาตรฐานที่ออกแบบมาเพื่อตรวจสอบว่า AI สามารถแก้ปัญหาใหม่ ๆ ที่ไม่เคยพบเจอมาก่อนได้ดีเพียงใด โดยวัดความสามารถในการ ให้เหตุผลเชิงตรรกะ และ การเรียนรู้แบบปรับตัว ซึ่งเป็นหัวใจสำคัญของ ปัญญาประดิษฐ์ทั่วไป (AGI)

4. ความฉลาดเชิงเปรียบเทียบ: IQ ของโมเดล AI 📊🧠

ตารางแสดงการเปรียบเทียบความฉลาดของโมเดล AI ผ่านการแปลงคะแนน Codeforces Elo เป็นค่า IQ

การเปรียบเทียบความฉลาดของโมเดล AI (อ้างอิงจาก Codeforces Rating)

●
GPT-4o: IQ ~115 (1 ใน 6 คนทั่วไป)
●
o1 Preview: IQ ~123
●
o1: IQ ~135 (1 ใน 93 คน)
●
o3 mini: IQ ~141 (1 ใน 333 คน)
●
o3: IQ ~157 (1 ใน 13,333 คน)

o3 โดดเด่นในแง่ของศักยภาพการแก้ปัญหา ซึ่งทำให้เป็นหนึ่งในโมเดล AI ที่ทรงพลังที่สุด โดยแสดงให้เห็นถึงความสามารถใกล้เคียงหรือเกินกว่ามนุษย์ในบางกรณี

5. Deliberative Alignment: ยกระดับความปลอดภัยในโมเดล AI 🔒🤖🛠️

Deliberative Alignment คือกลยุทธ์ใหม่ที่ OpenAI ใช้ในการพัฒนาโมเดล o-series โดยเน้นการฝึกสอนให้ AI สามารถทำความเข้าใจและให้เหตุผลบนพื้นฐานของข้อกำหนดด้านความปลอดภัยที่มนุษย์เขียนขึ้น โมเดลเหล่านี้สามารถใช้ Chain-of-Thought (CoT) ในการสะท้อนผลลัพธ์และปรับคำตอบให้สอดคล้องกับนโยบายความปลอดภัยของ OpenAI

ความสำคัญของ Deliberative Alignment

การฝึก AI ด้วย Deliberative Alignment ช่วยให้โมเดลสามารถประมวลผลและให้คำตอบที่ปลอดภัยยิ่งขึ้น เช่น ในสถานการณ์ที่ผู้ใช้งานพยายามโจมตีโมเดลด้วยการซ่อนเจตนาไม่ดีในคำถาม นอกจากนี้ยังสามารถใช้ในบริบทอื่น ๆ เช่น การตรวจสอบความปลอดภัยในงานวิจัยเพื่อป้องกันการเผยแพร่ข้อมูลที่ไม่เหมาะสม หรือการใช้งานในองค์กรเพื่อตรวจสอบนโยบายภายใน โมเดลสามารถวิเคราะห์เจตนาของคำขอ ระบุถึงความเป็นไปได้ของอันตราย และปฏิเสธคำขอนั้นอย่างชาญฉลาด พร้อมทั้งรักษาความเหมาะสมในการตอบคำถามทั่วไปที่ไม่ก่อให้เกิดความเสี่ยง

●
โมเดลสามารถปฏิเสธคำขอที่เป็นอันตรายได้อย่างแม่นยำ
●
ลดข้อผิดพลาดจากการปฏิเสธคำถามที่ไม่เป็นอันตราย

6. Early Access for Safety Testing 🚀🔒📊

ในวันที่ 20 ธันวาคม 2024 OpenAI ได้เปิดตัวโปรแกรม Early Access เพื่อให้นักวิจัยด้านความปลอดภัยได้เข้าถึงโมเดล AI frontier รุ่นใหม่ เพื่อสำรวจและพัฒนาวิธีการประเมินความเสี่ยงใหม่ๆ

วัตถุประสงค์ของ Early Access

●
พัฒนาวิธีประเมินความเสี่ยงใหม่ๆ (Robust Evaluations)
●
สาธิตความเสี่ยงในสถานการณ์ที่มีความซับซ้อนสูง (High-Risk Demonstrations)
●
เสริมสร้างความร่วมมือกับนักวิจัยเพื่อผลักดันการพัฒนาความปลอดภัย AI frontier 🌐🔍✨

บทสรุป: ก้าวใหม่ของ AI ที่ปลอดภัยและทรงพลัง 🌟🔐🤖

โมเดล o3 และ o3-mini เป็นก้าวสำคัญของ OpenAI ที่สะท้อนถึงความก้าวหน้าทาง AI ที่ไม่เพียงแค่ตอบโจทย์ด้านการแก้ปัญหาทางวิศวกรรมซอฟต์แวร์และคณิตศาสตร์วิจัย แต่ยังมาพร้อมกับแผนการพัฒนาต่อเนื่องในอนาคต เช่น การปรับปรุงโมเดลให้สามารถใช้งานได้หลากหลายขึ้น การสร้างระบบที่รองรับการเรียนรู้ในงานที่เฉพาะเจาะจง และยังสร้างมาตรฐานใหม่สำหรับความสามารถของ AI ในการแข่งขันระดับโลก

สำหรับ event “12 Days of OpenAI ก็ปิดฉากลงไปแล้ว ตลอด 12 วัน OpenAI ได้แสดงให้เห็นถึงความมุ่งมั่นในการผลักดัน AI ให้ก้าวล้ำไปอีกขั้นผ่านการเปิดตัวฟีเจอร์และโมเดลใหม่ที่ทรงพลัง เช่น o3 และ o3-mini ที่เน้นความสามารถในการแก้ปัญหาซับซ้อน การปรับปรุงความปลอดภัยด้วย Deliberative Alignment และการเปิดโปรแกรม Early Access เพื่อให้นักวิจัยได้ร่วมสำรวจศักยภาพของ AI Frontier

ขอขอบคุณทุกท่านที่ติดตามตลอดซีรีส์นี้ และในบทความครั้งถัดไป เราจะนำเสนอรายละเอียดของทุกการเปิดตัวเพื่อให้เห็นภาพรวมทั้งหมดของ 12 Days of OpenAI อย่างครบถ้วน! ขอบคุณครับ

References

1.
OpenAI Research Blog: https://openai.com
2.
ARC Prize Official Website: https://arcprize.org
3.
Codeforces Elo Leaderboard Data
4.
EpochAI Frontier Math Evaluation Results
5.
SWE-bench Verified Performance Data
6.
Deliberative Alignment Paper: OpenAI Safety Research

ดูเพิ่มเติมในซีรีส์

12 Days of OpenAI

โฆษณา

ดาวน์โหลดแอปพลิเคชัน

12 Days of OpenAI: Day 12- OpenAI o3: ยกระดับ AI สู่ความสามารถที่เกินขอบเขตมนุษย์

ดาวน์โหลดแอปพลิเคชัน