แต่ทว่าเรื่องราวยังไม่จบเพียงเท่านั้น ตอนนี้ทีมพัฒนาที่ชื่อว่า Deepmind ซึ่งเป็นผู้พัฒนาและฟูมฟักโปรเจ็ก AlphaGo นี้ขึ้น ตอนนี้เขาได้กลับมาอีกครั้งภายใต้ชื่อใหม่ที่เรียกว่า AlphaGo Zero ที่เหนือทะลุข้ามขีดจำกัดไปอีกขั้น โดยที่ตัว AlphaGo Zero เวอร์ชั่นใหม่ตัวนี้
เหนือกว่า AlphaGo ในทุกเวอร์ชั่นก่อนๆที่ผ่านมา
AlphaGo Zero
ย้อนกลับไปยัง AlphaGo สมัยก่อนที่จะมาแข่งกับ Ke Jie ซึ่งก็คือเวอร์ชั่นที่แข่งกับ Lee Sedol นั่นเอง ซึ่งจะตัว AlphaGo ที่แข่งกับ Lee Sedol ไปว่า AlphaGo Lee เป็นครั้งแรกที่ AlphaGo ได้แข่งกับมนุษย์ระดับ 9 dan ซึ่งสามารถเอาชนะไปด้วย 4–1 เกม
หลังจากแข่งจบ ทางทีมพัฒนาได้ตีพิมพ์ Paper ออกมาฉบับแรกที่เปิดให้คนทั่วไปสามารถเข้ามาอ่านแล้วเข้าใจกระบวนการข้างในของมัน จึงอยากขอฝากบล็อกเวอร์ชั่นแรกที่ผมได้เขียนอธิบายอย่างคร่าวๆของ AlphaGo เวอร์ชั่นแรกได้ตามลิงค์ด้านล่างครับ
และตอนนี้ก็ทางทีม Deepmind ก็ได้ออก Paper ฉบับที่ 2 มาแล้ว
ซึ่ง AlphaGo ในเวอร์ชั่น Paper ฉบับที่ 2 หรือที่เรียกว่า AlphaGo Zero ได้เอาชนะฉบับแรก (AlphaGo Lee) ไปด้วยจำนวนเกมสูงถึง 100–0 เกม หรือ ไม่เคยแพ้เลย
AlphaGo Zero นั้น ได้เอาชนะ AlphaGo เวอร์ชั่นก่อนๆทุกๆเวอร์ชั่น ซึ่งรวมไปถึงเวอร์ชั่นที่แข่งกับ Ke Jie ที่เป็นอันดับ 1 ของโลกด้วย
AlphaGo Zero นั้นมี Elo Rating สูงถึง 5,185 ในขณะที่ AlphaGo เวอร์ชั่นที่เอาชนะ Ke Jie ไปนั้นมี Elo Rating เพียง 4,858 เท่านั้น
AlphaGo Zero นั้นไม่ได้พัฒนาแค่ความเก่งกาจที่สามารถเอาชนะเวอร์ชั่นก่อนๆได้ทั้งหมด แต่มันได้พัฒนาในหลายๆจุดให้สูงเกินขีดจำกัดของเวอร์ชั่นก่อนหน้าในทุกๆด้าน จุดหลักๆที่มีการเปลี่ยนแปลงนั้น สรุปได้คร่าวๆดังนี้
I. ข้อมูลทั้งหมดที่ AlphaGo Zero เรียนรู้นั้น ไม่ได้มาจากมนุษย์เลยแม้แต่น้อย (ในขณะที่ AlphaGo Lee ใช้ข้อมูลการเล่นกระดานโกะของมนุษย์อันดับต้นๆของโลกในการเรียนรู้และจดจำรูปแบบการเดินก่อน) ซึ่ง AlphaGo Zero นั้นไม่ใช้ความรู้จากมนุษย์เลย ทุกอย่างเริ่มต้นจาก 0 ทั้งหมด
II. การประมวลใช้เวลาน้อยลงมาก น้อยถึงขนาดว่า AlphaGo Zero นั้นประมวลผลในคอมพิวเตอร์เครื่องเดียวที่มีเพียงแค่ 4 TPUs แต่ AlphaGo Lee นั้นใช้ไปมากถึง 48 TPUs รวมๆแล้ว AlphaGo Zero ใช้เวลาน้อยกว่า 12 เท่า!! (TPU คือ Tensor Processing Unit; เป็น Processor ที่ทาง Google ออกแบบมาเพื่อใช้ร่วมกับงานด้าน Machine Learning เป็นหลัก)
สาเหตุที่ว่าการประมวลผลน้อยลงมากนั้น ถ้าเทียบกับเวอร์ชั่นก่อน จะเห็นว่าตัวโครงสร้างของ AlphaGo Lee นั้นใช้ Neural Network หลายตัวมาก ทั้งตัวคำนวณ Policy, ตัวคำนวณ Value และตัว Rollouts แต่สำหรับตัว AlphaGo Zero นั้น ใช้ Neural Network เพียงแค่ตัวเดียวเท่านั้น (เอา Policy กับ Value มาผสมกัน และตัด Rollouts ออกไปเลย) และ Neural Network ตัวเดียวนี้ก็เป็นหัวใจในการประมวลผลทุกๆอย่าง