16 ก.พ. เวลา 16:06 • วิทยาศาสตร์ & เทคโนโลยี

AI Update: เมื่อ Google เปิดตัว Gemini 1.5 โมเดลล่าสุดของ Gemini AI ที่กำลังมาแรงแซง ChatGPT

ด้วยความสามารถในการรองรับข้อมูลชุดคำสั่งขนาด 1 ล้าน tokens เยอะกว่า GPT-4 ของ Open AI ถึง 70 เท่า
1
ก่อนจะไปต่อขออธิบายศัพท์สำหรับคนที่อาจไม่ได้ตามข่าว AI
Gemini: AI ที่พัฒนาโดย Google เปิดตัวเมื่อธันวาคมปีที่แล้วคู่ชกตรงกับ ChatGPT
ChatGPT: Chat bot AI ที่พัฒนาโดย OpenAI องค์กรที่ได้รับการสนับสนุนจาก Microsoft เปิดให้ใช้งานทั้งแบบ Free และแบบ Sub(สำหรับ Model ล่าสุด)
tokens: หน่วยย่อยของชุดข้อมูลนำเข้าสำหรับ AI ซึ่งสำหรับ AI แบบโมเดลภาษาขนาดใหญ่ (LLM) โทเคนนี้ก็คือคำแต่ละคำในข้อความคำถามหรือคำสั่งที่เราเขียน AI จะย่อยข้อความเป็นโทเคนเพื่อทำความเข้าใจและสื่อสารกับเรา
โทเคนก็เหมือนเวลาที่ MS word ใช้นับคำในไฟล์เอกสารว่าเราพิมพ์ไปกี่คำแล้วนั่นเอง
ช่วงนี้หลายคนคงเริ่มได้ยินและมีโอกาสได้ลองใช้งาน AI ชื่อของ ChatGPT, Co-pilot เริ่มคุ้นหูผู้คนในสังคมมากขึ้น Smart Phone เรือธงของ Samsung อย่าง S24 ก็ชูจุดขายด้วย AI กับฟีเจอร์เด่นอย่างการแปลภาษาแบบ Real-time
Galaxy AI เมื่อ AI เริ่มใกล้ตัวเราเข้ามาทุกที
ปัจจุบันการแข่งขันพัฒนา AI ก็ยิ่งดุเดือด ซึ่งเมื่อปีที่แล้วดูเหมือนว่า ChatGPT จะเริ่มทิ้งห่าง แต่มาปีนี้เรื่องราวอาจจะไม่เหมือนเดิมหลังจาก Google เปิดตัว Gemini AI ที่เคลมว่าเหนือว่า ChatGPT ในเกือบทุกด้านเมื่อปลายปีที่ผ่านมา
สำหรับ Gemini AI นั้นมีหลายขนาดอันได้แก่ Gemini Ultra/Pro และ Nano สำหรับให้เลือกใช้ตามความต้องการของผู้ใช้งานตามลักษณะงานและความซับซ้อน (แบบเดียวกับ ChatGPT ที่มีหลายโมเดลตั้งแต่ เวอร์ชั่น 3/ 3.5 และล่าสุดก็ 4)
แต่มาไม่ทันไรมาเมื่อวานนี้ Google ก็ได้เปิดตัว Gemini 1.5 ซึ่งเป็นโมเดลล่าสุดของ Gemini ซึ่งสามารถรับข้อมูล Input ใหญ่ขนาด 1 ล้านโทเคนได้(ประมาณ 7 แสนคำ) ซึ่งทำให้ Gemini 1.5 สามารถกลืนเอาข้อมูลหนังสือ, บทความ ข้อความบทสนทนา วีดีโอ เป็นตั้ง ๆ เพื่อประมวลผลและทำงานตามบริบทที่เราต้องการให้มันทำ
เปรียบเทียบปริมาณโทเคนที่สามารถรองรับได้ของ AI แบบ LLM ที่มีอยู่ในปัจจุบัน
หรือแม้แต่การตอบคำถามจากโจทย์ที่เราให้ไปเป็นวีดีโอคลิป หรือแม้แต่การแต่งเพลงจากข้อความที่เราเขียนความต้องการบอกเจ้า Gemini(เดี๋ยวจะเล่าถึง AI อีกโมเดลของ OpenAI ที่มีความสามารถในการสร้างคลิปวีดีโอจากประโยคที่เราเขียนบอก)
ตัวอย่างการใช้งาน Gemini 1.5
ตัวอย่างจากในรูป ซึ่งเขาทดสอบให้ Gemini 1.5 วิเคราะห์ไฟล์วีดีโอตัวอย่างแล้วให้โจทย์ว่า "ให้หาว่าตอนไหนที่มีคนดึงแผ่นกระดาษออกมาจากกระเป๋าพร้อมบอกด้วยว่ามีข้อมูลสำคัญอะไรบ้าง"
เป๊ะทั้งใจความสำคัญและเวลาว่าเมื่อไหร่
เจ้า Gemini ก็สามารถบอกได้ว่านาทีที่ 12.01(เวลาในคลิป) มีแผ่นกระดาษถูกดึงออกจากกระเป๋าเป็นตั๋วจำนำนาฬิกาพกราคา 4 เหรียญของร้าน Goldman&Co ลงวันที่ 23 ตุลาคม 1924 ลงชื่อโดย "Will Smith"
โดยความเร็วในการวิเคราะห์นั้นเหมือนเรากรอเทปดูที่ความเร็ว 8-16 เท่า (ใช้เวลาไม่ถึง 1 นาทีสามารถกรอดูไปได้ถึงนาทีที่ 12 ในคลิป)
หาเจอได้ด้วยแม้รูปจะดูอิหยังเล็กน้อย
อีกตัวอย่างหนึ่ง ให้โจทย์ที่เป็นรูปวาดเหมือนเด็กอนุบาลวาดแล้วถามว่าตอนไหนที่เกิดเหตุการณ์แบบนี้ขึ้น?
ใช้เวลาไม่ถึงหนึ่งนาทีเหมือนเดิมเจ้า Gemini ก็สามารถหาเจอว่านาทีที่ 15.34 จ้า (อีกหน่อยเราคงมีเกมส์โชว์แข่งทายใบ้คำจากภาพกับ AI แล้วซินะ ^^)
สำหรับไฟล์วีดีโอทดสอบความยาวประมาณ 45 นาทีนี้ถ้าเทียบเป็นโทเคนก็จะอยู่ประมาณเกือบ ๆ 7 แสนโทเคน ซึ่ง AI อื่น ๆ ในตลาดตอนนี้ยังไม่มีตัวไหนรับไหว
หรือแม้แต่การใช้วิเคราะห์โค้ดโปรแกรมขนาด 8 แสนกว่าโทเคนความยาว 100,633 บรรทัดก็ไม่หวั่น เจ้า Gemini สามารถวิเคราะห์และปรับแก้โค้ดตามที่เราต้องการได้
กลับมาฝั่ง OpenAI กันบ้างซึ่งก็ยังพัฒนากันไม่หยุดโดยล่าสุดก็ได้เพิ่มฟีเจอร์ในการจดจำสิ่งที่เราสั่งให้จำจากบทสนทนาครั้งก่อนได้ รวมถึงสั่งให้ลืม ๆ สิ่งเราบอกครั้งก่อนก็ทำได้
ตัวอย่างเช่น เราสั่งให้ ChatGPT จดบันทึกการประชุมด้วยฟอร์แมตที่เราชอบแล้วบอกว่าให้จำฟอร์แมตเอาไว้ แล้วคราวหน้าเราก็สั่งว่าจดบันทึกการประชุมให้ด้วยเอาฟอร์แมตแบบเดิมเป็นต้น
Google assistance, Siri, Bixby และอีกมากมายที่ผ่านไปแล้ว วันหน้าคงเป็นคราวของ ChatGPT หรือไม่ก็ Gemini?
ซึ่งตอนนี้ยังอยู่ในช่วงทดสอบโดยการสุ่มผู้ใช้งานทั้งแบบฟรีและจ่ายรายเดือนเพื่อเข้าร่วมโครงการทดสอบฟีเจอร์นี้ก่อนเก็บรวมรวบข้อมูลก่อนเริ่มให้บริการจริงต่อไป
OpenAI ยังไม่หยุดแค่นี้เพราะเมื่อวานก็ได้เปิดตัว Sora ซึ่งเป็น AI โมเดลใหม่ที่มีความสามารถในการสร้างคลิปวีดีโอความยาวประมาณ 1 นาทีได้จากข้อความที่พิมพ์สั่งเข้าไป
ใน Link เป็นตัวอย่างวีดีโอที่ถูกสร้างขึ้นมาโดย Sora โดยวีดีโอในภาพเปิดนี้ใส่ข้อความกำกับซีนเอาไว้ดังนี้
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
จะเห็นได้ว่าเราต้องบอกรายละเอียดพอสมควร เช่น ผู้หญิงใส่เดรสแดงสวมทับด้วยเสื้อแจ็กเกตหนังสีดำ กำลังเดินอยู่กลางถนนในโตเกียวยามค่ำคืนท่ามกลางแสงไฟนีออนของป้ายโฆษณาในเมือง ซึ่งสะท้อนกับผืนผิวน้ำที่ท่วมขังบนถนน
ทั้งนี้ช่วงนี้ Sora ยังอยู่ในช่วงให้ทดสอบใช้งานเฉพาะเหล่านักวิจัย นักตัดต่อภาพยนตร์และทีมพัฒนาที่ได้รับคัดเลือกเท่านั้น เพราะแน่นอนว่าวีดีโอที่ Sora สร้างขึ้นมามันยังดูแปลก ๆ และไม่เนียนตาอยู่พอสมควร
มีคลิปตัวอย่างอีกมากมายในเวปของ Sora ไปลองดูกันได้ เห็นแล้วก็เชื่อได้ว่าอีกหน่อยก็จะมีคลิปประหลาดไหลบ่าท่วม Tiktok, Reel, Youtube และคงจะมีประเด็นสังคมเกิดดรามาอีกเยอะแน่นอน
ครับเขียนไปก็จับอารมณ์ตัวเองไม่ถูกเหมือนกันว่ามันจะน่าทึ่งหรือน่ากังวลดี รู้แต่ว่า AI เดี๋ยวนี้มีความสามารถในการเปรียบเทียบ ตีความ ทำความเข้าใจในบริบทที่กำหนดไว้ได้เหมือนหรืออาจจะดีกว่ามนุษย์ไปแล้ว อีกหน่อยจะเห็น AI มาแข่งใบ้คำจากรูปก็ไม่แปลกใจแล้วหละ
รวมถึงข้อมูลปลอม ๆ ที่ถูกสร้างขึ้นจาก AI ก็คงจะไหลบ่าเข้าสู่โลกอินเตอร์เนตจนยากที่จะแยกแยะข้อมูลที่ถูกสร้างกับความเป็นจริงเสียแล้ว . . .

ดูเพิ่มเติมในซีรีส์

โฆษณา