[Antfield] AI Update: เมื่อ Google เปิดตัว Gemini 1.5 โมเดลล่าสุดของ Gemini AI ที่กำลังมาแรงแซง ChatGPT ด้วยความสามารถในการรองรับข้อมูลชุดคำสั่งขนาด 1 ล้าน tokens เยอะกว่า GPT-4 ของ Open AI ถึง 70 เท่า

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

Antfield

•

16 ก.พ. 2024 เวลา 16:06 • วิทยาศาสตร์ & เทคโนโลยี

AI Update: เมื่อ Google เปิดตัว Gemini 1.5 โมเดลล่าสุดของ Gemini AI ที่กำลังมาแรงแซง ChatGPT

ด้วยความสามารถในการรองรับข้อมูลชุดคำสั่งขนาด 1 ล้าน tokens เยอะกว่า GPT-4 ของ Open AI ถึง 70 เท่า

ก่อนจะไปต่อขออธิบายศัพท์สำหรับคนที่อาจไม่ได้ตามข่าว AI

Gemini: AI ที่พัฒนาโดย Google เปิดตัวเมื่อธันวาคมปีที่แล้วคู่ชกตรงกับ ChatGPT

ChatGPT: Chat bot AI ที่พัฒนาโดย OpenAI องค์กรที่ได้รับการสนับสนุนจาก Microsoft เปิดให้ใช้งานทั้งแบบ Free และแบบ Sub(สำหรับ Model ล่าสุด)

tokens: หน่วยย่อยของชุดข้อมูลนำเข้าสำหรับ AI ซึ่งสำหรับ AI แบบโมเดลภาษาขนาดใหญ่ (LLM) โทเคนนี้ก็คือคำแต่ละคำในข้อความคำถามหรือคำสั่งที่เราเขียน AI จะย่อยข้อความเป็นโทเคนเพื่อทำความเข้าใจและสื่อสารกับเรา

โทเคนก็เหมือนเวลาที่ MS word ใช้นับคำในไฟล์เอกสารว่าเราพิมพ์ไปกี่คำแล้วนั่นเอง

ช่วงนี้หลายคนคงเริ่มได้ยินและมีโอกาสได้ลองใช้งาน AI ชื่อของ ChatGPT, Co-pilot เริ่มคุ้นหูผู้คนในสังคมมากขึ้น Smart Phone เรือธงของ Samsung อย่าง S24 ก็ชูจุดขายด้วย AI กับฟีเจอร์เด่นอย่างการแปลภาษาแบบ Real-time

Galaxy AI เมื่อ AI เริ่มใกล้ตัวเราเข้ามาทุกที

ปัจจุบันการแข่งขันพัฒนา AI ก็ยิ่งดุเดือด ซึ่งเมื่อปีที่แล้วดูเหมือนว่า ChatGPT จะเริ่มทิ้งห่าง แต่มาปีนี้เรื่องราวอาจจะไม่เหมือนเดิมหลังจาก Google เปิดตัว Gemini AI ที่เคลมว่าเหนือว่า ChatGPT ในเกือบทุกด้านเมื่อปลายปีที่ผ่านมา

สำหรับ Gemini AI นั้นมีหลายขนาดอันได้แก่ Gemini Ultra/Pro และ Nano สำหรับให้เลือกใช้ตามความต้องการของผู้ใช้งานตามลักษณะงานและความซับซ้อน (แบบเดียวกับ ChatGPT ที่มีหลายโมเดลตั้งแต่ เวอร์ชั่น 3/ 3.5 และล่าสุดก็ 4)

แต่มาไม่ทันไรมาเมื่อวานนี้ Google ก็ได้เปิดตัว Gemini 1.5 ซึ่งเป็นโมเดลล่าสุดของ Gemini ซึ่งสามารถรับข้อมูล Input ใหญ่ขนาด 1 ล้านโทเคนได้(ประมาณ 7 แสนคำ) ซึ่งทำให้ Gemini 1.5 สามารถกลืนเอาข้อมูลหนังสือ, บทความ ข้อความบทสนทนา วีดีโอ เป็นตั้ง ๆ เพื่อประมวลผลและทำงานตามบริบทที่เราต้องการให้มันทำ

เปรียบเทียบปริมาณโทเคนที่สามารถรองรับได้ของ AI แบบ LLM ที่มีอยู่ในปัจจุบัน

หรือแม้แต่การตอบคำถามจากโจทย์ที่เราให้ไปเป็นวีดีโอคลิป หรือแม้แต่การแต่งเพลงจากข้อความที่เราเขียนความต้องการบอกเจ้า Gemini(เดี๋ยวจะเล่าถึง AI อีกโมเดลของ OpenAI ที่มีความสามารถในการสร้างคลิปวีดีโอจากประโยคที่เราเขียนบอก)

ตัวอย่างการใช้งาน Gemini 1.5

ตัวอย่างจากในรูป ซึ่งเขาทดสอบให้ Gemini 1.5 วิเคราะห์ไฟล์วีดีโอตัวอย่างแล้วให้โจทย์ว่า "ให้หาว่าตอนไหนที่มีคนดึงแผ่นกระดาษออกมาจากกระเป๋าพร้อมบอกด้วยว่ามีข้อมูลสำคัญอะไรบ้าง"

เป๊ะทั้งใจความสำคัญและเวลาว่าเมื่อไหร่

เจ้า Gemini ก็สามารถบอกได้ว่านาทีที่ 12.01(เวลาในคลิป) มีแผ่นกระดาษถูกดึงออกจากกระเป๋าเป็นตั๋วจำนำนาฬิกาพกราคา 4 เหรียญของร้าน Goldman&Co ลงวันที่ 23 ตุลาคม 1924 ลงชื่อโดย "Will Smith"

โดยความเร็วในการวิเคราะห์นั้นเหมือนเรากรอเทปดูที่ความเร็ว 8-16 เท่า (ใช้เวลาไม่ถึง 1 นาทีสามารถกรอดูไปได้ถึงนาทีที่ 12 ในคลิป)

หาเจอได้ด้วยแม้รูปจะดูอิหยังเล็กน้อย

อีกตัวอย่างหนึ่ง ให้โจทย์ที่เป็นรูปวาดเหมือนเด็กอนุบาลวาดแล้วถามว่าตอนไหนที่เกิดเหตุการณ์แบบนี้ขึ้น?

ใช้เวลาไม่ถึงหนึ่งนาทีเหมือนเดิมเจ้า Gemini ก็สามารถหาเจอว่านาทีที่ 15.34 จ้า (อีกหน่อยเราคงมีเกมส์โชว์แข่งทายใบ้คำจากภาพกับ AI แล้วซินะ ^^)

Multimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo

เยี่ยมชม

youtube.com

Multimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo

This is a demo of long context understanding, an experimental feature in our newest model, Gemini 1.5 Pro using a 44-minute silent Buster Keaton movie, Sherl…

สำหรับไฟล์วีดีโอทดสอบความยาวประมาณ 45 นาทีนี้ถ้าเทียบเป็นโทเคนก็จะอยู่ประมาณเกือบ ๆ 7 แสนโทเคน ซึ่ง AI อื่น ๆ ในตลาดตอนนี้ยังไม่มีตัวไหนรับไหว

หรือแม้แต่การใช้วิเคราะห์โค้ดโปรแกรมขนาด 8 แสนกว่าโทเคนความยาว 100,633 บรรทัดก็ไม่หวั่น เจ้า Gemini สามารถวิเคราะห์และปรับแก้โค้ดตามที่เราต้องการได้

Problem solving across 100,633 lines of code | Gemini 1.5 Pro Demo

เยี่ยมชม

youtube.com

Problem solving across 100,633 lines of code | Gemini 1.5 Pro Demo

This is a demo of long context understanding, an experimental feature in our newest model, Gemini 1.5 Pro using 100,633 lines of code and a series of multimo…

กลับมาฝั่ง OpenAI กันบ้างซึ่งก็ยังพัฒนากันไม่หยุดโดยล่าสุดก็ได้เพิ่มฟีเจอร์ในการจดจำสิ่งที่เราสั่งให้จำจากบทสนทนาครั้งก่อนได้ รวมถึงสั่งให้ลืม ๆ สิ่งเราบอกครั้งก่อนก็ทำได้

ตัวอย่างเช่น เราสั่งให้ ChatGPT จดบันทึกการประชุมด้วยฟอร์แมตที่เราชอบแล้วบอกว่าให้จำฟอร์แมตเอาไว้ แล้วคราวหน้าเราก็สั่งว่าจดบันทึกการประชุมให้ด้วยเอาฟอร์แมตแบบเดิมเป็นต้น

Google assistance, Siri, Bixby และอีกมากมายที่ผ่านไปแล้ว วันหน้าคงเป็นคราวของ ChatGPT หรือไม่ก็ Gemini?

ซึ่งตอนนี้ยังอยู่ในช่วงทดสอบโดยการสุ่มผู้ใช้งานทั้งแบบฟรีและจ่ายรายเดือนเพื่อเข้าร่วมโครงการทดสอบฟีเจอร์นี้ก่อนเก็บรวมรวบข้อมูลก่อนเริ่มให้บริการจริงต่อไป

OpenAI ยังไม่หยุดแค่นี้เพราะเมื่อวานก็ได้เปิดตัว Sora ซึ่งเป็น AI โมเดลใหม่ที่มีความสามารถในการสร้างคลิปวีดีโอความยาวประมาณ 1 นาทีได้จากข้อความที่พิมพ์สั่งเข้าไป

เยี่ยมชม

youtube.com

OpenAI Sora All Example Videos.

ใน Link เป็นตัวอย่างวีดีโอที่ถูกสร้างขึ้นมาโดย Sora โดยวีดีโอในภาพเปิดนี้ใส่ข้อความกำกับซีนเอาไว้ดังนี้

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

จะเห็นได้ว่าเราต้องบอกรายละเอียดพอสมควร เช่น ผู้หญิงใส่เดรสแดงสวมทับด้วยเสื้อแจ็กเกตหนังสีดำ กำลังเดินอยู่กลางถนนในโตเกียวยามค่ำคืนท่ามกลางแสงไฟนีออนของป้ายโฆษณาในเมือง ซึ่งสะท้อนกับผืนผิวน้ำที่ท่วมขังบนถนน

ทั้งนี้ช่วงนี้ Sora ยังอยู่ในช่วงให้ทดสอบใช้งานเฉพาะเหล่านักวิจัย นักตัดต่อภาพยนตร์และทีมพัฒนาที่ได้รับคัดเลือกเท่านั้น เพราะแน่นอนว่าวีดีโอที่ Sora สร้างขึ้นมามันยังดูแปลก ๆ และไม่เนียนตาอยู่พอสมควร

มีคลิปตัวอย่างอีกมากมายในเวปของ Sora ไปลองดูกันได้ เห็นแล้วก็เชื่อได้ว่าอีกหน่อยก็จะมีคลิปประหลาดไหลบ่าท่วม Tiktok, Reel, Youtube และคงจะมีประเด็นสังคมเกิดดรามาอีกเยอะแน่นอน

ครับเขียนไปก็จับอารมณ์ตัวเองไม่ถูกเหมือนกันว่ามันจะน่าทึ่งหรือน่ากังวลดี รู้แต่ว่า AI เดี๋ยวนี้มีความสามารถในการเปรียบเทียบ ตีความ ทำความเข้าใจในบริบทที่กำหนดไว้ได้เหมือนหรืออาจจะดีกว่ามนุษย์ไปแล้ว อีกหน่อยจะเห็น AI มาแข่งใบ้คำจากรูปก็ไม่แปลกใจแล้วหละ

รวมถึงข้อมูลปลอม ๆ ที่ถูกสร้างขึ้นจาก AI ก็คงจะไหลบ่าเข้าสู่โลกอินเตอร์เนตจนยากที่จะแยกแยะข้อมูลที่ถูกสร้างกับความเป็นจริงเสียแล้ว . . .

อ้างอิง:

https://interestingengineering.com/innovation/googles-new-ai-model-is-700x-more-powerful-than-openais-flagship

https://interestingengineering.com/innovation/openais-new-ai-model-can-generate-minute-long-videos-from-text

https://openai.com/sora

https://interestingengineering.com/culture/chatgpt-can-now-remember-things-across-sessions-heres-how-it-works

https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#performance

https://www.9experttraining.com/articles/gemini-google-ai-vs-gpt4

ดูเพิ่มเติมในซีรีส์

AI Tech

โฆษณา

ดาวน์โหลดแอปพลิเคชัน

AI Update: เมื่อ Google เปิดตัว Gemini 1.5 โมเดลล่าสุดของ Gemini AI ที่กำลังมาแรงแซง ChatGPT

ดาวน์โหลดแอปพลิเคชัน