21 เม.ย. เวลา 04:06 • ไอที & แก็ดเจ็ต

สรุปหนังสือ Generative Deep Learning โค้ดดิ้งเล่มแรกของไทย

กระแสหลักของเอไอ ณ ขณะนี้คือ Generative AI หรือ GenAI กระแสนี้เริ่มขึ้นเมื่องานวิจัยเรื่อง Attention is all you need และ Transformer เผยแพร่โดยทีมกูเกิ้ลในปี 2017
1
ช่วงแรก เป็นเรื่องดังบังแคบๆ แค่กลุ่มนักวิจัยพัฒนาโมเดล แต่ต่อมา ดังบังเป็นพลุแตกเมื่อ ChatGPT ทำให้เรื่องเจนเอไอ กลายเป็นของฉลาดประหลาดที่จับต้องได้สำหรับยูสเซอร์ทั่วไป กลายเป็นแอพพลิเคชันที่มียูสเซอร์ครบ 100 ล้านคนได้ภายในเวลาแค่ 2 เดือน ทำลายสถิติเดิมของ TikTok ที่ครบ 100 ล้านยูสเซอร์ได้ภายในเวลา 9 เดือน และอันดับสาม อินสตาแกรมใช้เวลา 30 เดือน
หากจะจัดหมวดหมู่เอไอแบบใหม่ โดยไม่อิง “วิธีการสอน” (supervised/unsupervised learning) แต่อิงผลลัพธ์ของงาน จะแบ่งชนิดเอไอออกได้เป็น 2 ประเภท ประเภทแรก เอไอเพื่อใช้จำแนกสิ่งต่างๆ (discriminative model) เช่น ทำนายว่าใช่หรือไม่ใช่ จำแนกว่าใช่ภาพม้า แมว แวนโก๊ะ หรือกระทั่งเซลล์มะเร็งหรือไม่
เอไอชนิดแรกๆ นี้ เป็นกระแสหลักมาตั้งแต่ปี 1950 สะดุดเงียบไปก็หลายครั้ง จากนั้น “เบรคทรู” เมื่อใช้วิธีการเลียนแบบนิวรอนในสมอง ทำเป็นเลเยอร์ซ้อนๆ กันหลายชั้น กลายเป็น ดีฟเลิร์นนิ่ง (deep learning) หนึ่งในผลงานของ “3 บิดาแห่งดีฟเลิร์นนิ่ง” ซึ่งได้รับรางวัล Turing Award ในปี 2018 (เทียบเท่ารางวัลโนเบลในวงการไอที) ได้แก่ เจฟฟรีย์ ฮินตัน, โยชัว เบนจิโอ และยานน์ เลอคุน
ประเภทที่สอง เอไอเพื่อสร้างสิ่งใหม่ (generative model) โดยมีพระเอกคนใหม่คือ ทรานสฟอร์มเมอร์ (Transformer) โมเดลที่เข้ารหัสข้อมูล (encode) ไปเป็น “ตัวแทนข้อมูล” (representation) เพื่อสร้างความสัมพันธ์ระหว่างตัวแทนข้อมูลกับข้อมูลจริง จากนั้นก็ถอดรหัสแมปแปลง (decode) ให้เป็นเอาต์พุต หรือข้อมูลใหม่ เช่น แปลงภาษาอังกฤษ ไปเป็นภาษาเยอรมัน ซึ่งเป็นผลงานแรกๆ ของทรานสฟอร์มเมอร์จากงานวิจัย Attention is all you need
ทรานสฟอร์มเมอร์ ไม่ได้ใช้แค่ในวงการแปลภาษาเหมือนโปรเจกต์ต้นแบบ แต่ถูกดัดแปลงเพิ่มความสามารถให้สามารถเขียนโค้ด แต่งเพลง สร้างภาพวาดเหนือจิตนาการแบบ Midjourney, DALL.E หรือ Stable Diffusion หรือสร้างวิดีโอสั้นๆ แบบ Sora และ Gemini ได้ และตอบสารพัดคำถามได้เหมือน “อับดุล” เช่น ChatGPT, Claude, หรือ Llama ของ Meta
เจนเอไอทำให้วิธีการ “ค้นหาข้อมูล” ของคน เปลี่ยนไปเป็น “ค้นหาคำตอบ” จากเอไอ เปลี่ยนจากการเสิร์ช (search) ไปเป็นการพร้อมท์ข้อความ (prompt) ถามเอไอ เพื่อได้ชุดคำตอบเกือบสำเร็จรูป สิ่งเหล่านี้ทำให้ผู้คนฮือฮา เหมือนมีครูประจำตัว เลขาประจำใจ ที่ตอบ-บอก ทำการบ้าน เขียนจดหมาย หาไอเดีย และจิปาถะคดีที่เราๆ ท่านๆ มักจะถามครูหรือเพื่อน แต่อาจจะได้คำค่อนแคะแดกดันแทนคำตอบ
ผมเห็นด้วยกับคำบรรยายหลังปกของหนังสือ Generative Deep AI ของ Davis Foster (ชื่อเหมือนนักเปียโนดังโลก) “..ความมหัศจรรย์และพลังสร้างสรรค์อันน่าทึ่งของ ChatGPT, Gemini, Sora, DALL.E และ Stable Diffusion ทำให้ Generative AI กลายเป็นสาขาวิทยาการที่ร้อนแรงที่สุดในขณะนี้..” และชอบบทนำที่กล่าวว่า “...สิ่งที่ฉันไม่สร้างไม่ได้ ฉันไม่เข้าใจ” พวกเราไม่มีทางวิเคราะห์วิจารณ์ “เจนเอไอ” ได้เลย หากเราไม่เข้าใจวิธีการทำงาน และไม่มีทาง “เข้าใจ รู้จริง” จนกว่าเราจะได้สร้างมันขึ้นมาเองจริงๆ
เล่มนี้ น่าจะเป็นหนังสือเจนเอไอเล่มแรกๆ ของไทยที่ว่าด้วย “โค้ดดิ้งและสถาปัตยกรรมโมเดล” เป็นหนังสือที่ผู้แต่ง David Foster ทรานสฟอร์มเนื้อหาที่ยาก ให้กลายเป็นเรื่องง่าย บวกกับเรื่องเล่าเชิงอุปมา อ่านแล้วลื่นไหลชวนติดตาม (ยกเว้นบทเรื่อง Energy-based learning) จึงไม่น่าแปลกใจว่า ทำไมเล่มนี้ถึงขึ้นชาร์ทติดอันดับ 1 หนังสือ AI ขายดีของอะเมซอนหรือของโลกอย่างรวดเร็ว
เนื้อหาครอบคลุมสิ่งที่ผมเคยสงสัยต่างๆ นานา ทำให้รู้เข้าใจว่า ChatGPT, DALL.E หรือ Midjourney ทำงานอย่างไร ได้ตื่นเต้นกับแนวคิดใหม่ๆ จากยุคดีฟเลิร์นนิ่งไปสู่บิ๊กโมเดล (Large Language Model) และทำให้รู้ว่า ที่แท้จริง สมองคนไม่ได้คิดตัดสินใจจากโลกความจริง แต่จากสิ่งที่เราจำลองย่อโลกไว้ในสมองอีกที ซึ่งแต่ละคน ก็มีโลกย่อส่วนตัวที่ไม่เหมือนกัน (จึงมักทะเลาะกัน เพราะมีชุดข้อมูลที่ปรุงแต่งกันมาไม่เหมือนกัน)
หนังสือเล่มนี้แบ่งออกเป็น 3 ส่วน
ส่วนที่ 1 เป็นการแนะนำทั่วไปเกี่ยวกับการสร้างเจนเอไอ และดีฟเลิร์นนิ่ง เริ่มจากบทที่ 1 “Generative Modeling” วิทยาการเจนเอไอคืออะไร? สร้างสังเคราะห์สิ่งใหม่ได้อย่างไร รวมทั้งแผนผังหมวดหมู่เจนเอไอโดยใช้หลักทฤษฎีความน่าจะเป็น บทที่ 2 เข้าใจว่า “Deep Learning” คืออะไร และทำไมศาสตร์นี้จึงยังคงใช้ต่อ ไปต่อในเจนเอไอ
ส่วนที่ 2 พูดถึง 6 เทคโนโลยีหลักที่ใช้สร้างเจนเอไอ ได้แก่ หนึ่ง Variational Autoencoder (VAE) ที่ใช้สร้างภาพใบหน้าและมอร์ฟฟิ่ง (morph) แปรรูประหว่างใบหน้าคน โดยใช้พื้นที่แฝง (latent space), สอง Generative Adversarial Network หรือ GAN เน็ตเวิร์คการเรียนรู้จากฝ่ายตรงข้ามสำหรับการสร้างภาพ ทั้งแบบดีฟคอนโวลูชันนอล และแบบมีเงื่อนไข รวมทั้งแบบ Wasserstein GAN ซึ่งทำให้กระบวนการฝึกโมเดลเสถียรมากขึ้น,
ส่วนที่ 2 พูดถึง 6 เทคโนโลยีหลักที่ใช้สร้างเจนเอไอ
2
สาม Autoregressive Model โมเดลการถดถอยอัตโนมัติ โดยเริ่มปูพื้นจากเรื่องรีเคอร์เรนต์นิวรอลเน็ตเวิร์คก่อน เช่น Long Short-Term Memory network (LSTM) จากนั้นตามด้วยโมเดลการสร้างข้อความ และ PixelCNN สำหรับการสร้างภาพ, สี่ Normalizing Flow Model การทำให้โฟลว์การทรานสฟอร์มย้อนกลับได้ ใช้วิธีการทรานสฟอร์มความหนาแน่นของความน่าจะเป็น ไปเป็นการแจกแจงที่ซับซ้อนใหม่ ด้วยกลไกการแมปปิ้งแบบย้อนกลับได้ และลองสร้างโมเดล RealNVP เพื่อสร้างภาพ
ห้า Energy-Based Model โมเดลที่ยานน์ เลอคุนชอบพูดถึงเวลาอธิบายเรื่อง Llama โมเดลนี้ได้แนวคิดมาจากวิชาสถิติของสมการพลังงานในวิชาเทอร์โมไดนามิค ในบทนี้ เรายังจะได้เห็นแนวคิดใหม่ในการฝึกโมเดลโดยใช้ contrastive divergence และ Langevin Dynamics, หก Diffusion Model นี่คือกลไกหลักในการขับเคลื่อนโมเดลการสร้างภาพอย่าง DALL.E และ Stable Diffusion
อ่านต่อได้ที่ https://shorturl.at/wJMZ0
โฆษณา