29 ก.ค. 2022 เวลา 00:54 • วิทยาศาสตร์ & เทคโนโลยี
Data-Centric Approach vs Model-Centric Approach in Machine Learning (ตอนที่ 1) 》》》
โดย Harshil Patel
บทความนี้กล่าวว่า โค้ดและข้อมูลเป็นรากฐานของระบบ AI (Artificial Intelligence) องค์ประกอบทั้งสองนี้มีบทบาทสําคัญในการพัฒนาโมเดลที่แข็งแกร่ง ซึ่งจะดูว่า Data-Centric Approach (แนวทางที่เน้นข้อมูลเป็นศูนย์กลาง) และ Model-Centric Approach (แนวทางที่เน้นแบบจำลองเป็นศูนย์กลาง) นั้นแนวทางใดดีกว่ากัน
Model-Centric Approach 》》》
หมายถึงการพัฒนาการวิจัยเชิงทดลองเพื่อปรับปรุงประสิทธิภาพของแบบจําลอง ML (Machine Learning) สิ่งนี้เกี่ยวข้องกับการเลือกสถาปัตยกรรมแบบจําลองที่ดีที่สุดและกระบวนการฝึกอบรมจากความเป็นไปได้ที่หลากหลาย
• ในวิธีนี้ จะเก็บข้อมูลไว้เหมือนเดิม และปรับปรุงโค้ดหรือสถาปัตยกรรมแบบจําลอง
• การทํางานกับโค้ดเป็นวัตถุประสงค์หลักของแนวทางนี้
แนวโน้ม Model-Centric Approach ในโลก AI 》》》
ปัจจุบันแอปพลิเคชัน AI ส่วนใหญ่มีแบบจำลองเป็นศูนย์กลาง จากข้อมูลของ Andrew Ng มากกว่า 90% ของเอกสารการวิจัยในโดเมนนี้ใช้แบบจําลองเป็นหลัก เพราะเป็นการยากที่จะสร้างชุดข้อมูลขนาดใหญ่ที่สามารถกลายเป็นมาตรฐานที่ได้รับการยอมรับโดยทั่วไป ด้วยเหตุนี้ ชุมชน AI จึงเชื่อว่า ML ที่ใช้ Model-Centric มีแนวโน้มมากขึ้น ในขณะที่มุ่งใช้โค้ด ในส่วนของข้อมูลมักถูกมองข้าม และการรวบรวมข้อมูลถูกมองว่าเป็นเหตุการณ์ที่เกิดขึ้นครั้งเดียว
Data-Centric Approach 》》》
ในยุคที่ข้อมูลเป็นหัวใจสําคัญของทุกกระบวนการตัดสินใจ บริษัทที่มีข้อมูลเป็นศูนย์กลางสามารถปรับกลยุทธ์ให้สอดคล้องกับผลประโยชน์ของผู้มีส่วนได้ส่วนเสียได้ดีขึ้น โดยใช้ข้อมูลที่สร้างขึ้นจากการดําเนินงาน วิธีนี้ผลลัพธ์จะมีความแม่นยําเป็นระเบียบและโปร่งใสมากขึ้นซึ่งสามารถช่วยให้องค์กรทํางานได้อย่างราบรื่นยิ่งขึ้น
• วิธีการนี้เกี่ยวข้องกับการเปลี่ยนแปลง/ปรับปรุงชุดข้อมูลอย่างเป็นระบบเพื่อเพิ่มความแม่นยําของแอปพลิเคชัน ML
• การทํางานกับข้อมูลเป็นวัตถุประสงค์หลักของแนวทางนี้
หลายคนมักสับสนระหว่าง Data-Centric Approach และ Data-Driven Approach Data-Driven Approach คือวิธีการในการรวบรวม วิเคราะห์ และดึงข้อมูลเชิงลึกจากข้อมูลที่มี บางครั้งเรียกว่า "การวิเคราะห์" ในทางกลับกัน Data-Centric Approach นั้น มุ่งเน้นไปที่การใช้ข้อมูลเพื่อกําหนดสิ่งที่ควรสร้างตั้งแต่แรก
Data-Driven vs Data-Centric
• สถาปัตยกรรม Data-Centric หมายถึง ระบบที่ข้อมูลเป็นสินทรัพย์หลักและถาวรในขณะที่แอปพลิเคชันมีการเปลี่ยนแปลง
• สถาปัตยกรรม Data-Driven หมายถึง การสร้างเทคโนโลยี ทักษะ และสภาพแวดล้อม โดยการนําเข้าข้อมูลจํานวนมาก
Data-Centric Approach เทียบกับ Model-Centric Approach 》》》
สําหรับนักวิทยาศาสตร์ข้อมูลและวิศวกร ML พอใจ Model-Centric Approach เนื่องจากผู้ปฏิบัติงานอาจใช้ความรู้ของตนเพื่อจัดการกับปัญหาเฉพาะ ในทางกลับกันไม่มีใครต้องการใช้เวลาทั้งวันในการติดฉลากข้อมูลเพราะถือว่าเป็นงานครั้งเดียว
อย่างไรก็ตาม ML ในปัจจุบัน ข้อมูลมีความสําคัญ แต่มักถูกมองข้ามและจัดการอย่างไม่ถูกต้องในการริเริ่ม AI ด้วยเหตุนี้ หลายร้อยชั่วโมงจึงสูญเปล่าไปกับการปรับแต่งแบบจำลองตามข้อมูลที่ผิดพลาด นั่นอาจเป็นสาเหตุพื้นฐานที่ทําให้แบบจำลองมีความแม่นยําต่่ำและไม่เกี่ยวข้องกับการเพิ่มประสิทธิภาพแบบจำลอง
Model-centric ML 》》》
- การทํางานกับโค้ดเป็นวัตถุประสงค์หลัก
- การเพิ่มประสิทธิภาพแบบจำลองเพื่อให้สามารถจัดการกับ noisy data (ข้อมูลที่ไม่มีความหมาย) ได้
- ป้ายชื่อข้อมูลที่ไม่สอดคล้องกัน
- ข้อมูลได้รับการแก้ไขหลังจากการประมวลผลล่วงหน้าตามมาตรฐาน
- แบบจำลองได้รับการปรับปรุงซ้ําแล้วซ้ําอีก
Data-centric ML 》》》
- การทํางานกับข้อมูลเป็นวัตถุประสงค์หลัก
- แทนที่จะรวบรวมข้อมูลมากขึ้น จัดให้มีการลงทุนมากขึ้นในเครื่องมือทำให้ข้อมูลมีคุณภาพเพื่อทํางานกับ noisy data
- ความสอดคล้องของข้อมูลคือกุญแจสําคัญ
- รหัส/อัลกอริทึมได้รับการแก้ไขแล้ว
- ทําซ้ําคุณภาพของข้อมูล
อาจไม่จําเป็นต้องเป็น data-centric อย่างสมบูรณ์ บางครั้งสิ่งสําคัญคือต้องมุ่งเน้นไปที่แบบจำลองและโค้ด การทําวิจัยและปรับปรุงแบบจําลองเป็นเรื่องดี แต่ข้อมูลก็มีความสําคัญเช่นกัน เรามักจะมองข้ามความสําคัญของข้อมูล ในขณะที่มุ่งเน้นไปที่แบบจําลอง วิธีที่ดีที่สุดคือการนําแนวทางไฮบริดมาใช้ซึ่งเน้นทั้งข้อมูลและแบบจําลอง ขึ้นอยู่กับแอปพลิเคชัน สามารถมุ่งเน้นไปที่ข้อมูลมากขึ้นและมุ่งเน้นแบบจำลองน้อยลง แต่ก็ควรคํานึงถึงทั้งสองอย่างด้วย
#DataCentric #ModelCentric #machinelearning #artificialintelligence #code #data
โฆษณา