21 มี.ค. 2022 เวลา 02:17 • วิทยาศาสตร์ & เทคโนโลยี
[สรุป]
เทคนิค Decision Tree เป็นเทคนิคหนึ่งของ Machine Learning ที่มีการนำไปประยุกต์อย่างแพร่หลายเนื่องจากข้อดีของวิธีการนี้คือ สร้างโมเดลที่แปลความได้ง่าย แต่ก็มีข้อจำกัดอยู่บ้างเมื่อใช้กับข้อมูลที่มีความซับซ้อนมากหรือตัวแปรที่เป็นตัวเลขจะต้องแบ่งเป็น 2 ช่วงก่อนถึงจะทำงานได้
[รายละเอียด]
การสร้างโมเดล classification เป็นการเรียนรู้จากข้อมูลในอดีตเพื่อสร้างโมเดล (model) มาช่วยในการจำแนกประเภทข้อมูลหรือใช้พยากรณ์เหตุการณ์ในอนาคต เทคนิคหนึ่งที่นิยมใช้คือเทคนิคการ Decision Tree
เทคนิค Decision Tree จะใช้แนวคิด (concept) ที่จะแบ่งข้อมูลแต่ละคลาส (คำตอบ)ออกจากกันให้ได้มากที่สุดเท่าที่จะทำได้ โดยการเลือกตัวแปรที่แแยกข้อมูลได้มากสุดมาไว้ที่โหนดบนสุดของ Decision Tree ซึ่งเราเรียกโหนดนี้ว่า root node และหาโหนดที่แบ่งข้อมูลได้รองลงมามาต่อในลำดับชั้นต่อไปเรื่อยๆ จนไม่สามารถแบ่งได้อีกแล้วหรือไม่เกินชั้นที่กำหนดไว้
ในการคัดเลือกตัวแปรเหล่านี้จะมีการคำนวณค่าซึ่งที่นิยมใช้กันคือค่า Information Gain (IG)ซึ่งมีพื้นฐานมาจากการคำนวณความน่าจะเป็น (probability) ของแต่ละเหตุการณ์เทียบกับคลาส (คำตอบ) ดังนั้นการคำนวณค่านี้จะทำได้ง่ายถ้าตัวแปรเป็นค่า category แต่ถ้าเป็นตัวเลขจะยากกว่าเพราะต้องคำนวณเป็นค่า Probability Density Function (PDF) ดังนั้น Decision Tree เลยใช้วิธีการแบ่งข้อมูลออกเป็น 2 ช่วงแทน (เพื่อให้เป็น category) และคำนวณค่า IG แบบ category ปกติได้เลย
ข้อดีของ Decision Tree คือเป็นโมเดลที่แปลความได้ง่ายจากตัวอย่างจะเห็นได้ว่า ถ้าคนไม่เคยซื้อสินค้ามาก่อนก็จะไม่ตอบรับโปรโมชัน เป็นต้น และข้อดีอีกอย่างของ Decision Tree คือ การเลือกตัวแปรที่สำคัญมาใช้สร้างโมเดล เนื่องจากวิธีการของ Decision Tree จะค่อยๆ เลือกตัวแปรทีละลำดับขั้นและถ้าสามารถแบ่งข้อมูลได้ชัดเจนแล้วตัวแปรที่เหลือก็ไม่ต้องใช้
ข้อจำกัดของ Decision Tree อย่างหนึ่งคือ ประสิทธิภาพจะลดลงเมื่อใช้กับข้อมูลที่ซับซ้อนมาก เช่น ข้อความ (text) ซึ่งจะมีตัวแปรที่แสดงคำที่เกิดขึ้นเป็นจำนวนหลายร้อยคำ และตามวิธีการคำนวณค่า IG สำหรับตัวแปรที่เป็นตัวเลขตามที่อธิบายไปทำให้ต้องแบ่งค่าออกเป็นแค่ 2 ช่วงเท่านั้น (และในบางโปรแกรมจะไม่รองรับตัวแปรที่เป็น category ด้วยซ้ำ ก็ไม่ค่อยเข้าใจเหมือนกัน)
สำหรับท่านใดที่สนใจเรื่อง Data Science และ Machine Learning ดาต้า คิวบ์มี workshop ที่อธิบายแนวคิด (concept) การทำงานของ Machine Learning แบบง่ายๆ และใช้เครื่องมือที่เป็น Low-Code ML Platform ที่ใช้งานง่ายและมีประสิทธิภาพอย่าง RapidMiner ครับ
รายละเอียดการอบรมดูได้จาก https://datacubeth.ai/data-science-training/
โฆษณา