26 ก.ค. 2021 เวลา 03:30 • การศึกษา
DATA SCIENCE FOR EVERYONE พื้นฐานที่ทุกคนควรรู้ 💻
Data Science For Everyone
DEFINITION
Data Science คือ ศาสตร์แห่งข้อมูล หรือวิทยาการข้อมูล ซึ่งมักเป็นที่สับสนระหว่างคำว่า Data Science และ Data Scientist
Point สำคัญ คือ Data Science ไม่ใช่ Data Scientist
ความหมายของคำว่า Data Science ขอยกมาจากคอร์ส Data Analyst ของ Google ได้บอกไว้ว่า
Data science: A field of study that uses raw data to create new ways of modeling and understanding the unknown
แปลง่ายๆก็คือ สาขาวิชาที่ใช้ข้อมูลดิบเพื่อสร้างโมเดลหรือ ทำให้เข้าใจในสิ่งที่เราไม่รู้
WHAT CAN DATA DO?
- อธิบายสถานะขององค์กร หรือกระบวนการต่างๆ ว่ามีแนวโน้มดีหรือไม่ดี
- ควานหาเหตุการณ์แปลกๆ ที่เกิดขึ้น
- ช่วยวิเคราะห์ เหตุผลของเหตุการณ์และพฤติกรรมต่างๆ
- ทำนายอนาคตที่กำลังจะเกิดขึ้น
ทีนี้เรามาลองดูว่าโลกของ Data มี Roles และความรับผิดชอบแตกต่างกันยังไงบ้าง?
DATA SCIENCE ROLES AND TOOLS
1.DATA ENGINEER
Data Engineer
Data Engineer หรือ วิศวกรข้อมูล ตำแหน่งนี้ถือเป็นผู้ควบคุมข้อมูลทุกอย่าง เพราะเป็นตำแหน่งที่มีหน้าที่เป็นด่านแรกของ Data Science Workflow เลยทีเดียว
หน้าที่ความรับผิดชอบ
- ดูเกี่ยวกับโครงสร้าง และ Architect ต่างๆ เช่น ใช้ Database อะไร มีระบบความปลอดภัยอะไงบ้าง
- สร้าง Data Pipeline เพื่อควบคุมการไหลของข้อมูลไม่ให้ติดขัด เพื่อ Stage อื่นๆ - สามารถใช้งานข้อมูลที่อยู่บนระบบได้
- ควบคุมเรื่อง Access และ Permission
เครื่องมือที่ใช้
- SQL: เพื่อเก็บและจัดระเบียบข้อมูล
- Java, Scala, Python: เพื่อทำงานกับ Data เช่น การทำความสะอาดข้อมูล หรือ Transform ให้ข้อมูลอยู่ในรูปแบบที่ต้องการ
- Shell: เขียน Command line เพื่อรัน Service แบบ Automate
- Cloud Computing: AWS, Azure, Google Cloud Platform
2.DATA ANALYST
Data Analyst
Data Analyst ถือว่าเป็นงานที่ Hot มากที่สุดงานนึงในช่วง 5 ปีที่ผ่านมาก เนื่องจากองค์กรส่วนมากยังคงติดอยู่กับปัญหาที่ว่า มีข้อมูล Excel เยอะๆ แต่ไม่รู้จะทำยังไงดี หรือต้องการ Report Dashboard แบบด่วนๆ ดังนั้นทุกองค์กรเลยมักจะเปิดรับตำแหน่งนี้เป็นอันดับแรก ก่อน Role อื่นๆ ใน Data Science
หน้าที่ความรับผิดชอบ
- วิเคราะห์ข้อมูล เชิง Descriptive เพื่อให้รู้สถานะอดีตจนถึงปัจจุบัน
- สร้าง Report หรือ Dashboard เพื่อให้เห็นภาพรวมของข้อมูล และนำไปสู่การตัดสินใจแบบเร็วๆ ได้
- ทำความสะอาดข้อมูล (ส่วนมากจะเป็น Spreadsheet)
เครื่องมือที่ใช้
- SQL: เพื่อดึงข้อมูล หรือสรุปผลทางสถิติของข้อมูล
- Spreadsheets (Excel, Google Sheets): ใช้เพื่อวิเคราะห์ข้อมูลแบบรวดเร็ว รวมถึงการทำความสะอาดข้อมูลแบบง่ายๆ
- BI Tools (Tableau, Power BI, Data Studio): สร้าง Interactive Dashboard และ Visualization เพื่อให้ฝ่ายบริหารสามารถหมุนข้อมูลได้เอง
- Python and R: ทำความสะอาดข้อมูลที่มีจำนวนมาก แบบ Spreadsheet เอาไม่อยู่ รวมถึงการสร้างโมเดลและ Visualization แบบสวยๆ
1
3.DATA SCIENTIST & MACHINE LEARNING SCIENTIST
Data Scientist & ML Scientist
ขอรวบ 2 ตำแหน่งเลยเพราะในไทยหาความต่างแทบไม่ค่อยเจอ ซึ่งส่วนใหญ่ที่เปิดรับกันจะเป็น Data Scientist และต้องมีสกิลของ ML Scientist ด้วย
Data Scientist เคยเป็นงานที่ Sexy ที่สุดอยู่ชั่วขณะหนึ่ง เพราะรายได้ค่อนข้างสูงและต้องการทักษะที่ค่อนข้างยากสำหรับหลายๆ คน
Data Scientist มักถูกเรียกจากหลายๆ คนว่า Data Science ซึ่งมันคือวิชา แต่เจ้า Data Scientist คือตำแหน่ง ที่เกี่ยวข้องกับ Data Science Workflow Stage สุดท้าย คือ ทดลองและทำนาย เพราะต้องคอยเอาข้อมูลจำนวนมากมารันโมเดลให้เกิด Insights หรือ Pattern ใหม่ๆ
หน้าที่ความรับผิดชอบ
- วิเคราะห์ข้อมูลด้วยวิธีการทางสถิติต่างๆ
- ทำการทดลองและหา Insights จากข้อมูล
- ใช้เทคนิค Machine Learning เพื่อช่วยในการวิเคราะห์ข้อมูลหรือสร้างโมเดลแบบใหม่ๆ
- ทำนายผลอนาคตที่จะเกิดขึ้นเพื่อหาวิธีรับมือกับสิ่งต่างๆ
- Classification
Deep Learning
Image Processing
Natural Language Processing
เครื่องมือที่ใช้
- SQL: เพื่อดึงข้อมูล หรือสรุปผลทางสถิติของข้อมูล
- Python / R:
Data Manipulation Library ต่างๆ เช่น pandas (Python) หรือ tidyverse (R)
ML Library ต่างๆ เช่น TensorFlow, Spark
DATA SCIENCE WORKFLOW
Data Science Workflow
1.DATA COLLECTION ต้องรู้อะไรบ้าง
DATA SOURCES
Company Data
- เก็บเอง
- ใช้สำหรับช่วยในการตัดสินใจ
Open Data
- ฟรี เป็นข้อมูลที่คนอื่นเก็บมา
- ใช้งานได้ แชร์ได้ ไม่ผิดกฎหมาย
ตัวอย่างของ Company Data
Web Events เป็นข้อมูลที่เก็บพฤติกรรมคนที่เข้ามาเล่นบน Website ของเรา เช่น เค้าคลิกปุ่มไหน ใช้เวลานานเท่าไหร่ ทำให้เรารู้ว่าแต่ละคนมีความสนใจอย่างไร สามารถนำไปทำ Personalize ต่อได้
Web Events by DataCamp
ตัวอย่างของ Open Data
Data APIs เป็นข้อมูลที่เราต้องทำการเชื่อม Application Programming Interface จากแหล่งข้อมูลที่เค้าเปิดให้เราดึงข้อมูลออกมาใช้ได้เลย เช่น
- Twitter
- Wikipedia
- Google Maps เป็นต้น
Public Records เป็นข้อมูลที่เรา Download มาใช้ได้ง่ายๆ เลย มีทั้ง .csv หรือ image เพื่อให้เราเอามาทำ Project ส่วนตัวได้
- Kaggle
- data.world
- https://data.go.th/ อันนี้เป็นข้อมูลของรัฐบาลไทย เราก็ลองเอางบประมาณที่ใช้ไปวิเคราะห์เล่นๆ กันได้ 555+
DATA TYPE
Quantitative
- เป็นตัวเลข
- วัดผลได้
Qualitative
- เป็นคำอธิบาย
- มองเห็นและเข้าใจได้ แต่วัดผลไม่ได้
Quanti vs Quali
Other Data Types
- Image Data: มองข้อมูลเป็น Pixel สามารถเอาไปทำ Machine Learning ได้
- Text Data: ข้อมูลที่เป็นลักษณะตัวอักษร สามารถเอาไปทำ NLP ได้
- Geospatial Data: มองข้อมูลเป็น Layer บนแผนที่ มักใช้โปรแกรม ArcGIS, QGIS ช่วยวิเคราะห์และนำเสนอข้อมูล
- Network Data: ใช้เชื่อมความสัมพันธ์ของข้อมูลคล้ายใยแมงมุม
DATA STORAGE
Location
- On-Premise: เก็บข้อมูลไว้ใน Server ที่เป็น Physical ต้องมีเจ้าหน้าที่หรือคนคอยดูแลอย่างใกล้ชิด เป็น Server ของตัวเอง ส่วนใหญ่ธนาคารหรือสถาบันทางการเงินมักจะเก็บข้อมูลแบบนี้
- On Cloud: เก็บข้อมูลไว้ใน Cloud ผ่าน Service ต่างๆ ของ AWS, Azure, GCP
Type of Data Source
- Relational Database: ใช้เก็บข้อมูลที่มีโครงสร้างเป็นตาราง โดยมีความสัมพันธ์กันระหว่างตาราง และสามารถใช้ SQL ในการดึงข้อมูลออกมาใช้งานได้
- Document Database: ใช้เก็บข้อมูลที่ไม่มีโครงสร้าง เช่น อีเมล, ข้อความ, วีดีโอหรือเสียง, โซเชียลมีเดีย
DATA PIPELINE
Data Pipeline คือ สิ่งที่ทำให้ข้อมูลเคลื่อนที่ไปยังจุดที่ต้องการใช้งานได้อย่างถูกต้อง โดยข้อมูลนั้นจะพร้อมใช้งานใน Stage นั้นๆ นอกจากนั้น Data Pipeline ยังสามารถ
- ส่ง Data ไปยังจุดต่างๆ ที่ต้องการ
- เก็บข้อมูลและเอาไปวางใน Database แบบอัตโนมัติ
ตั้งเวลาได้เป็น รายชม. รายวัน รายสัปดาห์
กระทำต่อเมื่อมี Event เข้ามา
- ทำให้เราตรวจสอบสิ่งต่างๆ ได้ด้วยการแจ้งเตือนที่เราสร้างขึ้น
- ETL
ตัวอย่างการใช้ Data Pipeline กับ Smart Home
Data Pipeline: Smart Home by DataCamp
ETL (EXTRACT-TRANFORM-LOAD)
ETL เป็นกระบวนการที่ Data Engineer ใช้กันเป็นประจำเพื่อเก็บข้อมูลเข้าไปยังฐานข้อมูลได้อย่างถูกต้องครบถ้วน
Extract: เป็นการเก็บข้อมูลจาก Data Source ต่างๆ
Transform: เป็นการแปลงข้อมูลให้อยู่ในรูปแบบที่พร้อมใช้งาน
Load: เก็บข้อมูลเข้า Database เพื่อให้ Data Analyst และ Data Scientist ใช้งานต่อ
และ Data Engineer มักใช้ Data Pipeline ในการทำกระบวนการ ETL แบบอัติโนมัตินั่นเอง
ETL by DataCamp
2.DATA PREPARATION ต้องรู้อะไรบ้าง
ทำไมต้องเตรียมข้อมูล?
- ข้อมูลในชีวิตจริงค่อนข้างปวดหัว
- เตรียมข้อมูลเพื่อป้องกันความผิดพลาด, ผลลัพธ์ที่ไม่ถูกต้อง, biasing algorithm (ไม่รู้จะแปลยังไงดี 555)
ลองคิดง่ายๆ ข้อมูลก็เหมือนกับวัตถุดิบที่ใช้ตอนทำกับข้าว ถ้าเราไม่ได้เปลี่ยนมันให้อยู่ในรูปแบบที่พร้อมปรุง เราก็ไม่น่าจะกินมันได้ ข้อมูลก็เช่นกัน
Photo by Engin Akyurt on Pexels.com
ทำความสะอาดข้อมูลกันดีกว่า
อันนี้เป็นตัวอย่างข้อมูลที่เรามักเจอกันตอนทำงานจริง
TIDY DATA
สิ่งที่เราต้องทำเป็นอย่างแรก คือ ต้องจัดข้อมูลให้อยู่ในรูปแบบที่ควรจะเป็น จากในตัวอย่างจะเห็นว่าหากมีการเก็บข้อมูลแบบนี้ต่อไปเรื่อยๆ ตารางจะยิ่งมีคอลัมน์มากขึ้นเรื่อย เราเรียกข้อมูลแบบนี้ว่า Wide-Format
1
แต่ใน Process Data Prep นี้เราต้องทำให้ข้อมูลอยู่ในรูปแบบของ Long-Format หมายถึง เมื่อมีข้อมูลใหม่เพิ่มเข้ามาจะเพิ่มจำนวนแถวแทน
Tidy Output
REMOVE DUPLICATES
กำจัดข้อมูลที่ซ้ำซ้อนกันออกไป ซ้ำกันในความหมายนี้ คือ ข้อมูลเหมือนกัน 100% ทุกคอลัมน์
Remove Duplicates Output
เริ่ม TRANSFORM ข้อมูล
UNIQUE ID
กำหนด Unique Key ให้ข้อมูลของเรา เพื่อให้ข้อมูล 1 แถวที่เรามีถือเป็น 1 Data Point จริงๆ และเพื่อให้ง่ายต่อการทำ Relationship ในกรณีที่เรามีข้อมูลหลายตาราง
Unique ID Output
HOMOGENEITY
ปรับให้ข้อมูลมีรูปแบบเดียวกัน เช่น Size ที่ใช้หน่วยวัดที่ต่างกัน และ Location ที่ใช้ตัวย่อและชื่อเต็ม
Homogeneity Output
DATA TYPE
ชนิดของข้อมูลสำคัญมากต่อการนำข้อมูลมาวิเคราะห์ต่อ หากข้อมูลที่เราจะใช้ในหาจำนวน ก็ควรมีลักษณะเป็นตัวเลข (Integer) เช่น ข้อมูล Age หรืออายุ จะนำไปหาค่าเฉลี่ยได้ Data Type ก็ควรเป็นลักษณะตัวเลข
Data Type Output
MISSING VALUE
เหตุผลที่มี Missing Value
- กรอกข้อมูลไม่ครบ (Human Error)
- Error โดยระบบ
- ค่านั้นสามารถเป็นค่าว่างได้ หรือที่จริงแล้วมันเป็นค่าว่างจริงๆ
วิธีจัดการกับ Missing Value
- คำนวณหาค่าโดยใช้ข้อมูลที่มีอยู่ (ทำได้โดยใช้ Mean, Median, Mode หรือใช้ ML และวิธีอื่นๆ เพื่อคำนวนหาค่าก็ได้)
- ลบทิ้ง (ตรงนี้ขึ้นอยู่กับจำนวนข้อมูลด้วย หากข้อมุลมีน้อยมาก ทุกๆ แถวจึงมีความสำคัญ ควรเลือกใช้วิธีการอื่นแทน)
- เก็บเอาไว้โดยไม่ทำอะไรเลย
โดยตัวอย่างนี้เราจะใช้วิธีง่ายๆ คือ การหาค่าเฉลี่ยจากอายุที่มีอยู่แล้ว (แอดย้ำว่าเป็นแค่วิธีหนึ่งง่ายๆ เท่านั้น)
Missing Value Output
เท่านี้เราก็สามารถทำงานต่อใน Stage ถัดไป นั่นคือ Exploration & Visualization ได้แล้ว
3.EXPLORATION & VISUALIZATION ต้องรู้อะไรบ้าง
EDA
Exploratory Data Analysis หรือ EDA เชื่อว่าหลายคนคงเคยได้ยินมาบ้าง แต่ยังไม่แน่ใจนักว่ามันคืออะไร
- การเข้าไปสำรวจข้อมูล
- ดูค่าทางสถิติของข้อมูล
- แสดงผลข้อมูลออกมาเป็นภาพ หรือกราฟต่างๆ (Data Visualization)
สำรวจข้อมูล
นี่คือตัวอย่างข้อมูลที่หลายสำนักมักใช้นำมายกตัวอย่าง เพราะมันเข้าใจง่าย ทั้ง Udacity รวมถึง DataCamp ด้วย โดยข้อมูลชุดนี้จะประกอบด้วย 4 Datasets แต่ละ Dataset จะมี 2 คอลัมน์ คือ X,Y
โจทย์ คือ เราจะหาความสัมพันธ์ของทั้ง 4 Datasets นี้อย่างไร แน่นอนว่าไม่พ้นการใช้ค่าทางสถิติ
Sample Data by DataCamp
ค่าทางสถิติของข้อมูล
และนี่ก็คือค่าทางสถิติของข้อมูล จะเห็นว่าค่า Mean, SD หรือแม้กระทั่ง Correlation ก็ได้เท่ากันเป๊ะ ดังนั้นจึงสรุปได้ว่าข้อมูลทั้ง 4 ชุดนี้มีลักษณะคล้ายกันมากๆๆๆ
แต่เดี๋ยวก่อน!! อย่าลืมว่าเราต้องเอาไปแสดงผลดูในรูปแบบของกราฟด้วย เพื่อความชัวร์
แสดงผลข้อมูล
ลองเอาข้อมูลทั้ง 4 มาแสดงผลในรูปแบบกราฟ หรือ Scatter Plot จะเห็นได้ว่าข้อมูลทั้ง 4 ชุดต่างกันอย่างเห็นได้ชัด ดังนั้นการทำ EDA จึงขาดขั้นตอนนี้ไปไม่ได้เลย
Scatters Plot by DataCamp
DASHBOARD
หลังจากได้ข้อมูลมาเรียบร้อย เราสามารถนำข้อมูลเข้าไปยัง BI Tools ต่างๆ เพื่อทำการแสดงผลในรูปแบบ Dashboard และนำเสนอข้อมูลที่คนสามารถคลิกหมุนข้อมูล หรือมองเห็นภาพใหญ่ของข้อมูลได้อย่างรวดเร็ว โดยเฉพาะอย่างยิ่งทีมผู้บริหาร
คนที่อยากทำตำแหน่ง Data Analyst จำเป็นมากที่ต้องใช้ Tools เหล่านี้ให้เป็นอย่างน้อยสัก 1 Tool เพราะมีพื้นฐานการใช้คล้ายๆ กัน
BI Tools
Tools เหล่านี้สามารถแสดงผลข้อมูลออกมาได้ดังตัวอย่างข้างล่าง
Data Visualization using Tableau
4.EXPERIMENTATION & PREDICTION ต้องรู้อะไรบ้าง
A/B TESTING
ใช้สำหรับทำการทดลองว่าสิ่งไหนดีกว่ากัน โดยมีขั้นตอนง่ายๆ ดังนี้
- ตั้งคำถาม: Banner แบบ A หรือ แบบ B จะทำให้คนกดซื้อของ (เกิด Conversion Rate) มากกว่ากัน?
- ตั้งสมมุติฐาน: Banner ทั้ง 2 แบบ มีอัตราการกดซื้อของเท่ากัน
- เก็บข้อมูล: แบ่งคนออกเป็นสองกลุ่มเท่าๆ กัน (เห็น Banner A 50% | Banner B 50%)
- แปลผลข้อมูล: ดู Conversion Rate ของคนทั้ง 2 กลุ่ม
A/B Testing by https://www.seobility.net/en/wiki/AB_Testing
PREDICTIVE MODELING
เป็น Model ที่ Data Scientist ใช้เพื่อทำนายผลข้อมูลในรูปแบบต่างๆ และเจ้า Model ที่ว่านี้ก็มีหลายรูปแบบด้วยกัน แอดอาจจะยกตัวอย่างไม่หมด แต่โดยหลักการแล้วคล้ายกัน คือ ต้องมี Input เพื่อส่งให้โมเดลทำการเรียนรู้และวิเคราะห์ผลออกมาเป็น Output
Predictive Model by DataCamp
เช่น หากเรา Feed Input ที่เป็น tweet ของชาวเน็ต Model จะสามารถทำนายได้ว่ามีโอกาสที่จะเป็นข่าวปลอมกี่ %
Predictive Model by DataCamp
FORECASTING TIME SERIES
ในปัจจุบัน หากข้อมูลที่เราใช้งานอยู่มีการเก็บข้อมูลวันหรือเวลา สามารถนำมาทำนายผลอนาคตในเชิงของเวลาได้
- ฝนจะตกกี่ครั้งในเดือนหน้า
- รถจะติดมากขึ้นแค่ไหนในอีก 1 ชั่วโมง
- สินค้าไหนจะต้องสั่งเพิ่มในช่วงเวลาใด
- ประชากรโลกจะเพิ่มเป็นจำนวนเท่าไหร่ในอีก 30 ปี
- ยอดขายสินค้าจะเพิ่มขึ้นมากน้อยแค่ไหนในแต่ละ Quarter
MACHINE LEARNING
Machine Learning คือ การทำนายผลด้วยข้อมูล
Supervised Machine Learning
คือ การทำนายผลด้วยข้อมูลที่มี Labels และ Features
- ทำระบบแนะนำสินค้าให้ลูกค้าใน Website E-Commerce
- ช่วยแพทย์วินิจฉัยโรคด้วยข้อมูลรูปภาพ เช่น โรคเบาหวานขึ้นตา
- แปลงลายมือเป็นตัวหนังสือ
- ทำนายผลลูกค้าที่จะย้ายค่าย (Churn Prediction)
ตัวอย่าง CHURN PREDICTION
ก่อนอื่นเราต้องรู้จัก Labels และ Features กันก่อน
- Labels: เฉลยข้อสอบว่า คำตอบที่ถูกต้องเป็นอะไร ในกรณีนี้ก็จะเป็นคอลัมน์ที่บอกว่า ลูกค้าจะ Churn หรือ Subscribe ต่อ
- Features: ข้อมูลอื่นๆ ที่เป็นปัจจัยในการประมวลผลของ Model
Churn Dataset by DataCamp
เมื่อมี Dataset ที่เรามีเฉลยข้อสอบอยู่แล้ว เราจึงนำข้อมูลชุดนี้มาทำการสร้างโมเดล โดยเราจะแบ่งข้อมูลเป็น 2 ชุดหลักๆ คือ
- Training Dataset เพื่อใช้สอนโมเดลให้รู้จักว่าข้อมูลแบบไหนที่ทำให้เป็น Churn หรือ Subscribe
- Test Dataset เพื่อทดสอบโมเดลว่าแม่นยำแค่ไหน หากนำมาใช้กับข้อมูลที่เพิ่งเคยเห็น
บางที่ก็จะมี Validate Dataset เพิ่มด้วย
Split Data by DataCamp
ประเมินผลโมเดล
โดยมากจะใช้สิ่งที่เรียกว่า Confusion Metrix ในการวัดคุณภาพของโมเดล แต่แอดอาจจะไม่ได้ลงรายละเอียดมากนัก แต่เอาให้ทุกคนพอเห็นภาพตามได้
จากตาราง จะเห็นว่าข้อมูล Test Dataset ของเรา
- มีคน Subscribe อยู่ 970 แต่โมเดลทำนายออกมา 1,000
- มีคน Churn อยู่ 30 แต่โมเดลทำนายออกมา 0
ดังนั้นเมื่อเราเอาความจริงกับสิ่งที่โมเดลทำนายมาคำนวณจะอยู่ที่ 97% ดูเผินๆ เหมือนจะดีใช่มั้ย?
แต่ในความเป็นจริงแล้วโมเดลนี้อาจจะไม่ค่อยดีนักเนื่องจากไม่สามารถจับ Pattern ของคนที่ Churn ได้เลย ทำให้โมเดลนี้เมื่อนำไปใช้งานจริงอาจจะทำให้ผลลัพธ์ที่ออกมาไม่มีประสิทธิภาพเลยก็ได้
Unsupervised Machine Learning
คือ การทำนายผลข้อมูลโดยใช้เพียงแค่ Features เนื่องจากเป็นโมเดลที่มักใช้ตามหา Label โดยมากจะนำไปใช้ในการจัดกลุ่มข้อมูล หรือ Clustering
เช่น หากวันนี้เราหลงเข้าไปในป่าแล้วไปเจอกับ ดอกไม้สายพันธ์แปลกๆ ที่เราไม่รู้จัก เราจึงพยายามจะจัดกลุ่มดอกไม้เหล่านั้น โดยอาจดูจากความกว้างและความยาวของเกสร, ความกว้างและความยาวของกลีบดอก, รวมถึงจำนวนกลีบดอก และที่ขาดไม่ได้เลยคือ สีของดอกไม้
Unsupervised Learning by DataCamp
เราจะทำการโยน Input เข้าไป เพื่อให้โมเดล Clustering ทำการจัดกลุ่ม จากรูปภาพดอกไม้ที่เราถ่ายมาได้ แต่ต้องบอกก่อนว่าวิธีการนี้เป็นการจัดกลุ่มจากสิ่งที่เรามีเท่านั้น ลองดูตัวอย่างผลลัพธ์ที่ได้
Clustering by DataCamp
การตัดสินใจเรื่องจำนวนของ Cluster
- ขึ้นอยู่กับความเหมาะสม เมื่อเรามองจากผลลัพธ์ที่เราได้
- ใช้ Domain Expert ที่มีความรู้เกี่ยวกับข้อมูลนั้นๆ มาช่วยตัดสินใจว่าจะแบ่งเป็นกี่ Cluster
แล้วก็จบแล้วสำหรับ Data Science Workflow!!
SUMMARY
สำหรับบทความนี้เหมาะสำหรับคนที่สนใจเรื่อง Data Science โดยที่ยังไม่เคยมีพื้นฐานมาก่อน เนื้อหาทั้งหมด มาจากส่วนหนึ่งของคอร์ส Data Science For Everyone ใน Data Camp
บทความนี้หลักๆ เราได้เรียนรู้อะไรบ้าง
- เราใช้ข้อมูลทำอะไรได้บ้าง
- ตำแหน่งหรือหน้าที่การงานต่างๆ ในโลก Data Science และ Tools ที่ต้องใช้
- Data Science Workflow แต่ละตำแหน่งอยู่ใน Stage ไหน ต้องทำอะไรบ้างในแต่ละ Stage
อยากให้บทความนี้จะเป็นจุดเริ่มต้นให้เพื่อนๆ มองเห็นเป้าหมายว่าเราอยากทำจุดไหนของ Data Science เพื่อใช้ในการกำหนดเส้นทางสิ่งที่ต้องเรียนในอนาคต และสุดท้ายนี้หวังว่าบทความจะมีประโยชน์ไม่มากก็น้อยคร้าบ 😁
โฆษณา