3 ส.ค. เวลา 09:44 • การศึกษา
Data By Shoper Gamer

Data Cleaning คืออะไร

โดย
Data Cleaning หรือ การทำความสะอาดข้อมูล คือ กระบวนการตรวจสอบ แก้ไข และจัดรูปแบบข้อมูลให้มีความถูกต้อง สมบูรณ์ และสอดคล้องกัน เพื่อให้ข้อมูลพร้อมใช้งานในการวิเคราะห์และนำไปใช้ประโยชน์อื่นๆ เปรียบเสมือนการทำความสะอาดบ้านก่อนที่จะตกแต่งใหม่ เพื่อให้บ้านดูสวยงามและพร้อมใช้งานมากขึ้น
  • ​กระบวนการของ Data Cleaning
1. ตรวจสอบความสมบูรณ์ของข้อมูล
ตรวจสอบว่าข้อมูลครบถ้วนหรือไม่ มีข้อมูลใดขาดหายไปบ้าง
2. ตรวจสอบความถูกต้องของข้อมูล
ตรวจสอบความถูกต้องของข้อมูล เช่น วันเดือนปีเกิด ที่อยู่ เบอร์โทรศัพท์
3. ตรวจสอบความสอดคล้องของข้อมูล
ตรวจสอบว่าข้อมูลสอดคล้องกันหรือไม่ เช่น เพศตรงกับคำนำหน้าชื่อ
4. ตรวจสอบข้อมูลที่ซ้ำซ้อน ตรวจสอบและลบข้อมูลที่ซ้ำซ้อนออก
5. จัดรูปแบบข้อมูล
เปลี่ยนรูปแบบของข้อมูลให้เป็นรูปแบบที่สอดคล้องกัน เช่น เปลี่ยนรูปแบบวันที่ให้เป็นรูปแบบเดียวกัน
6. เติมข้อมูลที่ขาดหาย
เติมข้อมูลที่ขาดหายไป โดยอาจใช้วิธีการทางสถิติ หรือโดยการอ้างอิงจากข้อมูลอื่นๆ
  • ​ประเภทของ Data Cleaning
○ ข้อมูลที่ผิดพลาด
ข้อมูลที่ไม่ถูกต้อง เช่น วันเกิดที่เป็นไปไม่ได้
○ ข้อมูลที่ซ้ำซ้อน
ข้อมูลที่ซ้ำกันหลายครั้ง
○ ข้อมูลที่ขาดหาย
ข้อมูลที่ไม่สมบูรณ์
○ ข้อมูลที่ไม่สอดคล้องกัน ข้อมูลที่ไม่สอดคล้องกับรูปแบบที่กำหนดไว้
  • ​ประโยชน์ของ Data Cleaning
○ เพิ่มความน่าเชื่อถือของผลการวิเคราะห์
ข้อมูลที่สะอาดจะช่วยให้ได้ผลการวิเคราะห์ที่น่าเชื่อถือมากขึ้น
○ ลดเวลาและค่าใช้จ่ายในการวิเคราะห์
ข้อมูลที่สะอาดจะช่วยให้การวิเคราะห์เป็นไปอย่างรวดเร็วและมีประสิทธิภาพ
○ ปรับปรุงคุณภาพของการตัดสินใจ
ข้อมูลที่ถูกต้องจะช่วยให้สามารถตัดสินใจได้อย่างถูกต้องและแม่นยำ
○ เพิ่มมูลค่าของข้อมูล
ข้อมูลที่สะอาดจะมีมูลค่าสูงกว่าข้อมูลที่ไม่สะอาด
  • ​เครื่องมือที่ใช้ในการทำ Data Cleaning
○ โปรแกรมสเปรดชีต
เช่น Microsoft Excel, Google Sheets
○ โปรแกรมฐานข้อมูล
เช่น SQL Server, MySQL
○ โปรแกรมเฉพาะทาง
เช่น Tableau, Power BI, Python
Credit :
👇
  • ​https://sysadmin.psu.ac.th/2023/05/12/data-cleansing/
  • ​https://www.zoho.com/th/dataprep/what-is-data-cleaning.html
  • ​https://www.facebook.com/share/p/yq9Rn2GnNeURhAxF/?mibextid=L0MuaQ
✏️ Shoper Gamer

ดูเพิ่มเติมในซีรีส์

โฆษณา