[Capydata เรียนรู้ Data สไตล์ Capybara] มาลองจัดการ Missing Data ด้วย PANDAS กันเถอะ Pandas เป็นไลบรารีที่ทรงพลังสำหรับการจัดการและวิเคราะห์ข้อมูลในภาษา Python มันเป็นเหมือนกล่องเครื่องมือที่เต็มไปด้วยฟังก์ชันและวิธีการที่ช่วยให้คุณสามารถจั

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

•

21 เม.ย. 2024 เวลา 08:18 • วิทยาศาสตร์ & เทคโนโลยี

มาลองจัดการ Missing Data ด้วย PANDAS กันเถอะ

Pandas เป็นไลบรารีที่ทรงพลังสำหรับการจัดการและวิเคราะห์ข้อมูลในภาษา Python มันเป็นเหมือนกล่องเครื่องมือที่เต็มไปด้วยฟังก์ชันและวิธีการที่ช่วยให้คุณสามารถจัดการกับข้อมูลได้อย่างง่ายดายและยืดหยุ่น โดยจะแสดงผลออกมาในรูปแบบของตารางซึ่งในตัว Pandas นั้นเราจะเรียกมันว่า Dataframe (df) โดยก่อนที่จะใช้งาน Pandas นั้น เราต้องอย่าลืม Import library มาใช้ก่อนด้วยคำสั่ง

import pandas as pd

Pandas

Missing value หรือข้อมูลที่ขาดหายไป คือช่องว่างในชุดข้อมูลที่ควรจะมีค่า แต่ไม่มีค่า บางครั้งจะเห็นได้ว่าเป็น NaN (Not a Number), None, หรือค่าที่ว่างเปล่าโดยเหตุผลที่อาจทำให้เกิดข้อมูลที่ขาดหายไปมีหลายอย่าง เช่น

1.
การเก็บข้อมูลไม่สมบูรณ์: อาจเกิดจากการที่ข้อมูลไม่ได้ถูกบันทึกลงไป
2.
ข้อผิดพลาดในการป้อนข้อมูล: อาจเกิดจากการป้อนข้อมูลผิด หรือขาดการป้อนข้อมูล
3.
ความไม่สอดคล้องกันของแหล่งข้อมูล: หากข้อมูลมาจากแหล่งหลายแหล่ง อาจทำให้มีช่องว่างหรือข้อมูลขาดหายไป

Missing value

ซึ่งในบทความนี้เราจะไปทำความรู้จักการจัดการกับ Missing value ด้วย Pandas อย่างคร่าวๆกัน

วิธีที่ 1 การลบข้อมูลที่มี missing data ทิ้งไปเลย:

- ลบแถวหรือคอลัมน์ที่มีข้อมูลขาดหายไป

- เหมาะสำหรับกรณีที่ข้อมูลที่ขาดหายไปมีน้อยเมื่อเทียบกับข้อมูลทั้งหมด

- ระวัง: อาจทำให้สูญเสียข้อมูลสำคัญ

โดยฟังก์ชันที่เราใช้ใน pandas นั้นคือ

df.dropna()

df.dropna(axis=1)

วิธีที่ 2 การแทนที่ด้วยค่าเฉลี่ย/ค่ากลาง:

- แทนที่ข้อมูลที่ขาดหายไปด้วยค่าเฉลี่ย (mean), ค่ามัธยฐาน (median), หรือโหมด (mode)

- วิธีที่ใช้กันทั่วไปเพื่อรักษาความสมบูรณ์ของข้อมูล

- ควรเลือกให้เหมาะสมกับประเภทของข้อมูลเพราะข้อมูลบางประเภทค่ากลางอาจจะไม่ได้เป็นค่าที่เหมาะสมในการแทนที่ข้อมูลที่หายไป

โดยฟังก์ชันที่เราใช้ใน pandas นั้นคือ

df_fillna = df.fillna({'Age': mean_age})

วิธีที่ 3 การใช้อัลกอริทึมในการประเมินค่า (Machine learning imputation):

- ประมาณค่าข้อมูลที่ขาดหายไปด้วยอัลกอริทึมทาง Machine Learning เช่น K-Nearest Neighbors (KNN), MICE

- ใช้โมเดลการทำนายอื่นๆ เพื่อเติมข้อมูลที่ขาดหายไป

โดยถ้าจะใช้ Machine Learning นั้นจะต้อง Import library เพิ่มเติมคือ sklearn

เพื่อเป็นการเพิ่มความเข้าใจมากขึ้น ผู้อ่านบางท่านคงจะสงสัยว่าแล้ว Machine learning ที่กล่าวมานั้นคืออะไรหรอ ??? <ในบทความนี้เลือกใช้ Machine learning ที่มีชื่อว่า KNN>

Machine Learning (การเรียนรู้ของเครื่อง) เป็นวิธีการสร้างโมเดลของความสัมพันธ์ของข้อมูลที่สามารถเรียนรู้จากข้อมูลที่มีอยู่ ซึ่งโดยอาจจะแบ่งคร่าวๆได้เป็นประเภทดังนี้

1.
Supervised Learning : โมเดลเรียนรู้จากข้อมูลที่มีคำตอบกำกับข้อมูลไว้
2.
Unsupervised Learning : โมเดลเรียนรู้จากข้อมูลที่ไม่มีคำตอบกำกับข้อมูลไว้
3.
Semi-supervised Learning : ผสมผสานระหว่างสองวิธีการข้างต้น

ซึ่งวิธีที่เลือกใช้ในบทความนี้มีชื่อว่า K-Nearest Neighbors (KNN) ซึ่งหลักการของมันคือจะดูว่าข้อมูลของเราที่หายไปนั้น Feature ของมันที่มีอยู่มีค่าใกล้เคียงกับกลุ่มข้อมูลไหนมากที่สุด มันก็จะโยน Missing value ของเราเข้าไปอยู่ในกลุ่มนั้น (ถ้าเป็นข้อมูลประเภทตัวเลขก็จะทำการหาค่ากลางของกลุ่มให้)

K-Nearest Neighbors (KNN)

จะเห็นได้ว่าการจัดการกับข้อมูลที่หายไปนั้นมีหลายวิธีมากมายเต็มไปหมด ขึ้นอยู่กับบริบทของข้อมูลที่หายไป จริงๆแล้วเราจะเลือกใช้วิธีไหนก็ได้เพียงแต่ว่าเราต้องหาเหตุผลมาสนับสนุนให้ได้ว่าเพราะอะไรเราถึงเลือกใช้การแทนที่ข้อมูลด้วยวิธีที่เราเลือกนั่นเอง

ติดตามเนื้อหาสนุกๆเกี่ยวกับ Data ไปพร้อมกับพวกเรา Capydata ได้ที่

FB : Capydata เรียนรู้ Data สไตล์ Capybara

Blockdit : Capydata เรียนรู้ Data สไตล์ Capybara

Youtube : Capydata

โฆษณา

ดาวน์โหลดแอปพลิเคชัน

มาลองจัดการ Missing Data ด้วย PANDAS กันเถอะ

ดาวน์โหลดแอปพลิเคชัน