1 ก.ค. เวลา 12:00 • ธุรกิจ

เจอแบบนี้ที่นี้ก็ลั้ลลากันเลยสิ 555 😢

ถ้าคนสาย Data เจอแบบนี้คงมีอารมณ์เดียวคือ #โกรธ ใช่ไหมละ 555 😡 แต่แอดจะช่วยทุกคนใจเย็นลงบ้าง🥶 ด้วยการรวบรวมทริคการ #Clean ข้อมูลในกรณีต่างๆ ดูรายละเอียดได้ด้านล่าเลยน้า 😉
#วิธีการจัดการค่าNull 💪
1️⃣ หาค่าที่ถูกต้องมาใส่
หลายครั้งที่ข้อมูลเป็น Null ก็เพราะลืมกรอก/ใส่ค่า เพราะ #HumanErrror 😫 ดังนั้นลองตรวจสอบว่าจริงๆชุดข้อมูลมีค่าไหม? ถ้ามีก็มาใส่เติมก่อนเข้า DF นะเอ่อ 😉
2️⃣ เอาค่าเฉลี่ย/เลข0ใส่แทน
วิธีแก้ไขสุดคลาสสิกที่แทนที่จะให้ข้อมูลมีปัญหาเพราะค่าว่าง เราก็เติม #ค่าเฉลี่ยของข้อมูลที่ไม่ว่าง ไปใส่แทนทุกช่องที่เป็นค่าว่างเลยไงล่ะ 😆 แต่วิธีนี้มีโอกาสทำให้ข้อมูล #Bias ตามค่าเฉลี่ยได้นะ😵‍💫 และจะทำให้ข้อมูลไม่ใกล้เคียงกับความเป็นจริงก็เป็นไปได้ (ใน #Pandas🐼 ใช้ฟังกชัน .replace และแทนค่าด้วย mean() นั้นเอง)
3️⃣เอาข้อมูลว่างออกจากชุดข้อมูลทั้ง Transaction ✂️
วิธีนี้แอดแนะนำให้ทำหลังสุดถ้า (กรณีที่2อันแรกทำไม่ได้จริงๆ🥹) ก็เมื่อข้อมูลไม่พร้อมก็เอาออกไปเลย #แต่ต้องเอาออกทั้งTransactionหรือทั้งแถว นะ 😉 แต่ถ้าเอาออกเยอะไปก็ส่งผลถึงการวิเคราะห์ที่อาจไม่ตรงกับความเป็นจริงเช่นกัน 😱(ใน #Pandas🐼 ใช้ฟังกชัน np.where และ filter row ด้วยเงื่อนไข .notnull() )
#ข้อมูลไม่ตรงกับUser
1️⃣ ข้อมูลดึงจากต่างระบบกัน 🤷‍♂️🤷
User ดึงจาก #เว็บ เราสาย Data ดึงจาก #Datalake 🌊 แค่นี้ก็มีจุดที่ทำให้ข้อมูลอัพเดตไม่เท่ากันเยอะละค้าบบ 😞 เช่น ความถี่ในการอัพเดตข้อมูลที่ไม่เท่ากัน Logic ในการ input ข้อมูลที่แตกต่างกัน เป็นต้น แอดแนะนำ 👍 ให้ #ตั้งค่าความแตกต่างหรือDiff. ของข้อมูล 2 ระบบที่ยอมรับได้ 😁 เช่น 5% error เป็นต้น (เพราะเอาเวลาไปหาความต่างกินเวลาทั้งวันแน่ครับ😅)
2️⃣ ข้อมูลในโมเดลถูก Clean มาละไง 🧹
ข้อมูลที่เรานำมาวิเคราะห์ต้องผ่านการ #ETL หรือ การ Clean 🧹 ให้ข้อมูลพร้อมก่อนนำไปวิเคราะห์ใช่ไหมละครับ 😉 แค่นี้ #ขนาดของข้อมูลก็น้อยกว่าUser ละ 5555
3️⃣ ข้อมูลผ่านการคำนวนมา แล้วใส่วิธีคิดไม่ครบ 🤪
อันนี้เป็น #HumanError เลยหละครับ 😜 หลายครั้งที่เราต้องคำนวน หรือ Aggregate เพื่อให้ได้ตัวเลขที่ต้องการแถมลดไซส์ของข้อมูลไปด้วย 🤓 แต่หลายครั้งก็จะพลาดในรายละเอียดนิดหน่อย 😞 เช่น เงื่อนไขในการคำนวน Filter ที่ต้องเอาออก เป็นต้น
#สาเหตุของการเกิดข้อมูลDuplicate 🤓
1️⃣ FK 🔑 ใส่ไม่ครบ/ไม่ถูกต้อง
เป็นสาเหตุหนึ่งที่แอดเจอบ่อยมากกก 😡 คือเบลอใส่ FK ฟิล์ดที่เชื่อมกันระหว่าง 2 ตารางไม่ครบ หรือ ไม่ถูกต้อง ❌ ดังนั้นต้องใจเย็นๆ 555 ไล่ดูดีๆนะว่าเราใส่ FK ครบและถูกหมดรึยัง ซึ่งเครื่องมือหนึ่งที่จะช่วยเราได้ คือ #ERdiagram ที่เป็น diagram ช่วยบอกว่าแต่ละ Table มี PK FK กันยังไงบ้าง 👍 แต่ถ้าไม่มี diagram นี้ก็ตัวใครตัวมันละค้าบบ 555 😅
2️⃣ ข้อมูลตั้งต้นมันมีซ้ำอยู่แล้ว 😓
เช็ค FK 🔑 ก็มีครบละนะ ทำไมยังซ้ำได้อีกละ? บางครั้งสาเหตุก็เพราะ #ข้อมูลตั้งต้นมันซ้ำอยู่แล้ว ไงล่ะครับ 😆 วิธีแก้ไขก็ง่ายๆเลย ใส่ #Distinct ไปด้านหลังของ Select ยกตัวอย่างเช่น Select #Distinct * from Table1 Inner join Table2 On FK1=FK2 เป็นต้น
📣คอร์ส Data Preparation With Python 🐍การ Clean ข้อมูลด้วย Pandas🧹https://bit.ly/3BucIOM
📍นี้เป็นเพจที่ให้ความรู้การวิเคราะห์ข้อมูล รับปรึกษาทุกอย่างด้านข้อมูลทั้งแบบบุคคลและร้านค้า ฟรี! ไม่มีค่าใช้จ่าย ❤️ (ดูผลงานของเพจได้ที่👉http://1ab.in/IeN)
📍เพจเรามีกลุ่ม FB ละน้าา เข้าจอยได้นะจ้ะ
#datacookie #Data #BigData #Datascience #Datascientist #Dataanalyst #Datastudio #Dataanalytics #Database #SQL #Excel
โฆษณา