22 ก.ค. 2021 เวลา 03:01 • ธุรกิจ
Data Analysis : Step 2 : การจัดระเบียบข้อมูล (Data Cleansing + Data Wrangling)
คนส่วนมากต้องเคยได้ยินคำว่า Garbage in, garbage out. ขยะเข้าขยะออก โดยเฉพาะสาย data science เพราะการวิเคราะห์ข้อมูล มันคือการใช้วิธีการทางคณิตศาสตร์ หรือสถิติ การที่มีข้อมูลที่ผิดพลาด ก็จะทำให้การคำนวนที่ผิดพลาดด้วย ดังนั้น เราจึงต้องกำจัดขยะต่างๆในชุดข้อมูลของเราซะก่อนที่จะทำการวิเคราะห์
มันมีคำสำคัญอีกคำนึงที่มาคู่กับ Data Cleansing (การทำความสะอาดข้อมูล) ก็คือคำว่า Data Wrangling ซึ่งสำหรับเรามันคือการจัดระเบียบข้อมูล
ในเวลาที่ได้ข้อมูลมาจากหลายแหล่ง มีฟอร์แมทที่ต่างกัน จะจับอย่างไรให้สามารถรวมเป็นไฟล์เดียว ฟอร์แมทเดียวกัน ให้มีข้อมูลครบสำหรับการวิเคราะห์ของเรา
ยกตัวอย่างเช่น เราอยากวิเคราะห์ความนิยมของสินค้า 10 ตัว ในแง่ต่างๆ ในรายงานยอดขายอาจจะมี ชื่อสินค้า ราคา วันที่ขาย ชื่อพนักงานขาย ชื่อลูกค้า ซึ่งเราสามารถนำข้อมูลลูกค้าสมาชิกมาประกบ เราก็จะได้ เพศ อายุ การศึกษา ประวัติการซื้อสินค้าอื่น มาเพิ่มเติมในการวิเคราะห์ของเราด้วย
วิธีการประกอบฐานข้อมูลแบบง่ายๆ ที่ทุกคนทำกันอยู่ก็คือการใช้ Vlookup ใน Excel นี่แหละค่ะ
เมื่อประกอบไฟล์เรียบร้อยแล้ว ก็ถึงเวลาการทำความสะอาด ด้วยการดูว่า ข้อมูลมีครอบทุกช่องไหม สะกดถูกต้องไหม มีข้อมูลอะไรที่ประหลาดกว่าคนอื่น เพื่อเช็คว่าเราดึงข้อมูลมาถูกช่องหรือเปล่า (ฝันร้ายของการ vlookup เลยค่ะ) เมื่อได้ข้อมูลที่สะอาดแล้ว ก็สามารถนำมาวิเคราะห์ข้อมูลได้ต่อไป
#dataanalysis #dataanlyst #dataanalytic #การวิเคราะห์ข้อมูล
โฆษณา