ขั้นตอนต่อมาคือการฝึกฝนการทำงานกับระบบ Cloud Computing เนื่องจาก Data Engineer จะต้องทำงานกับ Big Data อยู่ตลอดเวลา และระบบ Cloud ก็เป็นหนึ่งในระบบที่จัดเก็บและทำงานกับ Big Data ได้ดี โดยการเรียนรู้การทำงานกับ Cloud Computing จะช่วยให้ Data Engineer ทำงานกับข้อมูลได้อย่างไม่มีข้อจำกัดด้านทรัพยากร นอกจากนี้เทคโนโลยี Cloud Computing ยังช่วยให้ Data Engineer จัดการกับข้อมูลและทำขั้นตอนต่าง ๆ ที่ซับซ้อนทั้งหมดได้อย่างสะดวกสบายและสมบูรณ์ครบจบบน Cloud ได้เลย
5. ฝึกฝนการใช้เครื่องมือประมวลผลข้อมูล
ขั้นตอนต่อมาคือการฝึกประมวลผลข้อมูล Big Data ซึ่ง Big Data จะแบ่งเป็นสองแบบ ได้แก่ Batch และ Streaming ในขั้นตอนนี้เราจะฝึกฝนการจัดการกับข้อมูลประเภท Batch ก่อน ซึ่งข้อมูลแบบ Batch หมายถึงกลุ่มข้อมูลที่ถูกเก็บไว้ในช่วงระยะเวลาหนึ่ง เช่น การประมวลผลในรอบสัปดาห์ หรือรอบหนึ่งเดือน โดยใช้ Apache Spark
ตอนนี้เรามาถึงครึ่งทางแล้ว และพร้อมที่จะเรียนรู้ความท้าทายที่แท้จริงในการรวบรวมและจัดเก็บข้อมูลใน Central Repository ซึ่งเป็นศูนย์กลางที่ให้คนในองค์กรสามารถค้นหาข้อมูลได้อย่างมีประสิทธิภาพ ในขั้นตอนนี้ เราจะได้เรียนรู้ความแตกต่างของ Database, Data Warehouse และ Data Lake รวมถึงเข้าใจความต่างระหว่างระบบการประมวลผลแบบ OLTP และ OLAP ด้วย
ต่อมาในขั้นตอนนี้ Data Engineer จะต้องเรียนรู้ Star Schema และ Snowflake Schema ที่ใช้ออกแบบ Data Warehouse และการใช้เครื่องมือ Apache Hive ในการจัดการกับข้อมูลใน Data Warehouse อีกด้วย
ใกล้จะถึงจุดหมายของ Roadmap ของเราแล้วนะครับ ในขั้นตอนนี้เป็นการฝึกอีกทักษะที่จะเพิ่มแต้มต่อให้กับการเป็น Data Engineer ซึ่งเป็นทักษะการเขียนโปรแกรมแบบขั้นสูง เพื่อให้สามารถทำงานในโปรเจกต์ใหญ่ ๆ ได้ โดยในช่วงนี้ให้เน้นฝึกการเขียนโปรแกรมแบบ OOP (Object Oriented Programming) การทำความเข้าใจฟังก์ชันแบบ Recursive Function และการทำ Unit test และ Integration test
เดินตาม Roadmap 12 ขั้นตอนนี้ เตรียมพร้อมกับการเป็น Data Engineer ที่อนาคตสดใสได้เลย
สำหรับใครที่กำลังสนใจงานด้าน Data Engineer รวมถึงตำแหน่งงานด้านข้อมูลอื่น ๆ เช่น Data Analyst หรือ Data Scientist สามารถเข้าไปดูตำแหน่งที่เปิดรับและรายละเอียดเพิ่มเติมได้ที่