บทความนี้แอดคิดว่าน่าสนใจ เลยอยากเอามาแชร์กันครับ เพราะเป็นกรณีศึกษาที่ดีมากจากคนที่กำลังจะเรียนจบ และได้เข้าไปทำโปรเจค Data Science กับบริษัทขนาดใหญ่ที่มีสาขาทั่วโลก
และเค้าได้ค้นพบว่า จริง ๆ แล้ว งานด้าน Data Science ของจริง ไม่ได้มีข้อมูลจัดระเบียบสวยหรูให้เราเข้าไปทำ Data Analysis ได้ทันที
คุณ Lissie Mei นักศึกษาจากมหาวิทยาลัย UC Davis เล่าว่าเค้าได้ทำโปรเจคจบด้าน Data Science กับบริษัทระดับโลกที่ผลิตอุปกรณ์ที่ใช้มอเตอร์ เช่น สว่าน, เลื่อย ฯลฯ ชื่อ Hilti
ปัญหาของทีม Data Engineering ที่ไม่ดี
พอคุณ Lissie เข้าไปทำ หน้าที่ของเค้า คือ จัดการเรื่อง Data Cleansing ซึ่งก็ได้พบกับ 3 ปัญหาตั้งแต่เริ่มเลย
- ขอข้อมูลได้ยาก: เค้าได้ทำงานร่วมกับทีม Finance โดยตรง แต่ก็ค้นพบว่าตัวฐานข้อมูลถูกจัดการโดยทีมอื่น ที่เรียกตัวเองว่า Pricing Operations เลยทำให้การขอข้อมูลแต่ละครั้งใช้เวลาเยอะมาก และบางทีก็หาไม่เจอว่าต้องติดต่อใคร
- ระบบจัดการข้อมูลช้า: ข้อมูลการขายของบริษัทถือเป็นข้อมูลความลับของบริษัท ซึ่งที่บริษัทไม่มีการจัดการความลับที่ดี ทำให้การขอข้อมูลแต่ละครั้ง ทีม Pricing Operations ก็ต้องไปทำการดึงออกมา แล้วทำการลบข้อมูลที่เป็นข้อมูล Sensitive เช่น ชื่อ วันเกิด อีเมล ลูกค้า เลยทำให้ใช้เวลาเยอะมากกว่าจะได้ข้อมูล
- ข้อมูลไม่เป็นระเบียบ: ข้อมูลต่าง ๆ ไม่มีการเก็บความสัมพันธ์ไว้ให้ชัดเจนว่าต่อเชื่อมกันยังไง ไม่มี Data Model มาให้ นอกจากนั้นข้อมูลยังมีไฟล์หลายแบบ ทั้ง CSV, JSON, SQLite ฯลฯ เลยทำให้เค้าต้องหาวิธีอ่านไฟล์แต่ละแบบ
(แอดมั่นใจว่าคนที่ทำงานด้าน Data Science หรือ Data Engineer เจอปัญหาด้านบนมากันครบทุกคนครับ อ่านไปจะร้องไห้ T_T)
Trash in -> Trash out ข้อมูลแย่เข้าไป ผลลัพธ์ก็ออกมาแย่
คุณ Lissie พยายามแก้ปัญหาต่าง ๆ ด้วยตัวเอง จนสุดท้ายได้ Data ที่นำไปทำการวิเคราะห์ (Data Analysis) ได้สำเร็จ จบงานแล้ว!
แต่…
ข้อมูลการวิเคราะห์ที่ออกมากลับมีตัวเลขที่ผิด!
ตัวเลขที่ออกมาจากการวิเคราะห์ผิดแปลกไปจากข้อมูลบริษัทที่มีอยู่มาก ซึ่งหลังจากคุณ Lissie ได้กลับไปคุยกับทีมงาน ก็พบว่าข้อมูลที่ให้มาไม่ครบ
ปัญหานี้เกิดมาจากว่า เค้าโฟกัสที่การทำความสะอาดข้อมูลมากเกินไป จนลืมทำการตรวจเช็คค่าง่าย ๆ อย่าง Sum และ Count เพื่อเช็คว่าข้อมูลเข้ามาครบมั้ย
ถ้าอยากทำ Data Science ให้ดี ต้องทำ Data Engineering ให้ดีก่อน
คุณ Lissie สรุปว่า “งาน Data Engineering เป็นงานหลังบ้านที่กุมกุญแจสำคัญสำหรับการพัฒนาสิ่งใหม่ ๆ”
The kind of roles working behind the scene, such as data engineers, are actually holding the gateway of innovation
Lissie Mei
และยังเสริมด้วยว่า บริษัทในปัจจุบันที่ต้องการนำ Data มาใช้ประโยชน์ ควรเริ่มจากการสร้างทีม Data Engineer เพื่อเริ่มต้นสร้าง Data Pipeline ที่ดี และได้ Data ที่มีคุณภาพ สำหรับเอามาวิเคราะห์หา Insights ต่อได้
คำแนะนำสำหรับคนทำงาน Data Analyst
สุดท้าย คุณ Lissie ยังแนะนำว่า Data Analyst ที่ดี นอกจากจะถนัด SQL, Excel, และสื่อสารกับทีมธุรกิจได้เก่งแล้ว ควรเริ่มหัดเขียนโปรแกรม เช่น Python หรือ Scala เพื่อให้ทำงานร่วมกับทีม Data Engineer ได้ดีขึ้นด้วย
(อันนี้แอดเห็นด้วยว่าถ้า Data Analyst สามารถสื่อสารกับทุกทีมได้อย่างมีประสิทธิภาพ โอกาสเติบโตในหน้าที่การงานเยอะมากครับ)
จบไปแล้วนะครับ สำหรับสรุปบทความสั้น ๆ ของคุณ Lessie Mei
จริง ๆ ในบทความมีเนื้อหาเพิ่มเติมและรูปประกอบอีกเยอะเลยครับ ไปอ่านกันได้ที่นี่ >> https://towardsdatascience.com/data-engineering-the-cousin-of-data-science-is-troublesome-3a9332b532ae
หวังว่าสรุปอันนี้จะมีประโยชน์สำหรับทุกท่านนะครับ ถ้าชอบฝากเม้น ฝากแชร์ไว้หน่อยครับ เดี๋ยวจะได้เอามาเล่ากันอีกเยอะ ๆ :)
และถ้าใครสนใจงานด้าน Data Engineer สามารถอ่านบทความนี้เพิ่มเติมได้เลยคร้าบ แอดตั้งใจเขียนมาก