data engineering problem

ถ้าบริษัทในปัจจุบันไม่มีทีม Data Engineer จะเจอปัญหาอะไรบ้าง

บทความนี้แอดคิดว่าน่าสนใจ  เลยอยากเอามาแชร์กันครับ เพราะเป็นกรณีศึกษาที่ดีมากจากคนที่กำลังจะเรียนจบ และได้เข้าไปทำโปรเจค Data Science กับบริษัทขนาดใหญ่ที่มีสาขาทั่วโลก

และเค้าได้ค้นพบว่า จริง ๆ แล้ว งานด้าน Data Science ของจริง ไม่ได้มีข้อมูลจัดระเบียบสวยหรูให้เราเข้าไปทำ Data Analysis ได้ทันที

คุณ Lissie Mei นักศึกษาจากมหาวิทยาลัย UC Davis เล่าว่าเค้าได้ทำโปรเจคจบด้าน Data Science กับบริษัทระดับโลกที่ผลิตอุปกรณ์ที่ใช้มอเตอร์ เช่น สว่าน, เลื่อย ฯลฯ ชื่อ Hilti

ปัญหาของทีม Data Engineering ที่ไม่ดี

พอคุณ Lissie เข้าไปทำ หน้าที่ของเค้า คือ จัดการเรื่อง Data Cleansing ซึ่งก็ได้พบกับ 3 ปัญหาตั้งแต่เริ่มเลย

data engineering problem
สรุปปัญหาด้าน Data Engineer ที่คุณ Lissie เจอ ซึ่งพบได้ทั่วไปแทบทุกบริษัทในปัจจุบัน T_T
  1. ขอข้อมูลได้ยาก: เค้าได้ทำงานร่วมกับทีม Finance โดยตรง แต่ก็ค้นพบว่าตัวฐานข้อมูลถูกจัดการโดยทีมอื่น ที่เรียกตัวเองว่า Pricing Operations เลยทำให้การขอข้อมูลแต่ละครั้งใช้เวลาเยอะมาก และบางทีก็หาไม่เจอว่าต้องติดต่อใคร
  2. ระบบจัดการข้อมูลช้า: ข้อมูลการขายของบริษัทถือเป็นข้อมูลความลับของบริษัท ซึ่งที่บริษัทไม่มีการจัดการความลับที่ดี ทำให้การขอข้อมูลแต่ละครั้ง ทีม Pricing Operations ก็ต้องไปทำการดึงออกมา แล้วทำการลบข้อมูลที่เป็นข้อมูล Sensitive เช่น ชื่อ วันเกิด อีเมล ลูกค้า เลยทำให้ใช้เวลาเยอะมากกว่าจะได้ข้อมูล
  3. ข้อมูลไม่เป็นระเบียบ: ข้อมูลต่าง ๆ ไม่มีการเก็บความสัมพันธ์ไว้ให้ชัดเจนว่าต่อเชื่อมกันยังไง ไม่มี Data Model มาให้ นอกจากนั้นข้อมูลยังมีไฟล์หลายแบบ ทั้ง CSV, JSON, SQLite ฯลฯ เลยทำให้เค้าต้องหาวิธีอ่านไฟล์แต่ละแบบ

(แอดมั่นใจว่าคนที่ทำงานด้าน Data Science หรือ Data Engineer เจอปัญหาด้านบนมากันครบทุกคนครับ อ่านไปจะร้องไห้ T_T)

Trash in -> Trash out ข้อมูลแย่เข้าไป ผลลัพธ์ก็ออกมาแย่

why clean data
ข้อมูลที่ไม่มีคุณภาพ -> วิเคราะข้อมูลผิด -> สูญเสียรายได้ -> ธุรกิจล้มละลาย

คุณ Lissie พยายามแก้ปัญหาต่าง ๆ ด้วยตัวเอง จนสุดท้ายได้ Data ที่นำไปทำการวิเคราะห์ (Data Analysis) ได้สำเร็จ จบงานแล้ว!

แต่…

ข้อมูลการวิเคราะห์ที่ออกมากลับมีตัวเลขที่ผิด!

ตัวเลขที่ออกมาจากการวิเคราะห์ผิดแปลกไปจากข้อมูลบริษัทที่มีอยู่มาก ซึ่งหลังจากคุณ Lissie ได้กลับไปคุยกับทีมงาน ก็พบว่าข้อมูลที่ให้มาไม่ครบ

ปัญหานี้เกิดมาจากว่า เค้าโฟกัสที่การทำความสะอาดข้อมูลมากเกินไป จนลืมทำการตรวจเช็คค่าง่าย ๆ อย่าง Sum และ Count เพื่อเช็คว่าข้อมูลเข้ามาครบมั้ย

ถ้าอยากทำ Data Science ให้ดี ต้องทำ Data Engineering ให้ดีก่อน

data sicentist vs engineer
สกิลของ Data Scientist vs Data Engineer

คุณ Lissie สรุปว่า “งาน Data Engineering เป็นงานหลังบ้านที่กุมกุญแจสำคัญสำหรับการพัฒนาสิ่งใหม่ ๆ”

The kind of roles working behind the scene, such as data engineers, are actually holding the gateway of innovation

Lissie Mei

และยังเสริมด้วยว่า บริษัทในปัจจุบันที่ต้องการนำ Data มาใช้ประโยชน์ ควรเริ่มจากการสร้างทีม Data Engineer เพื่อเริ่มต้นสร้าง Data Pipeline ที่ดี และได้ Data ที่มีคุณภาพ สำหรับเอามาวิเคราะห์หา Insights ต่อได้

คอร์สปูพื้นฐาน Data Engineer โดย DataTH

คอร์สแรกในไทย ที่สอนความรู้ครบ เรียนการสร้าง Data Pipeline บน Cloud จากต้นน้ำ - ปลายน้ำ พร้อม Workshop & Live สด (ไม่ต้องมีพื้นฐานมาก่อน)

คำแนะนำสำหรับคนทำงาน Data Analyst

zilingo data visualization
อยากเก่งแบบคุณท็อป Data Analyst ที่ Zilingo อ่าน บทความสัมภาษณ์คุณท็อป ได้เลยคร้าบ

สุดท้าย คุณ Lissie ยังแนะนำว่า Data Analyst ที่ดี นอกจากจะถนัด SQL, Excel, และสื่อสารกับทีมธุรกิจได้เก่งแล้ว ควรเริ่มหัดเขียนโปรแกรม เช่น Python หรือ Scala เพื่อให้ทำงานร่วมกับทีม Data Engineer ได้ดีขึ้นด้วย

(อันนี้แอดเห็นด้วยว่าถ้า Data Analyst สามารถสื่อสารกับทุกทีมได้อย่างมีประสิทธิภาพ โอกาสเติบโตในหน้าที่การงานเยอะมากครับ)


จบไปแล้วนะครับ สำหรับสรุปบทความสั้น ๆ ของคุณ Lessie Mei
จริง ๆ ในบทความมีเนื้อหาเพิ่มเติมและรูปประกอบอีกเยอะเลยครับ ไปอ่านกันได้ที่นี่ >>  https://towardsdatascience.com/data-engineering-the-cousin-of-data-science-is-troublesome-3a9332b532ae

หวังว่าสรุปอันนี้จะมีประโยชน์สำหรับทุกท่านนะครับ ถ้าชอบฝากเม้น ฝากแชร์ไว้หน่อยครับ เดี๋ยวจะได้เอามาเล่ากันอีกเยอะ ๆ :)

และถ้าใครสนใจงานด้าน Data Engineer สามารถอ่านบทความนี้เพิ่มเติมได้เลยคร้าบ แอดตั้งใจเขียนมาก

บทความอื่น ๆ ที่เกี่ยวข้อง

ผู้เขียน

Leave a comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

คุณอยากเป็น Data Engineer มั้ย?

พบกับ คอร์สแรกในไทย ที่สอนความรู้ครบ
เรียนการสร้าง Data Pipeline บน Cloud จากต้นน้ำ - ปลายน้ำ พร้อม Workshop & Live สด

 

ไม่ต้องมีพื้นฐานมาก่อนก็เรียนได้

datath school logo

บทความแนะนำ