ถ้าบริษัทในปัจจุบันไม่มีทีม Data Engineer จะเจอปัญหาอะไรบ้าง

บทความนี้แอดคิดว่าน่าสนใจ เลยอยากเอามาแชร์กันครับ เพราะเป็นกรณีศึกษาที่ดีมากจากคนที่กำลังจะเรียนจบ และได้เข้าไปทำโปรเจค Data Science กับบริษัทขนาดใหญ่ที่มีสาขาทั่วโลก

และเค้าได้ค้นพบว่า จริง ๆ แล้ว งานด้าน Data Science ของจริง ไม่ได้มีข้อมูลจัดระเบียบสวยหรูให้เราเข้าไปทำ Data Analysis ได้ทันที

คุณ Lissie Mei นักศึกษาจากมหาวิทยาลัย UC Davis เล่าว่าเค้าได้ทำโปรเจคจบด้าน Data Science กับบริษัทระดับโลกที่ผลิตอุปกรณ์ที่ใช้มอเตอร์ เช่น สว่าน, เลื่อย ฯลฯ ชื่อ Hilti

สารบัญเนื้อหา hide

1 ปัญหาของทีม Data Engineering ที่ไม่ดี

2 Trash in -> Trash out ข้อมูลแย่เข้าไป ผลลัพธ์ก็ออกมาแย่

3 ถ้าอยากทำ Data Science ให้ดี ต้องทำ Data Engineering ให้ดีก่อน

4 คำแนะนำสำหรับคนทำงาน Data Analyst

ปัญหาของทีม Data Engineering ที่ไม่ดี

พอคุณ Lissie เข้าไปทำ หน้าที่ของเค้า คือ จัดการเรื่อง Data Cleansing ซึ่งก็ได้พบกับ 3 ปัญหาตั้งแต่เริ่มเลย

data engineering problem — สรุปปัญหาด้าน Data Engineer ที่คุณ Lissie เจอ ซึ่งพบได้ทั่วไปแทบทุกบริษัทในปัจจุบัน T_T

ขอข้อมูลได้ยาก: เค้าได้ทำงานร่วมกับทีม Finance โดยตรง แต่ก็ค้นพบว่าตัวฐานข้อมูลถูกจัดการโดยทีมอื่น ที่เรียกตัวเองว่า Pricing Operations เลยทำให้การขอข้อมูลแต่ละครั้งใช้เวลาเยอะมาก และบางทีก็หาไม่เจอว่าต้องติดต่อใคร
ระบบจัดการข้อมูลช้า: ข้อมูลการขายของบริษัทถือเป็นข้อมูลความลับของบริษัท ซึ่งที่บริษัทไม่มีการจัดการความลับที่ดี ทำให้การขอข้อมูลแต่ละครั้ง ทีม Pricing Operations ก็ต้องไปทำการดึงออกมา แล้วทำการลบข้อมูลที่เป็นข้อมูล Sensitive เช่น ชื่อ วันเกิด อีเมล ลูกค้า เลยทำให้ใช้เวลาเยอะมากกว่าจะได้ข้อมูล
ข้อมูลไม่เป็นระเบียบ: ข้อมูลต่าง ๆ ไม่มีการเก็บความสัมพันธ์ไว้ให้ชัดเจนว่าต่อเชื่อมกันยังไง ไม่มี Data Model มาให้ นอกจากนั้นข้อมูลยังมีไฟล์หลายแบบ ทั้ง CSV, JSON, SQLite ฯลฯ เลยทำให้เค้าต้องหาวิธีอ่านไฟล์แต่ละแบบ

(แอดมั่นใจว่าคนที่ทำงานด้าน Data Science หรือ Data Engineer เจอปัญหาด้านบนมากันครบทุกคนครับ อ่านไปจะร้องไห้ T_T)

Trash in -> Trash out ข้อมูลแย่เข้าไป ผลลัพธ์ก็ออกมาแย่

why clean data — ข้อมูลที่ไม่มีคุณภาพ -> วิเคราะข้อมูลผิด -> สูญเสียรายได้ -> ธุรกิจล้มละลาย

คุณ Lissie พยายามแก้ปัญหาต่าง ๆ ด้วยตัวเอง จนสุดท้ายได้ Data ที่นำไปทำการวิเคราะห์ (Data Analysis) ได้สำเร็จ จบงานแล้ว!

แต่…

ข้อมูลการวิเคราะห์ที่ออกมากลับมีตัวเลขที่ผิด!

ตัวเลขที่ออกมาจากการวิเคราะห์ผิดแปลกไปจากข้อมูลบริษัทที่มีอยู่มาก ซึ่งหลังจากคุณ Lissie ได้กลับไปคุยกับทีมงาน ก็พบว่าข้อมูลที่ให้มาไม่ครบ

ปัญหานี้เกิดมาจากว่า เค้าโฟกัสที่การทำความสะอาดข้อมูลมากเกินไป จนลืมทำการตรวจเช็คค่าง่าย ๆ อย่าง Sum และ Count เพื่อเช็คว่าข้อมูลเข้ามาครบมั้ย

ถ้าอยากทำ Data Science ให้ดี ต้องทำ Data Engineering ให้ดีก่อน

data sicentist vs engineer — สกิลของ Data Scientist vs Data Engineer

คุณ Lissie สรุปว่า “งาน Data Engineering เป็นงานหลังบ้านที่กุมกุญแจสำคัญสำหรับการพัฒนาสิ่งใหม่ ๆ”

The kind of roles working behind the scene, such as data engineers, are actually holding the gateway of innovation
Lissie Mei

และยังเสริมด้วยว่า บริษัทในปัจจุบันที่ต้องการนำ Data มาใช้ประโยชน์ ควรเริ่มจากการสร้างทีม Data Engineer เพื่อเริ่มต้นสร้าง Data Pipeline ที่ดี และได้ Data ที่มีคุณภาพ สำหรับเอามาวิเคราะห์หา Insights ต่อได้

คำแนะนำสำหรับคนทำงาน Data Analyst

zilingo data visualization — อยากเก่งแบบคุณท็อป Data Analyst ที่ Zilingo อ่าน บทความสัมภาษณ์คุณท็อป ได้เลยคร้าบ

สุดท้าย คุณ Lissie ยังแนะนำว่า Data Analyst ที่ดี นอกจากจะถนัด SQL, Excel, และสื่อสารกับทีมธุรกิจได้เก่งแล้ว ควรเริ่มหัดเขียนโปรแกรม เช่น Python หรือ Scala เพื่อให้ทำงานร่วมกับทีม Data Engineer ได้ดีขึ้นด้วย

(อันนี้แอดเห็นด้วยว่าถ้า Data Analyst สามารถสื่อสารกับทุกทีมได้อย่างมีประสิทธิภาพ โอกาสเติบโตในหน้าที่การงานเยอะมากครับ)

จบไปแล้วนะครับ สำหรับสรุปบทความสั้น ๆ ของคุณ Lessie Mei
จริง ๆ ในบทความมีเนื้อหาเพิ่มเติมและรูปประกอบอีกเยอะเลยครับ ไปอ่านกันได้ที่นี่ >> https://towardsdatascience.com/data-engineering-the-cousin-of-data-science-is-troublesome-3a9332b532ae

หวังว่าสรุปอันนี้จะมีประโยชน์สำหรับทุกท่านนะครับ ถ้าชอบฝากเม้น ฝากแชร์ไว้หน่อยครับ เดี๋ยวจะได้เอามาเล่ากันอีกเยอะ ๆ :)

และถ้าใครสนใจงานด้าน Data Engineer สามารถอ่านบทความนี้เพิ่มเติมได้เลยคร้าบ แอดตั้งใจเขียนมาก

คู่มือเปลี่ยนอาชีพ: Data Engineer คือใคร ต้องเรียนพื้นฐานอะไรบ้าง

หมวดหมู่: Data Engineer, Data Science, Reading List
แท็ก: Internship

ถ้าบริษัทในปัจจุบันไม่มีทีม Data Engineer จะเจอปัญหาอะไรบ้าง

ปัญหาของทีม Data Engineering ที่ไม่ดี

Trash in -> Trash out ข้อมูลแย่เข้าไป ผลลัพธ์ก็ออกมาแย่

ถ้าอยากทำ Data Science ให้ดี ต้องทำ Data Engineering ให้ดีก่อน

คำแนะนำสำหรับคนทำงาน Data Analyst

บทความอื่น ๆ ที่เกี่ยวข้อง

Big Data เก็บที่ไหน? Data Lake vs Data Warehouse vs Database

คู่มือเปลี่ยนอาชีพ: Machine Learning Engineer คือใคร ต้องเรียนพื้นฐานอะไรบ้าง

[Free Download] หนังสือที่ต้องอ่าน สำหรับสาย Data Engineer ความรู้ครบทุกด้าน

อาชีพนี้ทำอะไร: คุยกับเกิ้ล นักวิเคราะห์ข้อมูล (Data Analyst) จาก Sertis

Big Data คืออะไร? เข้าใจง่าย ๆ ใน 2 นาที

สรุปความรู้ดี ๆ จากงาน ชีวิต-ติด-วัด: Measurable Metrics for Startup

Perth Ngarmtrakulchol