ศัพท์ของสาย Data ไม่ว่าจะเป็นฝ่าย Data Analyst, Data Scientist หรือ Data Engineer มีหลากหลายคำมาก หากคุณกำลังอยากเริ่มต้นในสายงาน Data หรือทำงานอยู่แล้ว จำเป็นต้องใช้ความรู้จากสายงานนี้
การเข้าใจความหมายของศัพท์สาย Data และเข้าใจคอนเซปต์การใช้งานแบบเบื้องต้นจะช่วยให้คุณเริ่มต้นในสายงานนี้ได้ง่ายขึ้น หรืออาจจะช่วยตอนคุณสัมภาษณ์งานใหม่ก็ได้
ในบทความนี้ ทีม DataTH ได้รวบรวม 10+1 คำศัพท์ที่มือใหม่สาย Data ต้องรู้ ครอบคลุมตั้งแต่ SQL, Python, ETL ไปจนถึง Data Governance พร้อมอธิบายคำศัพท์ รวมไปถึงมีลิงก์ (บทความภาษาไทย) ให้ศึกษาเพิ่มเติมด้วย
มาดูทีละคำกันเลย
1. SQL
- คืออะไร: SQL (Structured Query Language) เป็นภาษาสำหรับจัดการและสืบค้น (Query) ข้อมูลจากฐานข้อมูล (Relational Database)
- ใช้ทำอะไร ใช้ในงานไหน: ใช้บ่อยในงานของ Data Analyst และ Data Scientist เพื่อดึงข้อมูลมาใช้ประโยชน์ต่อไป เช่น การวิเคราะห์ข้อมูล (Data Analysis) และ สร้างรายงาน (Reporting)
- ลิงก์อ่านเพิ่มเติม:
2. Python
- คืออะไร: Python เป็นภาษาการเขียนโปรแกรมที่ได้รับความนิยมสูงในวงการ Data Science และ Data Engineering มีจุดเด่นที่สามารถใช้งานได้หลากหลาย มีส่วนเสริม (Library) สาย Data ให้ใช้มากมาย เช่น Pandas, NumPy และ Scikit-learn
- ใช้ทำอะไร ใช้ในงานไหน: พบบ่อยในสาย Data Engineer และ Data Scientist ใช้ในการจัดการข้อมูล วิเคราะห์ข้อมูล และการพัฒนาโมเดล Machine Learning โดยเฉพาะในสาย Data Science และงานวิเคราะห์ข้อมูล
- ลิงก์อ่านเพิ่มเติม:
3. Data Analytics
- คืออะไร: Data Analytics คือ กระบวนการนำข้อมูลมาวิเคราะห์ เพื่อหาข้อมูลเชิงลึก (Insights) และเทรนด์ของข้อมูล ซึ่งช่วยให้องค์กรนำสิ่งที่ได้เรียนรู้ไปตัดสินใจเชิงธุรกิจและปรับปรุงการดำเนินงาน
- ใช้ทำอะไร ใช้ในงานไหน: ใช้บ่อยในงานสาย Data Analyst ที่ต้องการหาข้อมูลเชิงลึก (Insights) สำหรับช่วยในการตัดสินใจเชิงกลยุทธ์และพัฒนาประสิทธิภาพการทำงานในองค์กร รวมไปถึงใช้สร้างรายงาน (Report) และ Dashboard เพื่อนำเสนอข้อมูลให้ผู้บริหารและทีมธุรกิจสามารถเข้าใจข้อมูลได้รวดเร็วและตัดสินใจได้อย่างมีประสิทธิภาพ
- ลิงก์อ่านเพิ่มเติม:
4. ETL (Extract, Transform, Load)
- คืออะไร: ETL เป็นกระบวนการนำข้อมูลจากแหล่งอื่น (Extract) แปลงข้อมูลให้อยู่ในรูปแบบที่ต้องการ (Transform) และโหลดเข้าสู่ฐานข้อมูล (Load) เพื่อนำไปใช้งานต่อไป ซึ่ง ETL เป็นกระบวนการสำคัญในการสร้าง Data Pipeline
- ใช้ทำอะไร ใช้ในงานไหน: ใช้ในสายงานของ Data Engineer เป็นหลัก เพื่อทำให้องค์กรสามารถนำข้อมูลจากแหล่งต่าง ๆ มาใช้ประโยชน์ได้
- ลิงก์อ่านเพิ่มเติม:
5. Data Pipeline
- คืออะไร: Data Pipeline เป็นสิ่งที่ใช้เคลื่อนย้ายข้อมูลจากจุด A (มักจะเป็นฐานข้อมูลภายนอก) ไปจุด B (มักจะเป็นที่เก็บข้อมูลในองค์กรของเรา) โดยกระบวนการของ Data Pipeline เรียกว่าการทำ ETL หรือ ELT
- ใช้ทำอะไร ใช้ในงานไหน: ใช้ในสายงานของ Data Engineer เป็นหลัก ทุกองค์กรที่ต้องใช้ข้อมูลจากภายนอกจำเป็นต้องมี Data Pipeline
- ลิงก์อ่านเพิ่มเติม:
6. Machine Learning
- คืออะไร: Machine Learning เป็นศาสตร์ที่ทำให้คอมพิวเตอร์สามารถเรียนรู้เองได้ ตามชื่อของมันนั่นเอง (Machine + Learning) ซึ่งเป็นหนึ่งในศาสตร์ทางด้าน AI (Artificial Intelligence) ที่ได้รับความนิยมมากในปัจจุบัน
- ใช้ทำอะไร ใช้ในงานไหน: ใช้ในสายงานของ Data Scientist เพื่อสร้างคอมพิวเตอร์ (เรียกว่า “โมเดล”) ที่สามารถทำนายและตัดสินใจจากข้อมูลที่เรียนรู้ได้
- ลิงก์อ่านเพิ่มเติม:
7. Cloud Computing
- คืออะไร: Cloud Computing คือการเช่าใช้ทรัพยากรคอมพิวเตอร์ผ่านอินเทอร์เน็ต โดยมีผู้ให้บริการเจ้าดัง ๆ เช่น AWS (Amazon Web Services), Google Cloud และ Microsoft Azure
- ใช้ทำอะไร ใช้ในงานไหน: ใช้ในงานของ Data Engineer เพื่อเก็บและประมวลผลข้อมูล ซึ่งการเช่าใช้งานทำให้องค์กรสามารถทำงานกับข้อมูลขนาดใหญ่ได้ง่าย ปรับขนาดให้ใหญ่ขึ้นหรือเล็กลงตามความจำเป็น และจ่ายเงินเฉพาะที่ใช้งาน
- ลิงก์อ่านเพิ่มเติม:
8. Big Data Tools
- คืออะไร: การทำงานด้วยคอมพิวเตอร์เครื่องเดียว อาจไม่สามารถประมวลผลข้อมูลขนาดใหญ่ (Big Data) ได้ หรืออาจใช้เวลานานมาก จึงเกิดเป็นเครื่องมือสำหรับประมวลผลข้อมูลขนาดใหญ่โดยเฉพาะ เช่น Apache Hadoop และ Apache Spark ซึ่งทำให้การประมวลผลกระจายไปในคอมพิวเตอร์หลายเครื่อง (Distributed Processing) และทำให้งานเสร็จเร็วขึ้น
- ใช้ทำอะไร ใช้ในงานไหน: ใช้บ่อยในงานของ Data Engineer ใช้ในการจัดการและวิเคราะห์ข้อมูลที่มีขนาดใหญ่และซับซ้อน
- ลิงก์อ่านเพิ่มเติม:
9. Data Visualization
- คืออะไร: Data Visualization เป็นการนำเสนอข้อมูลในรูปแบบกราฟหรือแผนภูมิเพื่อให้อ่านง่ายและเข้าใจข้อมูลที่ซับซ้อนได้อย่างรวดเร็ว
- ใช้ทำอะไร ใช้ในงานไหน:
- ใช้บ่อยในงานของ Data Analyst และ Analytics เพื่อสื่อสารข้อมูลและอินไซด์กับผู้ใช้งานที่ไม่ใช่สายเทคนิค เช่น ผู้บริหารหรือทีมธุรกิจ
- ใช้ในงานของ Data Scientist บ้าง เพื่อวิเคราะห์ข้อมูล หาความผิดปกติในข้อมูล
- ลิงก์อ่านเพิ่มเติม:
10. Statistics
- คืออะไร: Statistics (สถิติ) คือ ศาสตร์ที่ศึกษาวิธีการเก็บรวบรวม วิเคราะห์ และแปลผลข้อมูล ซึ่งเป็นพื้นฐานสำคัญใน Data Science ศาสตร์นี้เรียนได้ในวิชาคณิตศาสตร์ช่วงมัธยม
- ใช้ทำอะไร ใช้ในงานไหน: ใช้บ่อยในงานของ Data Scientist และ Data Analyst ใช้ในการวิเคราะห์ข้อมูล และการทดสอบสมมติฐานในงาน Data Science และ Analytics เพื่อให้ได้ผลลัพธ์ที่น่าเชื่อถือ
- ลิงก์อ่านเพิ่มเติม:
11. Data Governance
- คืออะไร: Data Governance (การธรรมาภิบาลข้อมูล) คือ การทำให้ข้อมูลมีคุณภาพตลอดอายุการใช้งาน (Lifecycle) ของข้อมูลในองค์กร
- ใช้ทำอะไร ใช้ในงานไหน: ใช้ในองค์กรที่ต้องรักษาข้อมูลให้ดี เห็นได้บ่อยในองค์กรใหญ่ และองค์กรรัฐบาล ซึ่งเป็นสิ่งที่คนทำงานในระดับบริหารต้องทำความเข้าใจเรื่องข้อมูลขององค์กรตัวเอง
- ลิงก์อ่านเพิ่มเติม:
บทสรุป
10+1 คำสาย Data ในบทความนี้ทีมงานเลือกกันมาอย่างพิถีพิถัน เป็นคำศัพท์ที่เจอบ่อยในงานจริง ถ้าหางานอยู่ จำไปใช้ตอนสัมภาษณ์งานกันด้วยนะ
และถ้าสนใจคำศัพท์ไหน อย่าลืมกดลิงก์ไปอ่านเพิ่มเติมนะคร้าบ ค่อย ๆ อ่าน ค่อย ๆ เก็บความรู้กันครับ
สำหรับคนที่กำลังเตรียมตัวทำ Resume ทางสาย Data อย่าลืมแวะอ่านบทความ 10 เทคนิคทำ Resume สำหรับสาย Data Science ที่จะช่วยให้คุณมีเรซูเม่ที่โดดเด่น และเพิ่มโอกาสในการได้งานในฝัน
ถ้าชอบเนื้อหาแนวนี้ ติดตามบทความดี ๆ ด้าน Data และวีดิโอสนุก ๆ ดูชิล ๆ แล้วได้ความรู้กันได้ที่ Facebook Page: DataTH และ Youtube Channel: Data Science ชิลชิล ครับ แล้วเจอกันนะคร้าบ