สำหรับผู้ที่เริ่มต้นหรือกำลังประกอบอาชีพในสายงาน Data Engineer อาจจะเคยมีคำถามว่าสายงาน Data Engineering เกิดขึ้นมาได้อย่างไร มนุษย์เรามีการรวบรวมข้อมูลและนำมาใช้ประโยชน์ตั้งแต่เมื่อไหร่ และมีพัฒนาการอย่างไรบ้าง
วันนี้ DataTH จะพาทุกคนไปเดินทางสาย Data Engineer กัน เพื่อทำความรู้จักและเข้าใจเกี่ยวกับสายอาชีพนี้อย่างละเอียดยิบ จุดเริ่มต้นของอาชีพ Data Engineer คืออะไร? อาชีพ Data Engineer เกิดขึ้นมาได้อย่างไร? ถ้าพร้อมแล้วก็ไปลุยกันเลย
จุดกำเนิดของ Data Engineering
หากจะให้พูดกันตรง ๆ ก็คงไม่มีใครสามารถกำหนดได้แน่ชัดว่าศาสตร์ของการเก็บข้อมูลที่เป็นจุดเริ่มต้นของ Data Engineering มีมาตั้งแต่เมื่อไหร่ แต่สามารถบอกได้คร่าว ๆ ว่าน่าจะเป็นช่วง 1960s
ซึ่งเป็นช่วงที่มีการสร้าง Database Management Systems (DBMS) ขึ้นเป็นครั้งแรก โดย Charles Bachman นักวิจัยจากอดีตเจ้าตลาดแห่งการผลิตคอมพิวเตอร์อย่าง IBM (International Business Machines)
หลังจากช่วง 1960s ก็เริ่มมีการใช้ระบบ Database กันมากขึ้นเรื่อย ๆ และถูกนำมาใช้อย่างแพร่หลายมากยิ่งขึ้น ซึ่งในช่วง 1970sนั้นมีการพัฒนาเครื่องมือมากมายเข้ามาช่วยจัดการกับข้อมูล ไม่ว่าจะเป็นบริษัทด้านการจัดการข้อมูลอย่าง Oracle, Microsoft SQL Server, IBM DB เป็นต้น
นอกจากนี้ก็ยังมีการเริ่มใช้เครื่องมือ ETLใน Enterprise ด้วยเช่นกัน เช่น SAS, SSIS,
Talend, Informatica ซึ่งมีราคาสูง จึงได้รับความนิยมเฉพาะในบริษัทขนาดใหญ่
การแบ่งยุคของระบบจัดการข้อมูล (MIS)*
ยุคที่ 1 Mainframe / Minicomputer Computing: (ช่วงปี 1960s-1970s): เก็บข้อมูลใน Mainframe หรือใน Minicomputer
ยุคที่ 2 Personal Computers: เป็นยุคที่ผู้คนสามารถจัดการและเก็บข้อมูลในเครื่องของตัวเองได้อย่างอิสระ
ยุคที่ 3 Client/ Server Networks: ยุคของการใช้เซิร์ฟเวอร์ในการเก็บข้อมูล สืบเนื่องมาจากการใช้ Internet อย่างแพร่หลายมากขึ้น
ยุคที่ 4 Enterprise Computing: เป็นยุคที่บริษัทใหญ่ ๆ เริ่มต้นใช้การเก็บข้อมูลและใช้โปรแกรมต่าง ๆ ในการจัดการข้อมูล
ยุคที่ 5 Cloud Computing: เป็นยุคที่ทุกอย่างอยู่บนโลกแห่งคลาวด์ สามารถดาวน์โหลดระบบต่าง ๆ ได้ในเวลาไม่กี่นาที
*หมายเหตุ: ข้อมูลอ้างอิงจากหนังสือ Management Information Systems โดย Kenneth C. Laudon และ Jane Laudon
จุดกำเนิดของ Big Data
จะเห็นได้ว่าตั้งแต่ช่วง 1970s เป็นต้นมา มีการใช้เครื่องมือจัดการกับข้อมูลมากขึ้น จนมาถึงช่วง 1990s – 2000s ที่เป็นจุดเริ่มต้นของคำว่า Big Data เนื่องจากเป็นช่วงเวลาที่บริษัทใหญ่ ๆ เริ่มประสบปัญหาในการประมวลผลข้อมูล และการเก็บข้อมูล จึงคิดหาวิธีประมวลผลที่มีความรวดเร็วมากยิ่งขึ้น
จุดเปลี่ยนที่ทำให้ Big Data กลายมาเป็นสิ่งที่แพร่หลายคือการที่ Google ได้เผยแพร่บทความชื่อว่า “MapReduce: Simplified Data Processing on Large Clusters” ในปีค.ศ. 2004 ซึ่งอธิบายถึงการใช้คอมพิวเตอร์หลาย ๆ เครื่อง (Cluster) มาใช้ในการประมวลผลข้อมูลจำนวนมาก
จากการเผยแพร่บทความในครั้งนั้น ทำให้เกิด Hadoop ขึ้นในปีค.ศ. 2006 โดยทีมของบริษัท Yahoo! ซึ่งเป็นโปรแกรมที่ใช้ประมวลผลจาก Big Data ด้วยเทคนิค MapReduce
Hadoop มีองค์ประกอบหลายอย่าง เช่น Storage (HDFS) ส่วนจัดการ resource บน cluster (YARN)
Data Warehouse (Hive) และการประมวลผลข้อมูล (Spark) ซึ่ง Hadoop ทำให้หลาย ๆ บริษัทสามารถจัดเก็บ Big Data ของตัวเองได้ ซึ่งเป็นจุดกำเนิดของอาชีพ Data Engineer นั่นเอง
ก่อนจะมาเป็นอาชีพ Data Engineer
แน่นอนว่าเมื่อมีการสร้างฐานข้อมูล และมีการพัฒนาเครื่องมือที่ช่วยจัดเก็บข้อมูลแล้ว องค์ความรู้ในด้าน Data Engineering ก็ถือกำเนิดขึ้นด้วยเช่นกัน มีระบบหลายระบบที่ถูกพัฒนามาเรื่อย ๆ จนกลายมาเป็นส่วนหนึ่งในความรับผิดชอบและหน้าที่ของ Data Engineer ในยุคปัจจุบัน
- Database Management System (การจัดการฐานข้อมูล) คือระบบหรือซอฟต์แวร์จัดการฐานข้อมูล เช่น Relational Database
- Management Information system (MIS) ระบบในการจัดเก็บข้อมูล เพื่อช่วยในการตัดสินใจการทำธุรกิจ
- Distributed System & Parallel Computing หรือระบบการประมวลผลแบบกระจาย โดยใช้คอมพิวเตอร์หลาย ๆ ตัวเพื่อเชื่อมต่อกันแบบขนาน
Engineer ในปัจจุบันนี้
เมื่อได้รู้จักกับที่มาที่ไปของทั้งองค์ความรู้ด้าน Engineering และจุดกำเนิดอาชีพ Engineer จากอดีตไปแล้ว เรามาดูกันดีกว่าว่าปัจจุบันนี้ Engineer ทำอะไรและใช้เครื่องมืออะไรกันบ้าง
ศตวรรษที่ 21 นี้ อาชีพ Engineer ถูกยกให้เป็นอาชีพที่เซ็กซี่ที่สุด ด้วยการอ้างอิงจากความต้องการของตลาด เรียกได้ว่าแทบจะทุกบริษัทที่มีการจัดเก็บและจัดการข้อมูลจำนวนมาก ไม่ว่าจะเป็นบริษัท Startup ไปจนถึง Enterprise (บริษัทขนาดใหญ่) ต่างก็ต้องการ Engineer มาช่วยจัดการข้อมูลและทำงานร่วมกับทีมทั้งสิ้น ทำให้อาชีพนี้กลายเป็นอาชีพที่เนื้อหอมสุด ๆ ในศตวรรษนี้เลยทีเดียว
ปัจจุบันนี้ เครื่องมือที่เหล่า Engineer ใช้กันก็มีอยู่หลากหลายมากมาย ได้แก่
- Database: MySQL, PostgreSQL, Oracle, SQL server, MongoDB
- Data Lake: Hadoop HDFS, Amazon S3, Google Cloud Storage, Azure Blob Storage
- Data Warehouse: Apache Hive, Amazon Redshift, Google BigQuery, Azure Synapse, Snowflake
- Cloud / On-premise: AWS, Google Cloud, Microsoft Azure
สิ่งสำคัญที่ต้องรู้ก็คือ เหล่า Engineer ไม่จำเป็นจะต้องใช้เครื่องมือเหล่านี้เป็นทุกตัว แต่ควรที่จะมีความรู้ความเข้าใจมากพอ เพื่อเลือกใช้เครื่องมือที่เหมาะสมกับงานและช่วยแก้ไขปัญหาได้ดีที่สุด
เทรนด์ Data Engineering ในปัจจุบัน
ช่วงหลายปีหลังที่ผ่านมา จะเห็นได้ว่าในวงการ Engineer นั้น มีการหันมาใช้ Cloud Computing (As a Service) กันมากขึ้น โดยมีอัตราการใช้งาน Cloud ทั่วโลกมากกว่า 30% ในทุกปี นับตั้งแต่ปี 2018 ทำให้ปัจจุบันนี้เป็นยุคแห่ง Cloud Computing อย่างเต็มตัว
สำหรับใครที่อยากอ่านเกี่ยวกับเทรนด์ Engineering ในปัจจุบันและในอนาคตต่อ ก็สามารถตามไปอ่านกันได้เลย รับรองว่ามันส์หยดไม่แพ้กัน
ใครที่ไม่อยากพลาดบทความดี ๆ แบบนี้ มีเสิร์ฟกันให้ตลอด ๆ ก็ติดตามเราได้เลยที่ Facebook Page: DataTH และ Youtube Channel: Data Science ชิลชิล