แนะนำหนังสือ 8 เล่มสำหรับมือใหม่หัดเป็น Data Engineer

data engineer books

แนะนำหนังสือ Data Engineer น่าอ่านให้ทุกท่านได้อัพเดทเนื้อหาความรู้ให้ทันกับโลกอนาคต คัดมาอย่างดีการันตีจากผู้มีประสบการณ์ และมีเนื้อหาที่ใช้งานได้จริง ไม่ว่าจะเป็นมุมมองเรื่องของ infrastructure หรือเรื่องปัญหาและความท้าทายอื่นๆที่เกี่ยวข้องกัน แอดได้ไปคัดเลือกหนังสือที่น่าสนใจมาให้แล้วค่า

หนังสือที่แนะนำและรีวิวในวันนี้จะเหมาะสำหรับมือใหม่ไปจนถึงระดับแอดวานซ์ เรียกได้ว่าตอบโจทย์กับผู้อ่านทุกแบบเลยค่ะ

หนังสือแนะนำสำหรับ Data Engineer

1. Designing Data-Intensive Applications – by Martin Kleppmann

Designing Data Intensive Applications
Designing Data Intensive Applications

หนังสือเล่มนี้เป็นเล่มที่บอกได้ว่าขึ้นแท่นหนังสือแนะนำสำหรับคนที่สนใจด้าน Data Engineer โดยที่สามารถบอกคุณได้ว่าเครื่องมือไหนเหมาะกับงานแบบไหน พร้อมทั้งข้อดีและข้อเสียของแต่ละตัวเทคโนโลยีในการประมวลผลและเก็บข้อมูล

เหมาะสำหรับคนที่มีพื้นฐานด้าน Database และมีความรู้เรื่อง SQL มาบ้างแล้ว จะพูดถึงความสามารถในการรองรับการขยายตัว (scalability) ความสม่ำเสมอ (consistency) ความเสถียร (reliability) ประสิทธิภาพ (efficiency) และการดูแลรักษาระบบ (maintainability) ซึ่งเป็นเรื่องหลักของงานด้านนี้

สนใจหนังสือ Designing Data Intensive Applications เล่มนี้กดดูได้ที่นี่เลย

2. 97 Things Every Data Engineer Should Know – by Tobias Macey

97 Things Every Data Engineer Should Know 1
97 Things Every Data Engineer Should Know

หนังสือเล่มนี้เป็นเล่มที่เรียกได้ว่าใหม่ล่าสุด เพิ่งออกมาในปีนี้ ได้รวบรวมประสบการณ์ องค์ความรู้ และความท้าทายทั้งหลายที่เข้ามาในการจัดการข้อมูลทั้งขนาดเล็ก ขนาดใหญ่ จากผู้เชี่ยวชาญจากบริษัทชั้นนำหลายที่ เช่น Twitter, Google, Microsoft หรือแม้แต่ LinkedIn

มีคำแนะนำที่ตรงประเด็นทั้ง 97 อย่างในการทำความสะอาด เตรียมข้อมูล เก็บข้อมูล ประมวลผล และนำข้อมูลเข้าระบบ (ingesting) โดยคุณ Tobias Macey ตัวนักเขียนเอง ก็เป็นเจ้าของ Podcast ด้าน Data Engineer ชื่อดัง

ตัวอย่างหัวข้อที่น่าสนใจ

  • 6 มิติในการเลือก Data Warehouse – Gleb Mezhanskiy
  • จุดจบอย่างที่เรารู้กันของ ETL – Paul Singman
  • ข้อมูลเทสไม่ผ่าน แล้วจะทำอย่างไรดีท – Sam Bail

สนใจหนังสือ 97 Things Every Data Engineer Should Know เล่มนี้กดดูได้ที่นี่เลย

3. Seven Databases in Seven Weeks – by Eric Redmond and Jim R. Wilson

Seven Databases in Seven Weeks 3
Seven Databases in Seven Weeks

หนังสือเล่มนี้เป็นคู่มือการใช้ Database ที่เป็นเทคโนโลยีใหม่ที่เป็นที่นิยม อย่าง NoSQL ทั้ง 7 แบบ มีการนำเสนอแนวคิดตั้งแต่ฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิม (relational database) ไปจนถึงฐานข้อมูลแบบที่ใหม่กว่าที่ใช้ NoSQL พร้อมทั้งวิธีจัดการปัญหาที่ท้าทายเกี่ยวกับการเก็บข้อมูล

เรียกได้ว่าเป็นหนังสือแนะนำ database ที่ใช้ NoSQL แบบกระชับและครบถ้วน มีทั้งการนำไปใช้งานจริงจากตัวอย่าง ให้ลงมือทำจนชำนาญ และแนวทฤษฎี โดยมีการพูดถึง database ตามด้านล่างนี้

Postgresql
Postgresql
HBase
HBase
MongoDB
MongoDB
CouchDB
CouchDB
Neo4j
Neo4J
DynamoDB
DynamoDB
Redis
Redis
  1. PostgresSQL: คือหนึ่งใน relational database ที่เป็นที่นิยมมากที่สุด
  2. HBase: คือหนึ่งในฐานข้อมูลแบบ wide-column ที่เป็นที่เก็บข้อมูลน่าตาคล้ายกับตารางที่ ชื่อและรูปแบบของคอลัมน์สามารถเปลี่ยนไปตามแถวได้
  3. MongoDB: คือหนึ่งในฐานข้อมูลแบบ document-oriented ที่ไว้เก็บข้อมูลในรูปแบบของ JSON
  4. CouchDB: คืออีกหนึ่งในฐานข้อมูลแบบ document-oriented ที่ไว้เก็บข้อมูลในรูปแบบของ JSON
  5. Neo4J: คือหนึ่งในฐานข้อมูลที่ไว้เก็บข้อมูลในรูปแบบ graph
  6. DynamoDB: คือหนึ่งในฐานข้อมูลแบบ key-value
  7. Redis: คือหนึ่งในฐานข้อมูลที่ไว้เก็บข้อมูลในรูปแบบ key-value store

ขณะที่ฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิมอย่าง MySQL เก็บได้เฉพาะข้อมูลที่อยู่ในรูปแบบที่กำหนดไว้เท่านั้น (schemas) สิ่งที่มาเปิดมิติใหม่ของการเก็บข้อมูลก็คือฐานข้อมูลแบบ NoSQL ซึ่งสามารถเก็บข้อมูลไว้ในรูปแบบไหนก็ได้ตามที่ต้องการ

สนใจหนังสือ Seven Databases in Seven Weeks เล่มนี้กดดูได้ที่นี่เลย

4. Kubernetes: Up and Running – by Brendan Burns, Joe Beda, and Kelsey Hightower

Kubernetes Up and Running 3
Kubernetes Up and Running

Kubernetes เป็นอีกหนึ่งในเทคโนโลยีที่ร้อนแรงและเป็นที่นิยมมากที่สุดในด้าน Data Engineer ที่สามารถเปลี่ยนวิธีการสร้างและ deploy แอพพลิเคชั่นในคลาวด์ได้ โดยหนังสือเล่มนี้จะพิสูจน์ว่า เทคโนโลยี Kubernetes นั้นจะสามารถยกระดับความเร็ว (velocity) ความคล่องแคล่ว (agility) ความเสถียร (reliability) และประสิทธิภาพ (efficiency) ในการทำงานได้อย่างไร

Kubernetes ย่อสั้นๆว่า K8s เพราะระหว่าง K กับ s มีตัวอักษรทั้งหมด 8 ตัว

หนังสือเล่มนี้นำเสนอว่า Kubernetes ใช้งานได้อย่างเหมาะสมกับวงจรชีวิตของแอพพลิเคชั่น distributed ขนาดไหน ทั้งยังได้เรียนรู้การใช้งานจริงโดยใช้ ในการสร้างและ deploy ระบบที่สามารถปรับเปลี่ยนขนาดไปตามความต้องการได้โดยอัตโนมัติ ไม่ว่าจะเป็น online services ปัญญาประดิษฐ์ โดยทีมนักเขียนนั้นเป็นผู้เชี่ยวชาญด้าน Kubernetes จาก Google

สนใจหนังสือ Kubernetes: Up and Running เล่มนี้กดดูได้ที่นี่เลย

สำหรับเพื่อนที่สนใจ สามารถเข้าไปดูนิทานเรื่อง Kubernetes เพื่อทำความเข้าใจคอนเซ็ปต์ให้มากขึ้นได้ ที่ Kubernetes คืออะไร: มาเรียนจากนิทาน Phippy ฟังเพลิน

5. Learning Spark, 2nd Edition – by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Learning Spark 2nd Edition 1
Learning Spark 2nd Edition

หนังสือเล่มนี้เป็นคู่มือในการใช้ Spark จัดการ Big Data โดยในที่ฉบับสองนี้ มีการอัพเดทเป็น Spark 3.0 ซึ่งเป็นเวอร์ชั่นใหม่ล่าสุด ด้วยขนาดและปริมาณข้อมูลที่มีในปัจจุบัน Spark เรียกได้ว่าเป็นเครื่องมือชั้นยอดในการทำงานกับข้อมูลขนาดใหญ่

เราจะได้รู้กันว่าโครงสร้างและเครื่องมือใน Spark สำคัญอย่างไร ผ่านตัวอย่างและการลงมือทำทีละขั้นตอน ทั้งการตั้งค่าใน Spark การเชื่อมต่อกับแหล่งข้อมูล การวิเคราะห์ข้อมูลแบบเป็นช่วง (Batch) หรือต่อเนื่องตลอดเวลา (Real-Time) การสร้าง Data Pipeline เป็นต้น

สนใจหนังสือ Learning Spark, 2nd Edition เล่มนี้กดดูได้ที่นี่เลย

สำหรับใครที่อยากทำความรู้จักเบื้องต้นกับ Apache Spark เครื่องมือ Open-Source ที่กะลังมาแรงที่สุดในวงการ Big Data สามารถเข้าไปอ่านได้ใน Apache Spark คืออะไร เครื่องมือ Big Data ที่ไม่รู้จักไม่ได้

6. Web Scalability for Startup Engineers – by Artur Ejsmont

Web Scalability for Startup Engineers 2
Web Scalability for Startup Engineers

หนังสือเล่มนี้เป็นเหมือนกับแผนที่นำทางให้กับ engineers ทุกคนที่อยากจะเริ่มทำงานใน Startup ธุรกิจขนาดเล็ก โดยนำเสนอวิธีการวางแผนและการใช้กลยุทธ์ในการปรับเปลี่ยนโครงสร้างของเว็บ แอพพลิเคชั่น และระบบ ให้เพียงพอต่อการรองรับข้อมูลที่เข้ามา

Startup ส่วนใหญ่มักจะพบความท้าทายด้านโครงสร้าง ระบบที่สามารถการขยายตัว จุดสำคัญในการออกแบบสร้างระบบให้ประสบความสำเร็จก็คือการออกแบบให้ใช้ภาษาหรือแพลตฟอร์มอะไรก็ได้ (language & platform agnostic) หนังสือเล่มนี้จะเป็นผู้ช่วยคนสำคัญในการจัดการกับความท้าทายนี้ ในการสเกลระบบ HTTP-based อย่าง เว็บไซต์, REST APIs, ระบบจัดการเว็บไซต์ (Backends) ของแอพพลิเคชั่นในมือถือ ให้อยู่หมัด

สนใจหนังสือ Web Scalability for Startup Engineers เล่มนี้กดดูได้ที่นี่เลย

7. The Data Warehouse (ETL) Toolkit – by Ralph Kimball

The Data Warehouse Toolkit 1
The Data Warehouse Toolkit
The Data Warehouse ETL Toolkit 1
The Data Warehouse ETL Toolkit

หนังสือสองเล่มนี้เป็นอีกสองเล่มที่ต้องลองสำหรับคนที่สนใจด้าน Data Engineer ซึ่งเขียนโดยคุณ Kimball กูรูด้าน Data Warehouse และ business intelligence ต้องเรียกว่าเป็นหนังสือครอบคลุมพื้นฐานและเทคนิคในการออกแบบและสร้างที่เก็บข้อมูลอย่าง Data Warehouse พร้อมทั้งเคสตัวอย่างอีก 12 เคสจากหลากหลายอุตสาหกรรม ทั้งแต่การค้าปลีก การเงินการธนาคาร การศึกษา การประกัน และสุขภาพเป็นต้น

การที่มีการนำเสนอเทคนิคการออกแบบที่เป็นเอกลักษณ์ ตั้งแต่เบื้องต้นจนไปถึงแบบที่ซับซ้อนสามารถใช้ได้กับระบบการบริหารจัดการสินค้า การออกใบเสร็จ การบัญชี การบริหารความสัมพันธ์กับลูกค้า (customer relationship management – CRM) การวิเคราะห์ข้อมูลขนาดใหญ่ และเน้น ETL ในเล่มที่สองทำให้หนังสือสองเล่มนี้เป็นเหมือนคัมภีร์ที่ควรหามาเก็บไว้

สนใจหนังสือ The Data Warehouse Toolkit และ The Data Warehouse ETL Toolkit เล่มนี้กดดูได้ที่นี่เลย

8. Architecting Modern Data Platforms – by Jan Kunigk, Ian Buss, Paul. Wilkinson, Lars George

Architecting Modern Data Platforms 2
Architecting Modern Data Platforms

หนังสือเล่มนี้จะโผล่ขึ้นมาทันทีเมื่อเพื่อนๆเริ่มตาลายกับเครื่องมือที่หลากหลายสำหรับข้อมูลขนาดใหญ่ โดยนำเสนอการสร้างโครงสร้างพื้นฐานของ Big Data ทั้งแบบ on-premises และแบบคลาวด์ รวมถึงการออกแบบระบบรับรองข้อมูล (Data Platform) เพื่อพิชิตความท้าทายที่เกิดขึ้นจาก Hadoop ก่อนที่จะเจาะลึกลงไปในแต่ละชั้นของโครงสร้างพื้นฐานในระบบ การปรับใช้ (Deployment) การปฏิบัติการ การรักษาความปลอดภัย การกู้ข้อมูลคืนเมื่อเกิดภัยพิบัติ รวมถึงการรวมเข้ากับระบบไอทีอื่น

เน้นเรื่องการอธิบายคอนเซ็ปต์ Hadoop และ การทำงานของระบบนิเวศของ Hadoop อ่านได้ทุกคน ตั้งแต่ เหมาะสำหรับสถาปนิคที่บรูณาการ IT เข้ากับธุรกิจ (Enterprise Architect), ผู้จัดการด้าน IT, สถาปนิคที่ออกแบบรูปแบบการทำงานของโปรแกรมประยุกต์ให้เหมาะสมกับการใช้งานร่วมกับเครือข่ายคอมพิวเตอร์ (Application Architect) และคนสุดท้าย Data Engineer นั่นเอง

สนใจหนังสือ Architecting Modern Data Platforms เล่มนี้กดดูได้ที่นี่เลย

สรุปแนะนำหนังสือ 8 เล่มสำหรับมือใหม่หัดเป็น Data Engineer

เป็นอย่างไรกันบ้างคะหลังจากที่แอดแนะนำหนังสือกันไปทั้ง 8 บวก 1 เล่ม เพื่อนๆชอบเล่มไหน ถูกใจเล่มไหนกันบ้างไหมเอ่ย เข้ามาคุยกันบอกกันได้เลยนะคะ

ส่วนถ้าใครคิดว่าบทความนี้มีประโยชน์ อยากฝากให้ช่วยแชร์ให้เพื่อน ๆ หน่อยนะคะ และถ้าอยากติดตามบทความดี ๆ ด้าน Data กันบน Facebook หรืออยากมาพูดคุย ติชมกัน เชิญได้ที่ Facebook Page: DataTH – Data Science ชิลชิล เลยนะค้าา

แล้วพบกันใหม่บทความหน้าค่ะ

ขอบคุณรูปภาพจาก amazon.com และ oreilly.com

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

บทความที่เกี่ยวข้อง