หลังจากที่ศึกษา Data Science อย่างจริงจังมาปีกว่า ๆ และสังเกตจากคนอื่น ๆ ที่เรียนมาพร้อม ๆ กัน ปัญหาใหญ่อย่างหนึ่งที่ผมพบว่าเราเสียเวลาไปมาก คือ “การติดตั้งระบบสำหรับทำ Data Science” ในคอมพิวเตอร์ส่วนตัว ครับ
ปัญหาของการติดตั้งระบบทำ Data Science ในเครื่อง
ระบบที่ว่านี้ คือ เครื่องมือพื้นฐานสำหรับเริ่มเรียน เช่น Jupyter Notebook ที่ปกติถ้าเราลง Python เวอร์ชั่นเดียวก็ง่าย ๆ ใช้ Anaconda ได้เลย แต่พอเราพยายามจะลง Python ทั้งเวอร์ชั่น 2 และ 3 จะเริ่มยากขึ้นมานิดนึง แล้วพอเราจะลง R ใน Notebook ด้วย ก็จะยากขึ้นมาอีก
แค่นั้นยังไม่พอ ไม่นานมานี้ผมพบว่าการจะลง Apache Spark ใน Notebook ต้องโหลดไฟล์ขนาด 200+ MB มาในเครื่อง แล้วทำตามขั้นตอนในการติดตั้งอีกเป็นชั่วโมง
สาเหตุหลัก ๆ ที่ทำให้การติดตั้งมันยาก คือ:
- ระบบปฏิบัติการในคอม (Operating System) แต่ละคนไม่เหมือนกัน – วิธีการติดตั้งใน Windows, Mac OS, Linux ก็อาจจะต้องใช้คนละวิธีกัน (เคยไปพยายามลง R ใน Notebook ในเครื่อง Windows เพื่อน ก็ต้องใช้วิธีที่แตกต่างจาก Mac นิดหน่อย)
- สเปคคอมก็มีผล เพราะงานด้านข้อมูลใช้พลังประมวลผลหนักมาก – ครื่องมือบางตัวต้องใช้ RAM เยอะในการรัน (เช่น Hortonworks Sandbox ที่ไว้ทำ Hadoop ต้องใช้ RAM มากกว่า 8 GB ตอนที่ผมเรียน คนเรียนบางคนก็คอมแรงไม่พอ ถึงกับต้องไปซื้อใหม่เลยครับ)
ซึ่งไม่นานมานี้ แอดมินก็ไปเจอทางออกที่ดีมาก ๆ แถมฟรีด้วย เอาไปใช้ตอนเรียน Spark มาเวิร์คมาก เลยเอามาแนะนำกันครับ
เพิ่มเติม: ถ้าใครอยากติดตั้ง Python ในเครื่องตัวเองแบบง่าย ๆ แอดเคยทำวีดิโอมาให้แล้ว รับชมได้ด้านล่างเลยครับ
Data Scientist Workbench คืออะไร
Data Scientist Workbench คือ ระบบออนไลน์ของ IBM ที่รวมเครื่องมือต่าง ๆ ด้าน Data Science ให้เราเข้ามาใช้แบบออนไลน์ได้เลย เช่น Jupyter Notebook ที่พูดถึงเมื่อสักครู่ (เซ็ต Python & R ทุกเวอร์ชั่นเรียบร้อย), RStudio เครื่องมือชื่อดังของคนเขียน R, Zeppelin Notebook สำหรับทำ Interactive Visualization และเครื่องมืออื่น ๆ ที่เค้าบอกกำลังจะมาในอนาคต เช่น My Hadoop
ระบบนี้เกิดขึ้นมาจากสาเหตุว่า ทาง IBM สอนทำ Data Science ออนไลน์ฟรีในเว็บไซต์ชื่อ CognitiveClass.ai แล้วเค้าต้องการให้คนเรียนสามารถเรียนแล้วลองทำไปพร้อมกันได้ง่าย ๆ ก็เลยเปิดระบบนี้ขึ้นมาให้ใช้กันเลย
ส่วนเรื่องสเปคของ Data Science Workbench ไม่ต้องกลัวว่าจะช้า เพราะเค้าให้แรมถึง 16GB ซึ่งเยอะกว่า RAM Laptop ทั่วไปเสียอีก
ฟีเจอร์เด็ด ๆ ของ Data Scientist Workbench
ถ้าอ่านคร่าว ๆ หลายคนอาจจะยังรู้สึกว่าธรรมดา ๆ ลงเองในเครื่องก็ได้ไม่ยาก (ถ้าคอมตัวเอง RAM 16GB+ อยู่แล้ว) เดี๋ยวเราลองมาดูฟีเจอร์อื่น ๆ ที่แอดมินรู้สึกว้าวมาก จนต้องมาเขียนบลอคแนะนำกันครับ
อัพโหลดไฟล์ Jupyter Notebook และไฟล์ข้อมูลได้
DSWB (Data Scientist Workbench) มีส่วนที่ชื่อว่า “My Data” ส่วนนี้เราสามารถอัพโหลดไฟล์ Jupyter Notebook ที่เราทำไว้แล้ว หรือโหลดมา เข้าไปในระบบเพื่อใช้งานต่อได้ ซึ่งดีมาก ๆ ในกรณีที่เครื่องเรารันไม่ไหว หรือไม่มี Component บางอย่างที่ต้องใช้ ก็โยนใส่ DSWB ไปรันบนนั้นได้เลย
ส่วนถ้าเรามีไฟล์ข้อมูล ไม่ว่าจะนามสกุล txt, csv หรืออื่น ๆ ก็สามารถอัพโหลดขึ้นไป แล้วเรียกจาก Jupyter Notebook ได้เลย ระบบเค้าเชื่อมกันหมด เหมือนกับรันอยู่ในเครื่องตัวเอง
อย่างไรก็ตาม ถ้าข้อมูลเราเป็นข้อมูลที่มีความลับทางธุรกิจก็ต้องระวังนิดนึงครับ เพราะอาจจะผิดกฏหมายได้ถ้าอัพขึ้นระบบออนไลน์ ระบบนี้จะเหมาะกับคนที่ศึกษา Data Science และใช้ข้อมูลที่เป็น Public มากกว่าครับ
ประหยัดเวลาติดตั้งเองไปได้หลายชั่วโมง และเปิดได้จากทุกที่
จากปกติติดตั้งเองต้องใช้เวลาหลายชั่วโมง (หาข้อมูลด้วยการ Google ไปเรื่อย ๆ + หาวิธีแก้ปัญหาจาก Stackoverflow) แถมถ้าพังเผลอ ๆ แก้ไม่ได้ ต้องลบแล้วลงใหม่ทั้งหมด (หลายคนอาจจะไม่เชื่อ แต่แอดมินผ่านมาแล้วตอน R ใน Notebook ไม่รัน T_T)
ระบบนี้ติดตั้งทุกอย่างมาให้หมดแล้ว เปิดแล้วใช้งานได้ทันที ชีวิตดีสุด ๆ แถมทุกอย่างอยู่บนออนไลน์ คอมเราไม่ต้องแรง ขอแค่มีอินเตอร์เน็ต และรัน Google Chrome ได้ก็พอ
เซิร์ฟเวอร์ตั้งอยู่ทั่วโลก
[ อัพเดทปี 2019 : ตอนนี้ไม่มีให้เลือก Preferred Data Center แล้วครับ T_T หวังว่ามันจะเลือก Data Center ที่ใกล้ที่สุดให้เราอัตโนมัติ ]
ตอนที่ผมใช้ DSWB แรก ๆ รู้สึกว่ามันช้าครับ พอไปคุยกับเพื่อนเค้าก็แนะนำมาว่าใช้ไปเลือก Data Center ให้ใกล้เราที่สุด (ตอนแรกจะเลือกที่ Canada มาให้ ซึ่งไกลโพ้นมาก) หลังจากเลือกเป็นของ Hong Kong แล้วก็พบว่ามันเร็วมาก ๆ
เพราะฉะนั้นใครสมัครไปใช้ DSWB อย่าลืมเข้าหน้า Profile ตัวเอง (อยู่มุมบนขวา) แล้วกดเลือก Data Center ให้เป็น Hong Kong ก่อนนะครับ
ตอนเราไม่ใช้ ระบบก็ปิดให้อัตโนมัติ
อันนี้เป็นข้อเสียมากกว่าฟีเจอร์ แต่ก็เข้าใจได้เพราะว่าระบบเค้าให้บริการฟรีครับ จะมาเปิดให้ทุกคนมารันโค้ดตลอด 24 ชั่วโมงก็ล่มพอดี เพราะฉะนั้นถ้าช่วงไหนเราไม่ใช้ เค้าก็จะปิดระบบส่วนของเราไปโดยอัตโนมัติ พอเรากลับมาใช้ เค้าก็จะเปิดระบบส่วนของเราให้ใหม่อีกรอบ ขั้นตอนนี้ใช้เวลา 2-3 นาทีครับ
อันนี้น่าจะเป็นเรื่องเดียวที่ DSWB แพ้ระบบในเครื่อง ระบบในเครื่องนี่เราอยากเปิดตอนไหนก็เปิด อยากปิดตอนไหนก็ปิด
วิธีการสมัครใช้งาน Data Science Workbench
ท่านสามารถสมัครใช้งาน Data Science Workbench ได้ฟรี จากเว็บไซต์ Cognitive Class Labs เลยครับ
ตอนสมัครเราสามารถเลือก Preferred Data Center ได้เลยนะครับ อันนี้อย่าลืมเลือกเป็น “Hong Kong” ครับ เพราะใกล้ไทยเรามากที่สุด
พอล็อกอินเข้าไปแล้วจะเจอหน้าตาแบบนี้
- ถ้าต้องการใช้ Python คลิกปุ่ม JupyterLab
- ถ้าต้องการใช้ Scala คลิกปุ่ม Zeppelin Notebook
- ถ้าต้องการใช้ R คลิกปุ่ม RStudio IDE
พอคลิกแล้วรอสักครู่ครับ หรือบางครั้งถ้าหน้าเว็บค้างไปประมาณ 2-3 นาที เราก็รีเฟรชได้ครับ ตัวอย่างเช่น แอดคลิกปุ่ม RStudio IDE รอประมาณ 2-3 นาที ก็จะได้หน้าตาแบบนี้ออกมา
สรุปการใช้งาน Data Science Workbench
ส่วนตัวชอบมาก ๆ ครับ สำหรับคนเรียน Data Science แล้ว อันนี้เป็นเครื่องมือที่ Perfect มาก ๆ ส่วนท่านที่ยังตัดสินใจอยู่ว่าจะใช้ดีมั้ย ผมจะสรุปข้อดี ข้อเสียให้ดังนี้ครับ
ข้อดี:
- ใช้งานฟรี
- ประหยัดเวลาในการติดตั้งลงเครื่อง
- สเปคเครื่องเราไม่ต้องแรง
- เร็วดี เพราะ Data Center อยู่ในเอเชีย
ข้อเสีย:
- เหมาะกับคนกำลังที่เรียนรู้เท่านั้น ไม่เหมาะกับการใช้ในโปรเจคจริง เพราะ Data ที่อัพโหลดขึ้นไปจะมีความเสี่ยงการโดนขโมย
- จากข้อข้างบน แนะนำให้อ่าน License ก่อนใช้ ถ้าเราจะทำอะไรเสี่ยง ๆ
- เป็นระบบฟรี ไม่มีโมเดลรายได้แน่นอน เพราะฉะนั้นอนาคตเค้าอาจจะเลิกทำตอนไหนก็ไม่มีใครรู้ ควร Backup ไฟล์ไว้ในเครื่องด้วย
หวังว่าบทความนี้จะทำให้ทุกท่านที่กำลังศึกษา Data Science สามารถเรียนกันได้ง่ายมากขึ้น สนุกมากขึ้นครับ :)