แนะนำของฟรี สำหรับคนหัดเขียน Python & R เพื่อทำ Data Science

Share on facebook
Share on twitter
Share on linkedin

หลังจากที่ศึกษา Data Science อย่างจริงจังมาปีกว่า ๆ และสังเกตจากคนอื่น ๆ ที่เรียนมาพร้อม ๆ กัน ปัญหาใหญ่อย่างหนึ่งที่ผมพบว่าเราเสียเวลาไปมาก คือ “การติดตั้งระบบสำหรับทำ Data Science” ในคอมพิวเตอร์ส่วนตัว ครับ

ปัญหาของการติดตั้งระบบทำ Data Science ในเครื่อง

ระบบที่ว่านี้ คือ เครื่องมือพื้นฐานสำหรับเริ่มเรียน เช่น Jupyter Notebook ที่ปกติถ้าเราลง Python เวอร์ชั่นเดียวก็ง่าย ๆ ใช้ Anaconda ได้เลย แต่พอเราพยายามจะลง Python ทั้งเวอร์ชั่น 2 และ 3 จะเริ่มยากขึ้นมานิดนึง แล้วพอเราจะลง R ใน Notebook ด้วย ก็จะยากขึ้นมาอีก

แค่นั้นยังไม่พอ ไม่นานมานี้ผมพบว่าการจะลง Spark ใน Notebook ต้องโหลดไฟล์ขนาด 200+ MB มาในเครื่อง แล้วทำตามขั้นตอนในการติดตั้งอีกเป็นชั่วโมง

สาเหตุหลัก ๆ ที่ทำให้การติดตั้งมันยาก คือ:

  1. ระบบปฏิบัติการในคอม (Operating System) แต่ละคนไม่เหมือนกัน – วิธีการติดตั้งใน Windows, Mac OS, Linux ก็อาจจะต้องใช้คนละวิธีกัน (เคยไปพยายามลง R ใน Notebook ในเครื่อง Windows เพื่อน ก็ต้องใช้วิธีที่แตกต่างจาก Mac นิดหน่อย)
  2. สเปคคอมก็มีผล เพราะงานด้านข้อมูลใช้พลังประมวลผลหนักมาก – ครื่องมือบางตัวต้องใช้ RAM เยอะในการรัน (เช่น Hortonworks Sandbox ที่ไว้ทำ Hadoop ต้องใช้ RAM มากกว่า 8 GB ตอนที่ผมเรียน คนเรียนบางคนก็คอมแรงไม่พอ ถึงกับต้องไปซื้อใหม่เลยครับ)

ซึ่งไม่นานมานี้ แอดมินก็ไปเจอทางออกที่ดีมาก ๆ แถมฟรีด้วย เอาไปใช้ตอนเรียน Spark มาเวิร์คมาก เลยเอามาแนะนำกันครับ

Data Scientist Workbench คืออะไร

แนะนำของฟรี สำหรับคนหัดเขียน Python & R เพื่อทำ Data Science 1
รวม Tool ทุกอย่างด้าน Data Science ให้เลือกใช้

Data Scientist Workbench คือ ระบบออนไลน์ของ IBM ที่รวมเครื่องมือต่าง ๆ ด้าน Data Science ให้เราเข้ามาใช้แบบออนไลน์ได้เลย เช่น Jupyter Notebook ที่พูดถึงเมื่อสักครู่ (เซ็ต Python & R ทุกเวอร์ชั่นเรียบร้อย), RStudio เครื่องมือชื่อดังของคนเขียน R, Zeppelin Notebook สำหรับทำ Interactive Visualization และเครื่องมืออื่น ๆ ที่เค้าบอกกำลังจะมาในอนาคต เช่น My Hadoop

ระบบนี้เกิดขึ้นมาจากสาเหตุว่า ทาง IBM สอนทำ Data Science ออนไลน์ฟรีในเว็บไซต์ชื่อ CognitiveClass.ai แล้วเค้าต้องการให้คนเรียนสามารถเรียนแล้วลองทำไปพร้อมกันได้ง่าย ๆ ก็เลยเปิดระบบนี้ขึ้นมาให้ใช้กันเลย

แนะนำของฟรี สำหรับคนหัดเขียน Python & R เพื่อทำ Data Science 2
คอร์สที่ CognitiveClass.ai (ชื่อเก่าคือ Big Data University) เรียนฟรี แถมได้ Certificate ด้วยฮะ

ส่วนเรื่องสเปคของ Data Science Workbench ไม่ต้องกลัวว่าจะช้า เพราะเค้าให้แรมถึง 16GB ซึ่งเยอะกว่า RAM Laptop ทั่วไปเสียอีก

ฟีเจอร์เด็ด ๆ ของ Data Scientist Workbench

ถ้าอ่านคร่าว ๆ หลายคนอาจจะยังรู้สึกว่าธรรมดา ๆ ลงเองในเครื่องก็ได้ไม่ยาก (ถ้าคอมตัวเอง RAM 16GB+ อยู่แล้ว) เดี๋ยวเราลองมาดูฟีเจอร์อื่น ๆ ที่แอดมินรู้สึกว้าวมาก จนต้องมาเขียนบลอคแนะนำกันครับ

อัพโหลดไฟล์ Jupyter Notebook และไฟล์ข้อมูลได้

แนะนำของฟรี สำหรับคนหัดเขียน Python & R เพื่อทำ Data Science 3
อัพโหลดง่ายมาก ๆ แบบ Drag and Drop

DSWB (Data Scientist Workbench) มีส่วนที่ชื่อว่า “My Data” ส่วนนี้เราสามารถอัพโหลดไฟล์ Jupyter Notebook ที่เราทำไว้แล้ว หรือโหลดมา เข้าไปในระบบเพื่อใช้งานต่อได้ ซึ่งดีมาก ๆ ในกรณีที่เครื่องเรารันไม่ไหว หรือไม่มี Component บางอย่างที่ต้องใช้ ก็โยนใส่ DSWB ไปรันบนนั้นได้เลย

ส่วนถ้าเรามีไฟล์ข้อมูล ไม่ว่าจะนามสกุล txt, csv หรืออื่น ๆ ก็สามารถอัพโหลดขึ้นไป แล้วเรียกจาก Jupyter Notebook ได้เลย ระบบเค้าเชื่อมกันหมด เหมือนกับรันอยู่ในเครื่องตัวเอง

อย่างไรก็ตาม ถ้าข้อมูลเราเป็นข้อมูลที่มีความลับทางธุรกิจก็ต้องระวังนิดนึงครับ เพราะอาจจะผิดกฏหมายได้ถ้าอัพขึ้นระบบออนไลน์ ระบบนี้จะเหมาะกับคนที่ศึกษา Data Science และใช้ข้อมูลที่เป็น Public มากกว่าครับ

ประหยัดเวลาติดตั้งเองไปได้หลายชั่วโมง และเปิดได้จากทุกที่

จากปกติติดตั้งเองต้องใช้เวลาหลายชั่วโมง (หาข้อมูลด้วยการ Google ไปเรื่อย ๆ + หาวิธีแก้ปัญหาจาก Stackoverflow) แถมถ้าพังเผลอ ๆ แก้ไม่ได้ ต้องลบแล้วลงใหม่ทั้งหมด (หลายคนอาจจะไม่เชื่อ แต่แอดมินผ่านมาแล้วตอน R ใน Notebook ไม่รัน T_T)

ระบบนี้ติดตั้งทุกอย่างมาให้หมดแล้ว เปิดแล้วใช้งานได้ทันที ชีวิตดีสุด ๆ แถมทุกอย่างอยู่บนออนไลน์ คอมเราไม่ต้องแรง ขอแค่มีอินเตอร์เน็ต และรัน Google Chrome ได้ก็พอ

เซิร์ฟเวอร์ตั้งอยู่ทั่วโลก

แนะนำของฟรี สำหรับคนหัดเขียน Python & R เพื่อทำ Data Science 4
อยู่ใกล้ที่ไหนก็เลือกที่นั่นเลย

ตอนที่ผมใช้ DSWB แรก ๆ รู้สึกว่ามันช้าครับ พอไปคุยกับเพื่อนเค้าก็แนะนำมาว่าใช้ไปเลือก Data Center ให้ใกล้เราที่สุด (ตอนแรกจะเลือกที่ Canada มาให้ ซึ่งไกลโพ้นมาก) หลังจากเลือกเป็นของ Hong Kong แล้วก็พบว่ามันเร็วมาก ๆ

เพราะฉะนั้นใครสมัครไปใช้ DSWB อย่าลืมเข้าหน้า Profile ตัวเอง (อยู่มุมบนขวา) แล้วกดเลือก Data Center ให้เป็น Hong Kong ก่อนนะครับ

ตอนเราไม่ใช้ ระบบก็ปิดให้อัตโนมัติ

แนะนำของฟรี สำหรับคนหัดเขียน Python & R เพื่อทำ Data Science 5
ตอนเปิดระบบขึ้นมาหลังจากไม่ได้ใช้นาน ๆ จะต้องรอประมาณ 2-3 นาที

อันนี้เป็นข้อเสียมากกว่าฟีเจอร์ แต่ก็เข้าใจได้เพราะว่าระบบเค้าให้บริการฟรีครับ จะมาเปิดให้ทุกคนมารันโค้ดตลอด 24 ชั่วโมงก็ล่มพอดี เพราะฉะนั้นถ้าช่วงไหนเราไม่ใช้ เค้าก็จะปิดระบบส่วนของเราไปโดยอัตโนมัติ พอเรากลับมาใช้ เค้าก็จะเปิดระบบส่วนของเราให้ใหม่อีกรอบ ขั้นตอนนี้ใช้เวลา 2-3 นาทีครับ

อันนี้น่าจะเป็นเรื่องเดียวที่ DSWB แพ้ระบบในเครื่อง ระบบในเครื่องนี่เราอยากเปิดตอนไหนก็เปิด อยากปิดตอนไหนก็ปิด

วิธีการสมัครใช้งาน Data Science Workbench

ท่านสามารถสมัครใช้งาน DSWB ได้ฟรี จากเว็บไซต์ DSWB เลยครับ

แนะนำของฟรี สำหรับคนหัดเขียน Python & R เพื่อทำ Data Science 6
คลิกเมนู Sign Up เพื่อสมัครได้เลย

ตอนสมัครเราสามารถเลือก Preferred Data Center ได้เลยนะครับ อันนี้อย่าลืมเลือกเป็น “Hong Kong” ครับ

สรุปการใช้งาน Data Science Workbench

ส่วนตัวชอบมาก ๆ ครับ สำหรับคนเรียน Data Science แล้ว อันนี้เป็นเครื่องมือที่ Perfect มาก ๆ ส่วนท่านที่ยังตัดสินใจอยู่ว่าจะใช้ดีมั้ย ผมจะสรุปข้อดี ข้อเสียให้ดังนี้ครับ

ข้อดี:

  • ใช้งานฟรี
  • ประหยัดเวลาในการติดตั้งลงเครื่อง
  • สเปคเครื่องเราไม่ต้องแรง
  • เร็วดี เพราะ Data Center อยู่ในเอเชีย

ข้อเสีย:

  • เหมาะกับคนกำลังที่เรียนรู้เท่านั้น ไม่เหมาะกับการใช้ในโปรเจคจริง เพราะ Data ที่อัพโหลดขึ้นไปจะมีความเสี่ยงการโดนขโมย
  • จากข้อข้างบน แนะนำให้อ่าน License ก่อนใช้ ถ้าเราจะทำอะไรเสี่ยง ๆ
  • เป็นระบบฟรี ไม่มีโมเดลรายได้แน่นอน เพราะฉะนั้นอนาคตเค้าอาจจะเลิกทำตอนไหนก็ไม่มีใครรู้ ควร Backup ไฟล์ไว้ในเครื่องด้วย

หวังว่าบทความนี้จะทำให้ทุกท่านที่กำลังศึกษา Data Science สามารถเรียนกันได้ง่ายมากขึ้น สนุกมากขึ้นครับ 🙂

Leave a comment

อ่านจบแล้วอยากพูดคุยต่อ? พิมพ์ไว้ตรงนี้ได้เลย แอดมาอ่านทุกอันครับ