มารู้จัก RapidMiner เครื่องมือ Data Science ที่ไม่ต้องเขียนโค้ด กับพี่เอก Data Cube

Share on facebook
Share on twitter
Share on linkedin

เพื่อนๆในวงการ Data Science หลายๆท่านคงจะเคยได้ยินชื่อเพจ Data Cube ซึ่งเพจนี้จะเน้นให้ความรู้ และใช้ Tool อย่าง Rapidminer มาช่วย Crack เพื่อตอบโจทย์ทั้งในธุรกิจและการทำงานในองค์กร

ซึ่งวันก่อน แอดแจนมีโอกาสได้สัมภาษณ์พี่เอก RapidMiner Ambassador ของประเทศไทย เจ้าของเพจ Data Cube บอกได้เลยว่าคอนเท้นท์นี้นอกจากจะได้ความรู้เปิดโลก Rapidminer แล้ว ยังได้ Use case เจ๋งๆ ที่สามารถเอาไปประยุกต์ใช้ได้จริงอีกด้วย 

แอบกระซิบดังๆว่า Rapidminer เหมาะมากๆกับคนที่ไม่อยากเขียนโค้ดให้ยุ่งยาก แต่อยากได้ฟีเจอร์หรือผลลัพธ์เด็ดๆเหมือนเขียนโค้ดเทพเลย ว่าแล้วก็มาคุยกับพี่เอกกันเลยค่าา >< 

บทสัมภาษณ์พี่เอก ผู้เชี่ยวชาญ Rapidminer เครื่องมือ Data Science สุดเจ๋ง ช่วยให้คุณไม่ต้องเขียนเลยโค้ดสักตัว

data mining lab
พี่เอก Rapidminer Anbrassador ผู้ร่วมก่อตั้งเพจ Data Cube

แอดแจน : แนะนำตัวตัวหน่อยค่า ว่าทำอะไรอยู่บ้างตอนนี้

พี่เอก : สวัสดีครับ ชื่อ เอกสิทธิ์ พัชรวงศ์ศักดา เรียกสั้นๆว่าพี่เอก หลักๆก็เป็นอาจารย์ประจำหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big Data Engineering) วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ครับ นอกจากนี้ก็เป็นวิทยากร ที่ปรึกษา ผู้ร่วมก่อตั้งเพจ Data Cube ครับ

แอดแจน : ทำไมพี่เอกถึงเลือกมาทำสายข้อมูลคะ

พี่เอก : จริงๆสมัยก่อนโน้นยังไม่มีคำว่า Data Science หรือ Big Data เลย มีคำที่ใกล้เคียงคือ Knowledge Discovery from very large Database (KDD)

จุดเริ่มต้นเส้นทางเมื่อ 17 ปีก่อน ตอนพี่เรียนอยู่ภาคคอมฯ มเกษตรฯ สมัยนั้นที่ ม.มีการแบ่งห้องปฏิบัติการต่างๆ หนึ่งในนั้นคือห้อง DAKDL (Data Analysis and Knowledge Discovery Lab) พี่สนใจเข้าร่วมห้องนี้ เพราะมันเป็นเรื่องใหม่และพี่คิดว่าการวิเคราะห์ข้อมูลน่าจะมีประโยชน์ในหลายๆ ด้านครับ 

หลังจากเข้าร่วมห้องปฏิบัติการนี้แล้วก็ได้เริ่มรู้จักการวิเคราะห์ข้อมูลด้วย Data Mining จากอาจารย์และพี่ๆ ป.โทหลายๆ ท่านครับ ซึ่งพี่ก็มีความความรู้ส่วนนี้ไปต่อยอดงานวิจัยต่างๆเช่น งานวิจัยทางด้านชีวสารสนเทศ (Bioinformatics)

แอดแจน : สมัยก่อนก็มีอะไรเฟี้ยววแล้ว ! แล้วพี่มาเริ่มทำเพจ Data Cube จากอะไรคะ 

พี่เอก : เพจ Data Cube นี้เปิดตัวมาเกือบ 6 ปีแล้วครับ เริ่มต้นจากที่ผมอยากเผยแพร่การวิเคราะห์ข้อมูลด้วย Data Mining เป็นหลัก (แม้ว่าชื่อจริงๆ ของ data cube คือ data3 หมายถึง database, data warehouse และ data mining ครับ) โดยอยากให้โทนเนื้อหามีความเข้าใจง่าย ซึ่งตอนแรกยังไม่มีเพจที่อธิบายการวิเคราะห์แบบนี้เป็นภาษาไทยมากนัก จึงได้รับความสนใจพอสมควรครับ

แอดแจน : เพจนี้ความรู้แน่นมากจริงๆค่ะ จริงๆเห็นว่าส่วนใหญ่เกี่ยวกับ Rapidminer เกือบหมด ทำไมพี่เอกถึงเลือกใช้ Tools นี้คะ  

พี่เอก : RapidMiner เป็นเครื่องมือทรงพลังที่ใช้งานได้ง่าย เราสามารถวิเคราะห์ข้อมูลได้โดยที่ไม่ต้องเขียน code เลย ทำให้สามารถเอาเวลาคิดเรื่องการเขียนโค้ดไปใช้ในการวิเคราะห์ข้อมูลและแปลผลได้ครับ 

ซึ่งการใช้งาน Rapidminer ก็ง่ายมากครับ เพราะเขาออกแบบ Graphical User Interface (GUI) ดีทำให้เราทำงานได้ชิลชิล เพียง drag & drop 

แอดแจน : น่าสนใจมากพี่ ช่วยอธิบายถึงฟังก์ชั่นหลักๆ ของ Rapidminer เพิ่มหน่อยค่ะ

พี่เอก : ถ้าพูดถึงงานทางด้าน Data Science และ Big Data จริงๆ แล้วไม่ได้มีแค่การสร้างโมเดลหรือวิเคราะห์ข้อมูลเพียงอย่างเดียว แต่ยังมีเรื่องการจัดเตรียมข้อมูล (data preparation) ก่อนสร้างโมเดล และการที่นำผลที่ได้ไป deploy อาจจะเป็นการตั้งเวลาให้ทำงานหรือสร้างเป็น web application ขึ้นมา

ซึ่ง RapidMiner platform สามารถทำทั้งหมดนี้ได้ครับ โดย RapidMiner จะมี 3 โมดูลใหญ่ๆ ตามรูป

rapidminer data science platform modules
RapidMiner platform ประกอบด้วย 3 โมดูลใหญ่ๆ ได้แก่ RapidMiner Studio , RapidMiner Server , RapidMiner Radoop

โมดูลแรก : RapidMiner Studio ใช้สำหรับการออกแบบการวิเคราะห์ข้อมูลผ่านทางหน้า GUI ซึ่งสามารถทำการจัดการข้อมูล และสร้างโมเดลแบบต่างๆ ได้ 

โดยเวอร์ชันใหม่ๆ ก็จะมีเรื่องของการทำ Auto Model ที่จะรันหลายๆ โมเดลให้เราแบบอัตโนมัติครับ ตัวอย่างเช่นในรูปด้านล่าง

rapidminer automodel feature machine learning
Auto Model ฟีเจอร์เด็ดสำหรับทำ Machine Learning แบบรวดเร็ว ใน Rapidminer Studio 8.1

และเพื่อนๆที่สนใจอ่านรายละเอียดการใช้เพิ่มเติมได้ที่ เว็บไซต์ DataMiningTrend

โมดูลสอง : RapidMiner Server เป็นโมดูลที่รองรับการทำงานของหลายๆ user ได้ครับ ช่วยในเรื่องการตั้งเวลาให้ทำงาน (scheduler) หรือสร้าง web service หรือ web application ได้ด้วย

โมดูลสาม : RapidMiner Radoop เป็นโมดูลที่ใช้ในการจัดการข้อมูลที่มีขนาดใหญ่ๆ แบบ Big Data โดยการทำงานจะไปประมวลผลบน Hadoop/Spark แต่ไม่ต้องเขียน code เลยครับ

ถ้าเปรียบเทียบกับ tools อื่น RapidMiner มีทั้ง free license และ commercial license แต่ราคาก็ไม่แพงเท่ากับซอฟต์แวร์ของ SAS หรือ IBM

แอดแจน : ฟังดูน่าสนใจมากๆค่ะ พี่เอกช่วยยก Real Case เจ๋งๆ ที่ใช้ Rapidminer หน่อยค่า

พี่เอก : จริงๆ Rapidminer สามารถทำได้ตัว Data Science ได้หลากหลายมากครับ เช่น 

  • Customer Segmentation เป็นการแบ่งกลุ่มข้อมูลลูกค้าออกเป็นกลุ่มต่างๆ ซึ่งก็จะทำให้บริษัทเข้าใจพฤติกรรมของลูกค้าได้มากขึ้น เช่น ลูกค้ากลุ่มนี้เป็นกลุ่มที่มาใช้บริการบ่อย ใช้จ่ายเยอะ ก็ถือว่าเป็นกลุ่มลูกค้าชั้นดีของบริษัท
  • Demand Forecasting เป็นการคาดการณ์การผลิตสินค้า หรือการเตรียม stock สินค้าแต่ละประเภท ไว้ครับ ซึ่งส่วนใหญ่ก็เป็นลักษณะของ time series ที่ใช้ข้อมูลในอดีตมาคาดการณ์ว่าในอนาคตจะต้องผลิตสินค้าหรือ stock สินค้าแต่ละประเภทเท่าไร
  • Text Mining เป็นการวิเคราะห์ข้อความเพื่อหาทัศนคติ (sentiment) หรือการแบ่งกลุ่มข้อความออกเป็นประเภท (category) ต่างๆ ซึ่งตัว RapidMiner เองสามารถทำงานพวกนี้ได้อยู่แล้วกับข้อความภาษาอังกฤษ แต่ถ้าจะใช้กับข้อมูลภาษาไทยก็อาจจะมีขั้นตอนเพิ่มเล็กน้อยเนื่องจากภาษาไทยเรามีความยากในการตัดคำ (tokenize) จึงต้องใช้โมดูลต่างๆ ของ Python มาช่วย เช่น PyThaiNLP หรือ DeepCut ครับ โดยสามารถเขียน code ภาษา Python เข้าไปในตัว RapidMiner ได้เลย

ตัวอย่าง use case อีกมากมาย ถ้าใครสนใจสามารถเข้าไปดูได้ที่ เว็บไซต์ RapidMiner ครับ

แอดแจน : พี่เอกมองเทรนด์ของงานสายข้อมูล ในประเทศไทยเป็นยังไงบ้างคะ 

พี่เอก : สายงานนี้ได้รับความสนใจและตื่นตัวมากขึ้นกว่าเดิมมากครับ ก่อนหน้านี้การวิเคราะห์ข้อมูลแบบนี้ก็ทำกันอยู่แล้วในบริษัทใหญ่ๆ แต่ตอนนี้ด้วยเทคโนโลยีต่างๆ ก็ทำให้บริษัทขนาดกลางเริ่มที่จะสามารถนำเครื่องมือต่างๆ มาทำการวิเคราะห์ข้อมูลได้มากขึ้นครับ

สำหรับพี่มองแนวทางของการใช้ข้อมูลของสายงานนี้เป็น 2 ส่วนใหญ่ๆ คือ

organization data use idea
แนวทางการใช้ข้อมูลภายในองค์กร แบ่งได้เป็น 2 แบบหลัก ๆ
  • การใช้ข้อมูลภายในองค์กรที่มีอยู่มาทำการวิเคราะห์เพื่อหาประโยชน์ ซึ่งก็เป็นส่วนสำคัญเพราะบริษัทต่างๆ ก็มีข้อมูลเก็บไว้ เช่น ข้อมูลส่วนบุคคล (demographic data) ข้อมูลพฤติกรรมการใช้งาน (behavioral data) มากมาย แต่การนำข้อมูลเหล่านี้มาใช้งานก็ไม่ใช่ว่าจะง่ายเพราะว่าหลายๆ บริษัทมีการเก็บข้อมูลอยู่แล้วแต่ไม่ได้ออกแบบมาเพื่อทำการวิเคราะห์ ดังนั้นการใช้งานแต่ละครั้งก็ต้องมีการจัดเตรียมข้อมูลกันอย่างเยอะ ดังนั้นงานทางด้านการทำ ETL (Extract, Transform, Load) หรือ Data Engineer ก็มีความต้องการมากไม่แพ้งานทางด้าน Data Analyst และ Data Scientist
  • ส่วนของการใช้ข้อมูลภายนอก มาช่วยเติมข้อมูลที่ขาดหายไปในส่วนแรก เช่น การดึงข้อมูลจากเว็บไซต์ social network ข้อมูลที่ได้จะเป็นข้อมูลที่เป็นแบบไร้โครงสร้าง (unstructured data) 

ดังนั้นการวิเคราะห์ข้อมูลพวกข้อความ (text) หรือรูปภาพ (image) จะได้รับความสนใจมากยิ่งขึ้น ซึ่งช่วงนี้เทรนด์ที่กำลังมาคือเรื่องของการวิเคราะห์พวกรูปภาพโดยใช้เทคนิค Deep Learning ซึ่งช่วยทำให้รู้ว่าคนในภาพคือใคร ซึ่งก็ช่วยทำให้ปะติดปะต่อกับข้อมูลพฤติกรรมการใช้งานของลูกค้าได้มากขึ้น

แอดแจน : สำหรับคนที่สนใจงานสายนี้ ต้องเตรียมตัวอะไรบ้างคะ

พี่เอก : ขอแชร์จากประสบการณ์ทำงานที่ผ่านมาละกัน พี่ว่าทำงานสายนี้ต้องมีทั้ง hard skill และ soft skill ครับ

ตัว Hard skill คือต้องมีความรู้ในการจัดการข้อมูล วิเคราะห์ข้อมูล ซึ่งจริงๆแล้วเราไม่จำเป็นต้องใช้เทคนิคที่ advance เลย ถ้าเราทำ visualize data  แล้วตอบโจทย์ได้ก็ถือว่าโอเคแล้วครับ 

พี่มองว่าวัตถุประสงค์ของการทำข้อมูลคือ ‘นำข้อมูลมาใช้ให้เกิดประโยชน์’ ไม่จำเป็นต้องเน้นเทคนิคที่อลังการมาก

Soft skill เป็นอีกเรื่องที่สำคัญ เพราะเมื่อวิเคราะห์ข้อมูลออกมาแล้ว ต้องอธิบายผลการวิเคราะห์ที่ได้ออกมาให้คนอื่นเข้าใจและนำไปใช้ประโยชน์ได้

ถ้าอยากทำงานในสายนี้ควร ‘ฝึกฝน’ บ่อยๆ ครับ การอบรมหรือเรียนก็เป็นส่วนหนึ่งที่ทำให้เราเข้าใจพื้นฐาน 

แต่ในหลายๆ ครั้งเวลาอบรมจะเป็นข้อมูลตัวอย่างที่สมบูรณ์อยู่แล้วทำให้ไม่ต้องไปแก้ไขข้อมูลเยอะ แต่เวลาทำงานจริงข้อมูลไม่ได้มาพร้อมใช้งานแบบนั้นต้องมีการจัดการข้อมูลต่างๆ อีกเยอะเลยครับ 

ดังนั้นการฝึกฝนก็อาจจะใช้ข้อมูลหรือไปร่วมการแข่งขันต่างๆ ที่หลายฝ่ายจัดขึ้น สำหรับตัวข้อมูลอาจจะลองหามาฝึกฝนได้จาก Kaggle หรือ UCI Machine Learning Repository ได้ครับ

แอดแจน : พี่เอกมีอะไรอยากแนะนำเพื่อนๆที่สนใจเริ่มต้นงานด้านนี้ไหมคะ

พี่เอก : วัตถุประสงค์ของการวิเคราะห์ข้อมูลคือการนำมาใช้ให้เกิดประโยชน์ ซึ่งหลักๆ เป็นเรื่องของการเพิ่มยอดขาย หรือการลดต้นทุน ดังนั้นการวิเคราะห์อาจจะไม่ต้องใช้เทคนิคที่สลับซับซ้อนอะไรเลย และ เรื่องของ storytelling ที่จะนำมาแปลความให้คนอื่นเข้าใจได้ก็เป็นเรื่องสำคัญมากๆ ครับ

Rapidminer เป็นอีกหนึ่ง Tools ที่น่าสนใจมากๆเลย เพื่อนๆที่อ่านมาถึงตรงนี้แสดงว่าน่าจะสนใจเรื่องต้นงานสายข้อมูล และอยากทดลองใช้ตัว Rapidminer ดู ซึ่งพี่เอกและเพจ Data Cube ก็มีจัดกิจกรรมเวิร์กชอปออกมาบ่อยๆ ตามไปดูรายละเอียดได้ที่นี่เลยจ้า

คอนเท้นท์นี้เนื้อหาจัดเต็มเรื่อง Rapidminer มากจริงๆ ถ้าใครมีข้อสงสัย คอมเม้นท์ หรืออยากให้เขียนเรื่องอะไรเป็นพิเศษสามารถ Inbox ไปที่เพจ Data Science ชิลชิล ได้เลยค่า 

Leave a comment

อ่านจบแล้วอยากพูดคุยต่อ? พิมพ์ไว้ตรงนี้ได้เลย แอดมาอ่านทุกอันครับ