วิธีการเริ่มหัด Data Science และ Machine Learning แบบรวดเร็วที่สุด ก็หนีไม่พ้นการลองนำข้อมูลจริง ๆ มาลองทำ Data Analysis, ทำ Model, หรือทำ Data Visualization ขึ้นมาเองก่อนครับนอกจากจะได้ฝึกฝีมือไปในตัวแล้ว ยังสามารถใช้เป็นโปรเจคสำหรับใส่ Portfolio / Resume ของตัวเองได้อีกด้วย เรียกได้ว่ามีประโยชน์ 2 ต่อเลยทีเดียวครับ
ปัญหาที่หลาย ๆ คนชอบมาถามแอดบ่อย ๆ คือ “แล้วจะหา Dataset ดี ๆ ได้จากที่ไหน”
วันนี้แอดเลยรวบรวม 5 แหล่งแจก Dataset ดี ๆ ฟรี ๆ มาให้เพื่อน ๆ นำไปใช้งานกันครับ ซึ่งแอดรวบรวมมาจากที่ใช้เรียน ใช้สอน และจาก Podcast ของ Datacamp ที่นั่งฟังเวลาเดินทางด้วย มาดูกันเลยว่ามีที่ไหนแจก Dataset คุณภาพดีกันบ้าง
Dataset เหล่านี้ส่วนใหญ่จะเป็นไฟล์ CSV ที่สามารถนำไปใช้กับภาษาไหนก็ได้ ทั้ง R, Python, JavaScript ฯลฯ ได้เลยครับ
1. UCI Machine Learning Repository
เริ่มจากแหล่งข้อมูลที่หลาย ๆ คนน่าจะรู้จักกันก่อนครับ UCI Machine Learning Repository เป็นแหล่งรวบรวมข้อมูลโดย University of California ซึ่งคอร์สออนไลน์ส่วนใหญ่มักจะนำมาใช้กัน
จุดเด่นของเว็บไซต์ UCI คือ ข้อมูลมีการกรองมาแล้วจากทางผู้ดูแลเว็บไซต์ เพื่อให้เหมาะกับการนำไปใช้ต่อได้ง่าย ๆ แถมยังมีการจัดกลุ่มข้อมูลให้เสร็จสรรพว่าข้อมูลเหมาะกับโจทย์ประเภทไหน (Classification, Regression, Clustering etc.) บอกจำนวนแถว จำนวนคอลัมน์ รวมถึงประเภทของคอลัมน์ให้ด้วย (Categorical, Numerical, Mixed)
ในเว็บไซต์นี้มีชุดข้อมูลชื่อดังหลายตัว ที่คอร์ส Data Science หยิบไปใช้เป็นตัวอย่างกันบ่อย ๆ:
- Iris ข้อมูลดอกไม้จาก 150 ตัวอย่าง แบ่งออกเป็น 3 ประเภท ประเภทละ 50 ตัวอย่าง โดยในชุดข้อมูลจะระบุขนาดกว้างยาวของกลีบของแต่ละตัวอย่างมาให้ เพื่อให้เรานำไปหัดทำ Clustering หรือสร้างโมเดล Supervised Learning ทำนายผลว่าดอกไม้ตัวอย่างนี้เป็นดอกไม้ประเภทไหน
- Wine Quality ข้อมูลคุณภาพไวน์ จาก 4,800 ตัวอย่าง โดยไวน์แต่ละชนิดจะมีค่าต่าง ๆ เช่น ค่ากรด, น้ำตาล, คลอไรด์, pH, แอกฮอล์ ฯลฯ ที่ไม่เท่ากัน สามารถนำมา Visualize, Explore ข้อมูล, หรือสร้างโมเดลทำนายคุณภาพไวน์ได้ (คุณภาพไวน์เป็นคะแนนตั้งแต่ 1-10)
2. Data World
เว็บไซต์ Data World นี้เรียกได้ว่าเป็น Social Media สำหรับแชร์ชุดข้อมูลจากทั่วโลกเลยครับ สมาชิกสามารถแชร์ไฟล์ข้อมูลกันได้ รวมถึง Bookmark หรือ Commentชุดข้อมูลของสมาชิกคนอื่น ๆ และถ้าสนใจสมาชิกหรือหัวข้อไหนเป็นพิเศษก็สามารถ Follow ได้อีกด้วย
จุดเด่นของเว็บไซต์ Data World นี้ คือ ชุดข้อมูลมีความหลากหลาย ตั้งแต่ ข้อมูลเพลงฮิตใน Billboard ปี 1958 – 2017 ไปจนถึง ข้อมูล FIFA World Cup 2018 และยังนำไปใช้งานได้ง่าย เพราะเค้าเชื่อมต่อกับทั้งใน Python, R, PowerBI, Tableau ฯลฯ
ฟีเจอร์อำนวยความสะดวกสำหรับทำ Data Science ก็มีมาให้เต็มที่ เราสามารถโหลดไฟล์ข้อมูล (JSON หรือ CSV) ออกมาใช้งานได้ หรือจะลองรัน Query เป็น SQL ก็ได้ พลอตกราฟบนเว็บเลยก็ยังได้ แถมทำกราฟเสร็จแชร์ลิงค์ให้เพื่อนเข้ามาดูได้ แอดรู้สึกประทับใจมาก ๆ ในความใส่ใจรายละเอียดของทีมงานเว็บไซต์นี้
3. Subreddit /Datasets
เว็บไซต์ Reddit เปรียบได้กับ Pantip ของไทยนี่เอง เป็นเว็บไซต์สังคมคุณภาพที่แบ่งเป็นห้อง ๆ ให้คนมาตั้งกระทู้พูดคุยกันได้ แต่อิสระกว่าตรงที่สมาชิกสามารถเปิดห้องใหม่เองได้ ซึ่งก็มีห้องหนึ่งที่เกิดขึ้นมาแชร์ชุดข้อมูลโดยเฉพาะ ชื่อว่า R/Datasets ครับ
ข้อดีของ Reddit ที่แตกต่างจากเว็บไซต์อื่น ๆ คือ นอกจากจะแชร์ชุดข้อมูลที่น่าสนใจไว้แล้ว จะมีคนมาแชร์ข่าวสารเวลามีองค์กรดัง ๆ ปล่อยข้อมูล เช่น ข้อมูลของ FBI หรือ ข้อมูลรถไร้คนขับของ UC Berkeley และยังสามารถถาม – ตอบคำถามต่าง ๆ หรือตั้งกระทู้ Request ขอไฟล์ข้อมูลประเภทที่เราต้องการได้ด้วย
หากต้องการเสิร์จหาชุดข้อมูลที่ต้องการ ก็สามารถใช้ระบบค้นหาบนเว็บ Reddit ได้ทันที แต่จะไม่มีการจัดเป็นกลุ่มให้เลือกง่าย ๆ หรือแสดงจำนวนแถว, คอลัมน์ แบบเว็บไซต์ Data World ที่แนะนำกันไปก่อนหน้านี้
4. Kaggle Datasets
ตอนนี้ Kaggle กลายเป็นเว็บศูนย์รวมแทบทุกอย่างที่ทุกคนที่ศึกษาด้าน Data Science ต้องใช้ ซึ่งล่าสุดได้เปิดตัวโซนใหม่ในเว็บไซต์ ชื่อ Kaggle Datasets
ระบบของเว็บไซต์ Kaggle Datasets คล้ายกับเอา Data World มารวมกับ Reddit ครับ คือ มีระบบ Upvote ให้กดไลค์ข้อมูลชื่นชอบได้ และมีการแบ่งข้อมูลเป็นหมวดหมู่ชัดเจน สามารถตั้งกระทู้พูดคุยเกี่ยวกับชุดข้อมูลแต่ละตัวได้
จุดเด่นของ Kaggle Datasets ที่ไม่มีเว็บไซต์ไหนทำตามได้ง่าย ๆ คือ ระบบ Kernel ที่ให้สมาชิกสามารถนำไฟล์ข้อมูลไปเขียนโค้ด Python แล้วแชร์กับคนอื่น ๆ ได้ทันที ให้สมาชิกคนอื่นมาโหวตหรือคอมเม้นท์ได้ เหมือนเป็น Jupyter Notebook แบบออนไลน์เลยครับ
เมื่ออาทิตย์ที่แล้วแอดเพิ่งฟังบทสัมภาษณ์เจ้าของ Kaggle ที่พูดถึงการรวมตัวกับ Google จาก Podcast ของ DataCamp ซึ่งเรื่องน่าสนใจเยอะมากเกี่ยวกับ Kaggle เช่น การเชื่อมต่อกันของ Kaggle กับ BigQuery หรือ Kaggle Kernel กำลังจะนำ GPU ของ Google มาให้เราใช้ในเว็บไซต์ได้เลย เดี๋ยวถ้ามีคนสนใจแอดอาจจะสรุปมาให้อ่านกันเป็นอีกบทความครับ
5. R Package – DSLabs
สุดท้ายมารู้จักกับของใหม่ล่าสุด เป็นแพ็กเกจ R ชื่อ DSLabs ที่ทำขึ้นมาโดยคุณ Rafael Irizarry ซึ่งเป็นอาจารย์สอนด้าน Data Science ที่มหาวิทยาลัย Harvard
จุดเริ่มต้นของ Package นี้ คือ คุณ Rafael ต้องการชุดข้อมูลสำหรับใช้สอนนักศึกษา ซึ่งถ้าใช้แต่ชุดข้อมูลที่ทุกคนใช้กันทั่วไปแบบ Iris หรือ Mtcars ก็จะเจอกับข้อมูลที่สร้างขึ้นมาให้สะอาด ๆ สำหรับทำ Machine Learning โดยเฉพาะ ทำให้นักศึกษาไม่ได้ฝึกเจอปัญหาจากข้อมูลจริง
แพ็กเกจ DSLabs มีชุดข้อมูลประมาณ 11 ชุด ให้คนสอน Data Science เอาไปใช้สอนนักเรียนกันได้ สามารถสอนได้ทั้งการวิเคราะห์ข้อมูล (Data Analysis) และการทำ Data Visualization เลยทีเดียว
แหล่งหาข้อมูลยังไม่หมดเท่านี้
ที่แอดแนะนำไปข้างบน เป็นแหล่งรวมชุดข้อมูลที่มีข้อมูลหลากหลายด้านครับ แต่ถ้าเน้นเจาะจงข้อมูลสำหรับบางประเทศ หรือบางเมืองเป็นพิเศษ เราก็สามารถไปหาจากเว็บรวบรวมข้อมูลของแต่ละสถานที่ได้ด้วย เช่น เว็บรวมข้อมูลของประเทศอังกฤษ หรือ เว็บรวมข้อมูลของประเทศสหรัฐอเมริกา
และถ้าท่านใดรู้จักแหล่งโหลดข้อมูลอื่น ๆ สามารถคอมเม้นท์บอกแอดมินได้เลยนะครับ หรือมาพูดคุยกันในเพจ Data Science ชิลชิล ได้เช่นเดิมเลยครับ