คุณเคยสงสัยไหม ว่าทำไมเราทุกคนได้เงินเดือนต่างกัน จากตัวอย่างของผู้ชายในแอทแลนทิก ประเทศอเมริกา ปัจจัยที่ทำให้ทุกคนได้เงินเดือนต่างกันประกอบไปด้วย อายุ, ปีที่ทำงาน และ ระดับการศึกษา
จากกราฟเราสามารถบอกได้ว่าเงินเดือนเพิ่มขึ้นตามอายุ แต่ค่อยๆลดลงตอนอายุมากขึ้น, ยิ่งทำงานไปหลายๆปี เงินเดือนก็ค่อยๆเพิ่มทีละเล็กทีละน้อย ดูได้จากเส้นที่เฉียงขึ้น และระดับเงินเดือนก็เพิ่มขึ้นตามระดับการศึกษาด้วยเช่นกัน. ปัจจัยพวกนี้ เราสามารถใช้ในการทำนายระดับของเงินเดือนได้โดยประมาณ. ว่าแต่ ทำได้โดยวิธีไหนกันละ? คำตอบอยู่ในหนังสือเล่มนี้เลย!
หนังสือเล่มนี้สอนพื้นฐานในการสร้าง Model แบบง่ายๆไปจนถึง Machine Learning โดยใช้ R พร้อมด้วยตัวอย่างและแบบฝึกหัดท้ายบท สำหรับคนที่ไม่เคยใช้ R มาก่อน ก็ไม่ต้องตกใจไป เพราะหนังสือเล่มนี้มีปูพื้นฐาน R ฉบับสั้นให้ด้วยค่า.
Statistical Learning แปลเป็นไทยง่ายๆก็คือ กลุ่มเครื่องมือที่ใช้ในการทำความเข้าใจ Data สามารถแบ่งออกเป็นสองกลุ่มใหญ่ๆด้วยกันคือ Supervised และ Unsupervised.
Supervised Statistical Learning คือการสร้าง Model เพื่อใช้ในการทำนาย ผลลัพธ์ (output) จาก ข้อมูลที่เราป้อนเข้าไป (input) วิธีนี้สามารถนำไปใช้ได้ในหลายๆด้าน ทั้งด้านธุรกิจ การแพทย์ ดาราศาสตร์.
ส่วน Unsupervised Statistical Learning นั้นจะเน้นการเรียนรู้ความสำพันธ์ และลักษณะของ Data จากข้อมูลที่เราป้อนเข้าไป มากกว่า.
หนังสือสถิติเล่มนี้สอนด้านไหนบ้าง
หนังสือเล่มนี้แบ่งออกเป็นบทย่อยๆทั้งหมด 10 บท
- บทแรก Introduction จะพูดถึงภาพรวม ที่มาที่ไปย่อๆของ statistical learning พร้อมตัวอย่างประกอบ
- บทที่สอง อธิบายความหมายของ Statistical Learning พร้อมจุดประสงค์หลักในการสร้างฟังค์ชั่น นั่นก็คือ การทำนาย (prediction) และ การอนุมาน (inference). นอกจากนี้ ยังอธิบายเรื่องชนิดของโมเดล, Trade-Off ระหว่างความแม่นยำของโมเดล (accuracy) กับ ระดับความง่ายในการอธิบายโมเดล (interpretability) และ การประเมินความแม่นยำของโมเดลอีกด้วย
- บทที่สาม อธิบายถึง Simple Linear Regression, Multiple Linear Regression, การประมาณสัมประสิทธิ์, การหาค่าความแม่นยำของสัมประสิทธิ์ และความแม่นยำของโมเดล รวมถึงเปรียบเทียบ Linear Regression โมเดลกับ K-Nearest Neighbors.
- บทที่สี่ อธิบายว่าทำไมข้อมูลบางประเภทใช้ไม่ได้ดีกับ Linear Regression แต่สามารถใช้ได้ดีในการ Classificationแทน ตัวอย่างของโมเดลประเภทนี้เช่น Logistic Regression และ Linear Discriminant Analysis ก็ถูกอธิบายไว้ในบทนี้ด้วยค่า ตบท้ายด้วยการเปรียบเทียบโมเดลต่างๆ
- บทที่ห้า อธิบายเรื่องการสุ่มตัวอย่างเพื่อหาข้อมูลเพิ่มเติมโดย Resampling ประกอบไปด้วยสองวิธีหลัก คือ Validation Set Approach และ Bootstrap สามารถนำไปต่อยอดในการเลือกโมเดล (model selection) และประเมินประสิทธิภาพของโมเดล (model assessment) ซึ่งเป็นกระบวนการที่สำคัญมาก
- บทที่หก อธิบายถึงวิธีการเลือกตัวแปรใน Linear โมเดล ซึ่งปกติในการทำนายสิ่งนึง จะมีหลายปัจจัยเข้ามาเกี่ยวข้อง แล้วปัจจัยไหนละที่ใช้ในโมเดลแล้วได้ผลดีสุด อีกวิธีนึงที่ใช้ในการเลือกตัวแปรก็คือ Regularization โดยเป็นการดึงให้สัมประสิทธิหน้าตัวแปรเป็นศูนย์
- บทที่เจ็ด ยังคงคอนเซ็ปต์ Linear โดยที่ไม่ยึดกับสมมติฐานมากนัก เช่น polynomial regression เพิ่มตัวแปรยกกำลังสอง กำลังสามเข้าไปในสมการ, step functions ตัดค่าของตัวแปรเป็นช่วงๆ แล้วให้สัมประสิทธิที่แตกต่างกัน นอกจากนั้นยังมีรูปแบบอื่นๆ เช่น splines, local regression, and generalized additive models
- บทที่แปด อธิบายเรื่อง Decision Tree ตั้งแต่เบสิคไปจนถึงเทคนิคแบบแอดวานซ์ เช่น Bagging, Random Forests และ Boosting ซึ่งประกอบไปด้วยต้นไม้หลายต้นรวมกัน สามารถเพิ่มความแม่นยำของโมเดลได้
- บทที่เก้า พูดถึงเรื่อง ความแตกต่างระหว่าง Maximal Margin Classifier, Support Vector Classifiers และ Support Vector Machines ซึ่งคนส่วนมากชอบเหมารวมกันว่า Support Vector Machines
- บทที่สิบ เน้น Unsupervised Learning เริ่มจาก Principal Components Analysis ซึ่งสามารถชี้ได้ว่าตัวแปรตัวไหนสำคัญและ Clustering Methods ในนี้นำเสนอมาสองวิธีหลักๆที่ใช้กันบ่อย นั่นก็คือ K-Means และ Hierarchical
ดาวน์โหลดหนังสือสถิติฟรีได้ที่ไหน
ใครที่พร้อมสำหรับการเดินทางครั้งนี้แล้ว กดโหลดหนังสือเล่มนี้ได้เลยค่า สำหรับใครที่ไม่ชอบอ่านมาก แต่ชอบเรียนรู้จากวีดิโอแทนก็สามารถทำได้ ด้านล่างเป็นตัวอย่างในบทแรกของหนังสือ หรือกดดูตามบทได้ตาม Playlist นี้เลย
สุดท้ายนี้ถ้าใครมีคำถามหรือข้อสงสัย แนะนำให้ลองอ่านบทความอื่นๆในเว็บ DataTH ของเราเพิ่มเติม หรือเข้ามาคุยกันในเพจ Facebook เพจ DataTH ได้เลยค่า เรามีบทความอัพเดทให้เสมอๆ แล้วเจอกันนะคะ