แจกฟรี: หนังสือ Introduction to Statistical Learning with Applications in R

คุณเคยสงสัยไหม ว่าทำไมเราทุกคนได้เงินเดือนต่างกัน จากตัวอย่างของผู้ชายในแอทแลนทิก ประเทศอเมริกา ปัจจัยที่ทำให้ทุกคนได้เงินเดือนต่างกันประกอบไปด้วย อายุ, ปีที่ทำงาน และ ระดับการศึกษา

Introduction to Statistical learning with applications in R graph — แจกฟรี: หนังสือ Introduction to Statistical Learning with Applications in R

จากกราฟเราสามารถบอกได้ว่าเงินเดือนเพิ่มขึ้นตามอายุ แต่ค่อยๆลดลงตอนอายุมากขึ้น, ยิ่งทำงานไปหลายๆปี เงินเดือนก็ค่อยๆเพิ่มทีละเล็กทีละน้อย ดูได้จากเส้นที่เฉียงขึ้น และระดับเงินเดือนก็เพิ่มขึ้นตามระดับการศึกษาด้วยเช่นกัน. ปัจจัยพวกนี้ เราสามารถใช้ในการทำนายระดับของเงินเดือนได้โดยประมาณ. ว่าแต่ ทำได้โดยวิธีไหนกันละ? คำตอบอยู่ในหนังสือเล่มนี้เลย!

Statistics with R

หนังสือเล่มนี้สอนพื้นฐานในการสร้าง Model แบบง่ายๆไปจนถึง Machine Learning โดยใช้ R พร้อมด้วยตัวอย่างและแบบฝึกหัดท้ายบท สำหรับคนที่ไม่เคยใช้ R มาก่อน ก็ไม่ต้องตกใจไป เพราะหนังสือเล่มนี้มีปูพื้นฐาน R ฉบับสั้นให้ด้วยค่า.

Statistical Learning แปลเป็นไทยง่ายๆก็คือ กลุ่มเครื่องมือที่ใช้ในการทำความเข้าใจ Data สามารถแบ่งออกเป็นสองกลุ่มใหญ่ๆด้วยกันคือ Supervised และ Unsupervised.

Supervised Statistical Learning คือการสร้าง Model เพื่อใช้ในการทำนาย ผลลัพธ์ (output) จาก ข้อมูลที่เราป้อนเข้าไป (input) วิธีนี้สามารถนำไปใช้ได้ในหลายๆด้าน ทั้งด้านธุรกิจ การแพทย์ ดาราศาสตร์.

ส่วน Unsupervised Statistical Learning นั้นจะเน้นการเรียนรู้ความสำพันธ์ และลักษณะของ Data จากข้อมูลที่เราป้อนเข้าไป มากกว่า.

สารบัญเนื้อหา hide

1 หนังสือสถิติเล่มนี้สอนด้านไหนบ้าง

2 ดาวน์โหลดหนังสือสถิติฟรีได้ที่ไหน

หนังสือสถิติเล่มนี้สอนด้านไหนบ้าง

หนังสือเล่มนี้แบ่งออกเป็นบทย่อยๆทั้งหมด 10 บท

บทแรก Introduction จะพูดถึงภาพรวม ที่มาที่ไปย่อๆของ statistical learning พร้อมตัวอย่างประกอบ

บทที่สอง อธิบายความหมายของ Statistical Learning พร้อมจุดประสงค์หลักในการสร้างฟังค์ชั่น นั่นก็คือ การทำนาย (prediction) และ การอนุมาน (inference). นอกจากนี้ ยังอธิบายเรื่องชนิดของโมเดล, Trade-Off ระหว่างความแม่นยำของโมเดล (accuracy) กับ ระดับความง่ายในการอธิบายโมเดล (interpretability) และ การประเมินความแม่นยำของโมเดลอีกด้วย

บทที่สาม อธิบายถึง Simple Linear Regression, Multiple Linear Regression, การประมาณสัมประสิทธิ์, การหาค่าความแม่นยำของสัมประสิทธิ์ และความแม่นยำของโมเดล รวมถึงเปรียบเทียบ Linear Regression โมเดลกับ K-Nearest Neighbors.

บทที่สี่ อธิบายว่าทำไมข้อมูลบางประเภทใช้ไม่ได้ดีกับ Linear Regression แต่สามารถใช้ได้ดีในการ Classificationแทน ตัวอย่างของโมเดลประเภทนี้เช่น Logistic Regression และ Linear Discriminant Analysis ก็ถูกอธิบายไว้ในบทนี้ด้วยค่า ตบท้ายด้วยการเปรียบเทียบโมเดลต่างๆ

บทที่ห้า อธิบายเรื่องการสุ่มตัวอย่างเพื่อหาข้อมูลเพิ่มเติมโดย Resampling ประกอบไปด้วยสองวิธีหลัก คือ Validation Set Approach และ Bootstrap สามารถนำไปต่อยอดในการเลือกโมเดล (model selection) และประเมินประสิทธิภาพของโมเดล (model assessment) ซึ่งเป็นกระบวนการที่สำคัญมาก

Kmean — K-Means Algorithm

บทที่หก อธิบายถึงวิธีการเลือกตัวแปรใน Linear โมเดล ซึ่งปกติในการทำนายสิ่งนึง จะมีหลายปัจจัยเข้ามาเกี่ยวข้อง แล้วปัจจัยไหนละที่ใช้ในโมเดลแล้วได้ผลดีสุด อีกวิธีนึงที่ใช้ในการเลือกตัวแปรก็คือ Regularization โดยเป็นการดึงให้สัมประสิทธิหน้าตัวแปรเป็นศูนย์

บทที่เจ็ด ยังคงคอนเซ็ปต์ Linear โดยที่ไม่ยึดกับสมมติฐานมากนัก เช่น polynomial regression เพิ่มตัวแปรยกกำลังสอง กำลังสามเข้าไปในสมการ, step functions ตัดค่าของตัวแปรเป็นช่วงๆ แล้วให้สัมประสิทธิที่แตกต่างกัน นอกจากนั้นยังมีรูปแบบอื่นๆ เช่น splines, local regression, and generalized additive models

บทที่แปด อธิบายเรื่อง Decision Tree ตั้งแต่เบสิคไปจนถึงเทคนิคแบบแอดวานซ์ เช่น Bagging, Random Forests และ Boosting ซึ่งประกอบไปด้วยต้นไม้หลายต้นรวมกัน สามารถเพิ่มความแม่นยำของโมเดลได้

บทที่เก้า พูดถึงเรื่อง ความแตกต่างระหว่าง Maximal Margin Classifier, Support Vector Classifiers และ Support Vector Machines ซึ่งคนส่วนมากชอบเหมารวมกันว่า Support Vector Machines

บทที่สิบ เน้น Unsupervised Learning เริ่มจาก Principal Components Analysis ซึ่งสามารถชี้ได้ว่าตัวแปรตัวไหนสำคัญและ Clustering Methods ในนี้นำเสนอมาสองวิธีหลักๆที่ใช้กันบ่อย นั่นก็คือ K-Means และ Hierarchical

ดาวน์โหลดหนังสือสถิติฟรีได้ที่ไหน

ใครที่พร้อมสำหรับการเดินทางครั้งนี้แล้ว กดโหลดหนังสือเล่มนี้ได้เลยค่า สำหรับใครที่ไม่ชอบอ่านมาก แต่ชอบเรียนรู้จากวีดิโอแทนก็สามารถทำได้ ด้านล่างเป็นตัวอย่างในบทแรกของหนังสือ หรือกดดูตามบทได้ตาม Playlist นี้เลย

Introduction to statistical learning

สุดท้ายนี้ถ้าใครมีคำถามหรือข้อสงสัย แนะนำให้ลองอ่านบทความอื่นๆในเว็บ DataTH ของเราเพิ่มเติม หรือเข้ามาคุยกันในเพจ Facebook เพจ DataTH ได้เลยค่า เรามีบทความอัพเดทให้เสมอๆ แล้วเจอกันนะคะ

หมวดหมู่: Data Science, Free Courses & Books, Reading List
แท็ก: R, Statistics, สถิติ, หนังสือฟรี

บทความอื่น ๆ ที่เกี่ยวข้อง

data science skills analyst engineer

สรุป 3 ขั้นตอนสู่งาน Data Science

free course data science udacity

คอร์สวีดิโอฟรี Intro to Data Science โดย Udacity

communication data science

“การสื่อสาร” อีกสกิลที่สำคัญมาก ๆ สำหรับการทำงาน

data career guide cover

จบไม่ตรงสาย อยากย้ายสายมาทำงานด้าน Data ได้มั้ย? เริ่มต้นยังไงดี

data engineering problem

ถ้าบริษัทในปัจจุบันไม่มีทีม Data Engineer จะเจอปัญหาอะไรบ้าง

Meow

Data Engineer ที่ออสเตรเลีย มีความสนใจด้าน Healthcare/Insurance อย่างมาก ชอบตัวเลข Stat Machine learning การสร้างโมเดลทำนายผลและวิเคราะห์ข้อมูลให้ทำประโยชน์ได้จริง

บทความอื่น ๆ จากผู้เขียน