1. Linear Regression – Hồi quy tuyến tính
Hồi quy tuyến tính có lẽ là một trong những thuật toán nổi tiếng nhất và được hiểu rõ nhất trong thống kê và machine learning.
Mô hình tiên đoán chủ yếu quan tâm đến việc giảm thiểu sai sót của mô hình hoặc đưa ra các dự đoán chính xác nhất có thể, với một chi phí giải trình. Chúng tôi sẽ mượn, sử dụng lại và lấy các thuật toán từ nhiều lĩnh vực khác nhau, bao gồm số liệu thống kê và sử dụng chúng cho những mục đích này.
Biểu diễn hồi quy tuyến tính là một phương trình mô tả một đường thẳng mô tả phù hợp nhất mối quan hệ giữa các biến đầu vào (x) và các biến đầu ra (y), bằng cách tìm các trọng số cụ thể cho các biến đầu vào được gọi là các hệ số (B).
Chúng ta sẽ dự đoán y với biến x cho trước và mục tiêu của thuật toán hồi quy tuyến tính là tìm các giá trị cho các hệ số B0 và B1.
Các kĩ thuật khác nhau có thể được sử dụng để tìm mô hình hồi quy tuyến tính từ dữ liệu, chẳng hạn như một giải pháp đại số tuyến tính cho Ordinary least square và việc tối ưu hóa Gradient descent.
Hồi quy tuyến tính đã được phát minh khoảng hơn 200 năm và đã được nghiên cứu rộng rãi. Một số quy tắc tốt khi sử dụng kĩ thuật này là loại bỏ các biến tương tự nhau (correlated) và để loại bỏ bớt yếu tố sao lãng từ dữ liệu của bạn, nếu có thể. Đây là một kĩ thuật đơn giản và nhanh chóng, và là thuật toán tốt đầu tiên để thử.
2. Logistic Regression – Hồi quy logistic
Hồi quy logistic là một thuật toán khác được mượn bởi machine learning từ lĩnh vực thống kê. Đây là phương thức tốt nhất cho các vấn đề phân loại nhị phân (vấn đề với hai lớp giá trị).
Hồi quy logistic giống như hồi quy tuyến tính với mục đích là để tìm ra các giá trị cho các hệ số mà trọng lượng mỗi biến đầu vào. Không giống như hồi quy tuyến tính, dự đoán đầu ra được chuyển đổi bằng cách sử dụng một hàm không tuyến tính được gọi là hàm logistic.
Hàm logistic trông giống như một S lớn và sẽ biến đổi bất kỳ giá trị nào thành 0-1. Điều này rất hữu ích bởi vì chúng ta có thể áp dụng một quy tắc cho đầu ra của hàm logistic để tăng giá trị cho 0 và 1 (ví dụ IF ít hơn 0.5 sau đó đầu ra 1) và dự đoán một lớp giá trị.
Vì cách mô hình được học, các dự đoán thực hiện bởi hồi quy logistic cũng có thể được sử dụng như là xác suất của một ví dụ dữ liệu nhất định thuộc lớp 0 hoặc lớp 1. Điều này có thể hữu ích cho các vấn đề khi bạn cần đưa ra nhiều lý do cho một dự đoán.
Giống như hồi quy tuyến tính, hồi quy logistic hoạt động tốt hơn khi bạn loại bỏ các thuộc tính không liên quan đến biến đầu ra cũng như các thuộc tính tương tự nhau (correlated). Đó là một mô hình có thể học hỏi nhanh và có hiệu quả với các vấn đề phân loại nhị phân.
3. Stepwise regression- hồi quy từng bước
Phương pháp hồi quy từng bước là dạng phân tích hồi quy bội trong đó các biến độc lập được bổ sung dần dần (từng biến một) vào phương trình hồi quy và ảnh hưởng của chúng tính bằng mức bổ sung và khả năng giải thích của phương trình hồi quy được ghi lại.
Nhược điểm lớn nhất của phương pháp quy hồi từng bước là cho phép các biến không có liên quan vào trong mô hình, do vậy, hồi quy Stepwise có thể tạo ra các mối quan hệ ảo hay tác động giả lên biến phụ thuộc trong mô hình.
Phương pháp quy hồi từng bước chỉ được khuyến khích sử dụng khi các biến đưa vào trong mô hình được sử hỗ trợ vững chắc của các lý thuyết liên quan đến vấn đề nghiên cứu. Trong trường hợp này, để đánh giá sự cải thiện độ phù hợp của mô hình thông qua các chỉ số như R – bình phương hoặc các chỉ số thông tin như AIC, BIC ở mỗi bước thì chúng ta có thể sử dụng câu lệnh nestreg để ghi nhận sự thay đổi của các chỉ số này. Câu lệnh nestreg cho biết rất nhiều thông tin về độ phù hợp của mô hình như thống kê Wald, Chi – bình phương, R – bình phương, sự thay đổi R – bình phương cũng như các chỉ số thông tin AIC, BIC cho mỗi mô hình trung gian.