Tổng hợp các thuật toán trong machine learning
1. Thuật toán Học Giám Sát (Supervised Learning)
📌 Mục tiêu:
-
Dự đoán kết quả đầu ra dựa trên dữ liệu đã gán nhãn.
-
Các bài toán điển hình: Phân loại (Classification) và Hồi quy (Regression).
1.1. Hồi quy (Regression Algorithms)
Thuật toán | Ứng dụng thực tế | Đặc điểm |
---|---|---|
Linear Regression | Dự đoán giá nhà, doanh thu | Quan hệ tuyến tính |
Polynomial Regression | Dự đoán doanh thu theo thời gian | Quan hệ phi tuyến |
Ridge Regression | Giảm overfitting trong Linear Regression | Thêm regularization |
Lasso Regression | Lựa chọn đặc trưng | Thêm regularization |
Support Vector Regression (SVR) | Dự đoán thời gian giao hàng | Phân tích tuyến tính, phi tuyến |
Decision Tree Regression | Dự đoán doanh thu theo khu vực | Phân nhánh quyết định |
Random Forest Regression | Dự đoán giá chứng khoán | Tổ hợp nhiều cây quyết định |
XGBoost / LightGBM | Dự đoán doanh thu bán hàng | Hiệu suất cao, giảm overfitting |
1.2. Phân loại (Classification Algorithms)
Thuật toán | Ứng dụng thực tế | Đặc điểm |
---|---|---|
Logistic Regression | Dự đoán khách hàng rời bỏ | Phân loại nhị phân |
K-Nearest Neighbors (KNN) | Nhận diện chữ viết tay | Đơn giản, dễ hiểu |
Support Vector Machine (SVM) | Phát hiện gian lận thẻ tín dụng | Phân tách dữ liệu tốt |
Decision Tree | Dự đoán bệnh ung thư | Phân nhánh quyết định |
Random Forest | Phát hiện gian lận | Tổng hợp nhiều cây quyết định |
Naive Bayes | Phân loại email spam | Xác suất có điều kiện |
XGBoost / CatBoost | Dự đoán điểm tín dụng | Hiệu suất cao |
Neural Network | Nhận diện khuôn mặt | Mạng nơ-ron đa lớp |
Ensemble Methods | Tăng độ chính xác mô hình | Voting, Bagging, Stacking |
2. Thuật toán Học Không Giám Sát (Unsupervised Learning)
📌 Mục tiêu:
-
Phát hiện mẫu dữ liệu chưa gán nhãn, tìm cấu trúc ẩn trong dữ liệu.
2.1. Phân cụm (Clustering Algorithms)
Thuật toán | Ứng dụng thực tế | Đặc điểm |
---|---|---|
K-Means Clustering | Phân nhóm khách hàng | Chia cụm theo khoảng cách |
Hierarchical Clustering | Phân cấp nhóm sản phẩm | Xây dựng cây phân cấp |
DBSCAN | Phát hiện cụm dữ liệu bất thường | Không cần số cụm trước |
Gaussian Mixture Models (GMM) | Nhận diện hành vi người dùng | Mô hình xác suất |
2.2. Giảm chiều dữ liệu (Dimensionality Reduction)
Thuật toán | Ứng dụng thực tế | Đặc điểm |
---|---|---|
Principal Component Analysis (PCA) | Nén dữ liệu hình ảnh | Giảm chiều dữ liệu |
t-SNE | Trực quan hóa dữ liệu phức tạp | Giảm chiều, trực quan hóa |
LDA (Linear Discriminant Analysis) | Phân loại văn bản | Giảm chiều có giám sát |
3. Học Bán Giám Sát (Semi-Supervised Learning)
-
Kết hợp dữ liệu có nhãn và không nhãn.
-
Ứng dụng: Dự đoán bệnh dịch, phát hiện gian lận.
Thuật toán | Ứng dụng thực tế |
---|---|
Label Propagation | Gắn nhãn dữ liệu mới |
Label Spreading | Truyền nhãn dữ liệu |
4. Học Tăng Cường (Reinforcement Learning)
-
Hệ thống học từ môi trường qua phần thưởng/phạt.
-
Ứng dụng: Robot tự hành, chơi game, giao dịch chứng khoán.
Thuật toán | Ứng dụng thực tế |
---|---|
Q-Learning | Chơi game (AlphaGo) |
Deep Q-Network (DQN) | Robot tự hành |
SARSA | Điều khiển giao thông |
Policy Gradient | Chiến lược đầu tư chứng khoán |
5. Phát Hiện Bất Thường (Anomaly Detection)
Thuật toán | Ứng dụng thực tế | Đặc điểm |
---|---|---|
Isolation Forest | Phát hiện gian lận giao dịch | Cô lập dữ liệu bất thường |
One-Class SVM | Phát hiện lỗi thiết bị | Phân tách dữ liệu bất thường |
Autoencoder | Phát hiện tấn công mạng | Deep Learning-based |
6. Học Sâu (Deep Learning)
Thuật toán | Ứng dụng thực tế | Đặc điểm |
---|---|---|
Artificial Neural Network (ANN) | Dự đoán doanh thu bán hàng | Mạng nơ-ron cơ bản |
Convolutional Neural Network (CNN) | Nhận diện hình ảnh | Mạng tích chập |
Recurrent Neural Network (RNN) | Dự đoán chuỗi thời gian | Mạng tuần tự |
Long Short-Term Memory (LSTM) | Phát hiện DDoS | Ghi nhớ dài hạn |
Transformer | Dịch máy, ChatGPT | Xử lý song song, attention |
🎯 7. Tổng kết
Loại thuật toán | Ứng dụng điển hình |
---|---|
Hồi quy (Regression) | Dự đoán giá nhà, thời gian |
Phân loại (Classification) | Phát hiện spam, dự đoán bệnh |
Phân cụm (Clustering) | Phân nhóm khách hàng |
Giảm chiều (Dim. Reduction) | Nén dữ liệu, trực quan hóa |
Phát hiện bất thường (Anomaly Detection) | Phát hiện gian lận |
Học sâu (Deep Learning) | Nhận diện hình ảnh, âm thanh |