Scikit-learn(sklearn)机器学习必备库 – 小飞侠

Scikit-learn(sklearn)机器学习必备库

Post author:xfxia
Post published:2023年9月26日
Post category:其他

Scikit-learn(sklearn)机器学习必备库

sklearn官网

在这里插入图片描述

除了sklearn。需要学的基本库还有numpy,scipy,pandas,matplotlib.都是非常重要的包。

sklearn建模流程：

（掌握常见机器学习模型）

数据预处理
特征工程，特征编码
模型选择
模型训练与测试
模型评价，误差分析

数据预处理常用手段：

Standardization,or mea removal and variance scaling (标准化或均值去除和方差缩放)
Non-linear transformation（非线性变换）
Normalization（归一化）
Encoding categorical features（编码分类特征）
Discretization（离散化）
Imputation of missing values（缺失值插补）
Generaing polynomial features（生成多项式特征）
Custom transformers（自定义处理方式）

每一种手段都有多种方式方法！

特征工程，特征编码

常用方式有：

preprocessing.LableEncoder

preprocessing.OneHotEncoder

preprocessing.OrdinalEncoder

模型训练与测试

sklearn提供了所有模型的训练、预测、打分方法：

fit :模型训练
predict :模型预测
predict_prob: 模型预测结果对应的概率值
score :模型打分

常见的机器学习模型有：

线性模型（线性回归、岭回归、逻辑回归等）
树模型（决策树）
神经网络（DNN）
无监督模型 (Kmeans聚类)

注：sklearn中不包含XGBoost、LightGBM、CatBoost的实现，sklearn中的神经网络不支持GPU运算。

模型评价与误差分析

回归任务：

MAPE
MSE
MAE
$R^2 R 2$

分类任务：

Precision-Recall
ROC-AUC
Accuracy
Log-Loss

无监督任务：

Rand Index
Mutual Information

其他任务：

CV Error
BLEU Score(NLP)
Heuristic methpds to find K

数据划分方法（模型评价）：

留出法（Hold-out）
K折交叉验证（K-fold CV）
自助采样（Bootstrap）

深入了解请查看sklearn官网或博主其他文章。

版权声明：本文为weixin_50918736原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/weixin_50918736/article/details/125767816