机器学习综述
通过现代计算机技术,不断的从各个角度对数据进行组合、分析,从而找出内在的规律、模式
scikit-learn功能
分类
- 识别对象的类别,属于监督学习
- 应用:图像识别、垃圾邮件检测
- 相关算法:支持向量机、最邻近、逻辑回归、随机森林、决策树、多层感知器、MLP神经网络
回归
- 预测与对象相关联的连续属性,属于监督学习
- 应用:药物反应、股价
- 相关算法:支持向量回归、脊回归、Lasso回归、弹性网络、最小角回归、贝叶斯回归,及各种鲁棒回归
聚类
- 自动分类相似属性,属于无监督学习
- 应用:客户细分、实验结果分类
- 相关算法:k-means聚类、谱聚类、均值偏移、分层聚类、DBSCAN聚类
降维
- 减少要考虑的随机变量的数量,属于无监督学习
- 应用:可视化处理、效率处理
- 相关算法:主成分分析、奇异值分解、非负矩阵分解、特征选择
模型选择
- 比较、验证、选择参数和模型
- 相关算法:网格搜索、交叉验证、各种针对误差评估的函数
预处理
- 提取数据特征和归一化
- 应用:转换输入数据为机器学习算法数据
- 相关算法:去均值、方差规模化、正则化、特征二值化、类别特征编码、弥补缺失数据、构建多项式特征、自定义特征转换函数