邓威的博客

scikit-learn学习

2020-01-08
邓威


机器学习综述

通过现代计算机技术,不断的从各个角度对数据进行组合、分析,从而找出内在的规律、模式

scikit-learn功能

分类

  • 识别对象的类别,属于监督学习
  • 应用:图像识别、垃圾邮件检测
  • 相关算法:支持向量机、最邻近、逻辑回归、随机森林、决策树、多层感知器、MLP神经网络

回归

  • 预测与对象相关联的连续属性,属于监督学习
  • 应用:药物反应、股价
  • 相关算法:支持向量回归、脊回归、Lasso回归、弹性网络、最小角回归、贝叶斯回归,及各种鲁棒回归

聚类

  • 自动分类相似属性,属于无监督学习
  • 应用:客户细分、实验结果分类
  • 相关算法:k-means聚类、谱聚类、均值偏移、分层聚类、DBSCAN聚类

降维

  • 减少要考虑的随机变量的数量,属于无监督学习
  • 应用:可视化处理、效率处理
  • 相关算法:主成分分析、奇异值分解、非负矩阵分解、特征选择

模型选择

  • 比较、验证、选择参数和模型
  • 相关算法:网格搜索、交叉验证、各种针对误差评估的函数

预处理

  • 提取数据特征和归一化
  • 应用:转换输入数据为机器学习算法数据
  • 相关算法:去均值、方差规模化、正则化、特征二值化、类别特征编码、弥补缺失数据、构建多项式特征、自定义特征转换函数

下一篇 python数据分析

Comments

Content