内容简介
本书是机器学习领域的经典入门教程,由资深数据科学家Peter Harrington撰写,旨在帮助读者通过实际编程案例快速掌握机器学习的核心算法与应用。全书共分为四部分,涵盖分类、回归、聚类、降维等主流算法,并依托Python语言实现代码示例。
第一部分介绍监督学习算法,包括k-近邻算法、决策树、朴素贝叶斯、逻辑回归、支持向量机等,每个算法均从数学原理出发,辅以具体案例(如手写数字识别、电子邮件过滤)进行讲解。第二部分聚焦无监督学习,深入探讨k-均值聚类、层次聚类、奇异值分解等技术在数据挖掘中的应用。第三部分涉及数据预处理与特征工程,如主成分分析(PCA)和自然语言处理基础。第四部分则通过Apache Spark和Mahout等框架,展示机器学习在大数据环境下的实际部署。
本书最大的特色在于“实战”二字,每章均提供完整可运行的Python代码,读者可以在Jupyter Notebook中直接运行或修改。此外,书中附有大量数据集和调试技巧,帮助读者理解算法调参、过拟合处理等实操难点。无论是初学者还是有一定基础的开发者,都能通过本书建立系统的机器学习思维,并快速将算法应用到实际项目中。
目录
译者序
关于本书
关于作者
第一部分 分类
第1章 机器学习基础
1.1 何谓机器学习
1.2 关键术语
1.3 机器学习的主要任务
1.4 如何选择合适的算法
1.5 开发机器学习应用程序的步骤
1.6 Python语言的优势
1.7 NumPy函数库基础
1.8 本章小结
第2章 k-近邻算法
2.1 k-近邻算法概述
2.2 示例:使用k近邻算法改进约会网站的配对效果
2.3 示例:手写识别系统
2.4 本章小结
第3章 决策树
3.1 决策树的构造
3.2 在Python中使用Matplotlib注解绘制树形图
3.3 测试和存储分类器
3.4 示例:使用决策树预测隐形眼镜类型
3.5 本章小结
第4章 基于概率论的分类方法:朴素贝叶斯
4.1 基于贝叶斯决策理论的分类方法
4.2 条件概率
4.3 使用条件概率来分类
4.4 使用朴素贝叶斯进行文档分类
4.5 使用Python进行文本分类
4.6 示例:使用朴素贝叶斯过滤垃圾邮件
4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向
4.8 本章小结
第5章 Logistic回归
5.1 基于Logistic回归和Sigmoid函数的分类
5.2 基于最优化方法的最佳回归系数确定
5.3 示例:从疝气病症预测病马的死亡率
5.4 本章小结
第6章 支持向量机
6.1 基于最大间隔分隔数据
6.2 寻找最大间隔
6.3 SMO高效优化算法
6.4 利用完整Platt SMO算法加速优化
6.5 在复杂数据上应用核函数
6.6 示例:手写识别问题回顾
6.7 本章小结
第7章 利用AdaBoost元算法提高分类性能
7.1 基于数据集多重抽样的分类器
7.2 训练算法:基于错误提升分类器的性能
7.3 基于单层决策树构建弱分类器
7.4 完整AdaBoost算法的实现
7.5 测试算法:基于AdaBoost的分类
7.6 示例:在一个难数据集上应用AdaBoost
7.7 非均衡分类问题
7.8 本章小结
第二部分 利用回归预测数值型数据
第8章 预测数值型数据:回归
8.1 用线性回归找到最佳拟合直线
8.2 局部加权线性回归
8.3 示例:预测鲍鱼的年龄
8.4 缩减系数来“理解”数据
8.5 权衡偏差与方差
8.6 示例:预测乐高玩具套装的价格
8.7 本章小结
第9章 树回归
9.1 复杂数据的局部性建模
9.2 连续和离散型特征的树的构建
9.3 将CART算法用于回归
9.4 树剪枝
9.5 模型树
9.6 示例:树回归与标准回归的比较
9.7 使用Python的Tkinter库创建GUI
9.8 本章小结
第三部分 无监督学习
第10章 利用K-均值聚类算法对未标注数据分组
10.1 k均值聚类算法
10.2 使用后处理来提高聚类性能
10.3 二分k均值算法
10.4 示例:对地图上的点进行聚类
10.5 本章小结
第11章 使用Apriori算法进行关联分析
11.1 关联分析
11.2 Apriori原理
11.3 使用Apriori算法来发现频繁集
11.4 从频繁项集中挖掘关联规则
11.5 示例:发现国会投票中的模式
11.6 示例:发现毒蘑菇的相似特征
11.7 本章小结
第12章 使用FP-growth算法来高效发现频繁项集
12.1 FP树:用于编码数据集的有效方式
12.2 构建FP树
12.3 从一棵FP树中挖掘频繁项集
12.4 示例:在Twitter源中发现一些共现词
12.5 示例:从新闻网站点击流中挖掘
12.6 本章小结
第四部分 其他工具
第13章 利用PCA来简化数据
13.1 降维技术
13.2 PCA
13.3 示例:利用PCA对半导体制造数据降维
13.4 本章小结
第14章 利用SVD简化数据
14.1 SVD的应用
14.2 矩阵分解
14.3 利用Python实现SVD
14.4 基于协同过滤的推荐引擎
14.5 示例:餐馆菜肴推荐引擎
14.6 示例:基于SVD的图像压缩
14.7 本章小结
第15章 大数据与MapReduce
15.1 MapReduce:分布式计算的框架
15.2 Hadoop流
15.3 在Amazon网络服务上运行Hadoop程序
15.4 MapReduce上的机器学习
15.5 在Python中使用mrjob来自动化MapReduce
15.6 示例:分布式SVM的Pegasos算法
15.7 你真的需要MapReduce吗?
15.8 本章小结
附录A Python入门
A.1 Python安装
A.2 Python入门
A.3 NumPy快速入门
A.4 Beautiful Soup包
A.5 Mrjob
A.6 Vote Smart
A.7 Python-Twitter
附录B 线性代数
B.1 矩阵
B.2 矩阵求逆
B.3 矩阵范数
B.4 矩阵求导
附录C 概率论复习
C.1 概率论简介
C.2 联合概率
C.3 概率的基本准则
附录D 资源
您当前的等级为
登录后免费下载登录
小黑屋反思中,不准下载!
评论后刷新页面下载评论
支付¥以后下载
请先登录
您今天的下载次数(次)用完了,请明天再来
支付积分以后下载立即支付
支付以后下载立即支付
您当前的用户组不允许下载升级会员
您已获得下载权限
您可以每天下载资源次,今日剩余次
免责申明:
1. 本站分享的所有书籍均来源于自互联网,我们只进行收集整理,并不对书籍内容进行更改。
2. 部分书籍中可能有书籍压制者放置的广告,这并不是本站所为,请注意甄别。
3. 我们分享这些书籍,纯粹是出于知识分享的热情,以及对互联网分享精神的高度认同和践行,没有任何商业目的。
4. 本站分享的所有书籍,仅供个人学习研究使用,请勿用于任何商业用途,否则产生的一切法律纠纷与本站无关。
5. 如果这些书籍让你有所收获,在条件允许的情况下,请一定购买正版书籍,这是对创作者最好的支持。
6. 如果您是此书籍的版权所有者,且您不希望此作品出现在本站,请联系我们,我们将在收到您的请求后48时间内予以删除。