数据挖掘与预测分析 肖毅 科学出版社 PDF电子教材 PDF电子书 大学教材电子版 电子课本 网盘下载(价值59元)【高清非扫描版】(2023年06月)
《数据挖掘与预测分析》肖毅 科学出版社 PDF电子教材 PDF电子书 大学教材电子版 电子课本 网盘下载(价值59元)【高清非扫描版】(2023年06月)
图书简介:
本书全面系统地介绍数据挖掘的概念、技术、算法及应用,力求为初学者构建一个合适的学习框架。全书将数据挖掘归纳成数据预处理、数据探索、决策树、贝叶斯分类、人工神经网络、支持向量机、关联规则分析、聚类、时间序列预测等几个主题,不仅详解技术原理和算法实现,而且结合复杂多样的实际数据环境,探讨其应用场景和使用方法。本书通过对大量图表、示例、算法的简洁描述,使读者尽可能摆脱技术细节的干扰而聚焦于数据挖掘本身。书中所有示例都采用Python实现,此外还提供电子教学课件、习题答案及实践练习代码。
目录:
前言
第1章 引言 1
1.1 数据挖掘的定义 1
1.2 数据挖掘的起源 2
1.3 数据挖掘的类型 2
1.3.1 数据库数据 2
1.3.2 数据仓库 3
1.3.3 事务数据 3
1.3.4 时间序列数据 3
1.3.5 文本和多媒体数据 4
1.3.6 空间数据 4
1.4 数据挖掘的功能与模式 4
1.4.1 数据特征化与数据区分 5
1.4.2 频繁模式、关联和相关性分析 6
1.4.3 分类和回归 6
1.4.4 聚类分析 6
1.4.5 离群点分析 7
1.5 数据挖掘常用技术及其优缺点 7
1.6 数据挖掘的步骤 7
1.7 数据挖掘的应用 8
1.7.1 数据统计应用现状 8
1.7.2 个性化技术应用现状 8
1.7.3 预测技术应用现状 9
1.7.4 分类和回归技术应用现状 9
1.7.5 辅助决策系统应用现状 9
1.8 数据挖掘面临的困难与挑战 10
习题 11
第2章 数据预处理 12
2.1 认识数据 12
2.1.1 数据对象与属性的类型 12
2.1.2 数据集的类型 15
2.2 原始数据存在的问题 16
2.3 数据预处理方法 18
2.3.1 数据预处理的步骤 18
2.3.2 数据清理 19
2.3.3 数据集成 22
2.3.4 数据归约 24
2.3.5 数据变换 28
习题 31
实践练习 31
第3章 数据探索 32
3.1 数据的基本统计描述 32
3.1.1 中心趋势度量 32
3.1.2 数据散布度量 35
3.2 可视化分析 36
3.2.1 一般概念 36
3.2.2 不同数据的可视化 38
3.3 联机分析处理 44
3.3.1 OLAP的概念 44
3.3.2 OLAP的多维数据概念 45
3.3.3 OLAP的多维数据结构 45
3.3.4 OLAP的多维数据库 47
3.3.5 OALP的多维数据分析 48
习题 48
实践练习 48
第4章 决策树 49
4.1 决策树概述 49
4.1.1 决策树的含义及相关概念 49
4.1.2 决策树算法构造基本流程 52
4.1.3 决策树的特点 53
4.2 ID3算法 53
4.2.1 ID3算法原理 53
4.2.2 ID3算法代码实现 55
4.3 C4.5算法 56
4.3.1 C4.5算法原理 56
4.3.2 C4.5算法代码实现 57
4.4 随机森林 63
4.4.1 基本原理 63
4.4.2 随机森林构造步骤 63
4.4.3 随机森林代码实现 64
习题 70
实践练习 71
第5章 贝叶斯分类 72
5.1 贝叶斯定理 72
5.2 朴素贝叶斯分类器 73
5.2.1 朴素贝叶斯分类器工作原理 73
5.2.2 朴素贝叶斯分类器应用案例 74
5.3 半朴素贝叶斯分类器 75
5.4 贝叶斯网络 76
5.4.1 贝叶斯网络的结构 77
5.4.2 贝叶斯网络的建立 77
5.4.3 贝叶斯网络的特点 78
5.5 贝叶斯分类器实例分析 78
习题 79
实践练习 80
第6章 人工神经网络 81
6.1 人工神经网络概述 81
6.2 人工神经网络基本原理 82
6.2.1 人工神经元模型 82
6.2.2 激活函数 83
6.2.3 人工神经网络的拓扑结构 86
6.2.4 人工神经网络的学习与工作 89
6.2.5 感知机模型 90
6.2.6 误差反向传播算法 93
6.3 算法改进 101
6.3.1 交叉熵—神经元饱和 101
6.3.2 正则化—过拟合 102
6.3.3 权值初始化—隐藏层神经元饱和 102
6.4 应用及实例分析 103
习题 106
实践练习 106
第7章 支持向量机 107
7.1 SVM分类 107
7.1.1 最大间隔分类器 107
7.1.2 软间隔优化 112
7.1.3 线性规划SVM 113
7.2 SVM回归 114
7.2.1 ε不敏感损失函数 114
7.2.2 SVR实现原理及过程 115
7.3 SVM实例应用 117
习题 119
实践练习 119
第8章 关联规则分析 121
8.1 关联规则分析概述 121
8.1.1 关联规则基本概念 122
8.1.2 关联规则度量及基本过程 122
8.2 关联规则分类 124
8.2.1 单层关联规则—频繁项集的产生 124
8.2.2 不产生候选频繁项集的算法 130
8.3 多层多维关联规则挖掘 139
8.3.1 事务型数据库挖掘多层关联规则 139
8.3.2 兴趣度度量 139
8.3.3 关联挖掘与相关分析 139
8.3.4 有约束的关联挖掘 140
8.4 关联规则分析应用场景 140
习题 143
实践练习 144
第9章 聚类 145
9.1 聚类概述 145
9.1.1 聚类的含义 145
9.1.2 聚类算法的分类 145
9.2 相似性测度指标 146
9.2.1 距离测度指标 146
9.2.2 非距离测度指标 148
9.3 k-means算法 149
9.3.1 k-means算法原理 149
9.3.2 k-means算法特点 151
9.3.3 k-means实例分析 151
9.4 k-中心点算法 153
9.4.1 算法原理 153
9.4.2 k-中心点算法特点 154
9.4.3 k-中心点实例分析 155
习题 157
实践练习 158
第10章 时间序列预测 159
10.1 时间序列概述 159
10.2 预测的定量方法 166
10.2.1 平滑法 166
10.2.2 趋势推测法 169
10.3 预测的定性方法 171
10.3.1 德尔菲法 171
10.3.2 专家判断法 171
10.3.3 主观概率预测法 171
10.3.4 情景预测法 172
10.4 常用模型介绍 172
10.4.1 平稳性检验 172
10.4.2 差分法 173
10.4.3 白噪声检验 174
10.4.4 时间序列模型预测的基本步骤 175
10.4.5 AR模型 176
10.4.6 MA模型 184
10.4.7 ARMA模型 188
10.4.8 ARIMA模型 191
习题 200
实践练习 200
参考文献 201