第1章 R语言基础
1.1 R语言的发展历程
1.2 R 语言的特点
1.3 获取并安装R语言运行环境
1.3.1 在Windows操作系统安装R语言
1.3.2 在Linux操作系统和macOS操作系统安装R语言
1.4 R语言开发工具:R GUI
1.4.1 命令行方式运行R语言程序
1.4.2 文件方式运行R语言程序
1.5 R语言开发工具:RStudio
1.5.1 安装RStudio
1.5.2 RStudio界面简介
1.5.3 使用RStudio开发R语言程序
1.6 认识第一个R语言程序:简易数据统计与格式化输出
1.6.1 新建R语言工程
1.6.2 编写程序文件
1.7 R语言和数据处理
1.7.1 R语言的优势
1.7.2 数据处理和数据分析的区别
第2章 R语言数据统计语法基础
2.1 基本的内置函数
2.1.1 数学和统计函数
2.1.2 字符和字符串处理函数
2.1.3 文件操作函数
2.1.4 概率分布函数
2.1.5 日期函数和时间函数
2.2 内置数据处理函数
2.2.1 查看、筛选和编辑数据
2.2.2 合并数据
2.2.3 分组和汇总
2.2.4 排序
2.2.5 转换
2.3 apply函数族
2.3.1 apply函数族中的函数
2.3.2 函数apply()
2.3.3 函数lapply()
2.3.4 函数sapply()
2.3.5 函数vapply()
2.3.6 函数mapply()
2.4 数据重塑与变形
2.5 数据查询与过滤
2.5.1 使用dplyr包进行数据查询和过滤
2.5.2 使用sqldf包进行SQL风格的查询
第3章 数据获取和处理
3.1 数据获取和处理简介
3.2 使用键盘输入数据
3.3 处理CSV数据
3.3.1 读取CSV文件
3.3.2 写入CSV文件
3.3.3 数据转换和处理
3.4 处理Excel数据
3.4.1 R语言和Excel文件
3.4.2 使用readxl包
3.4.3 使用openxlsx包
3.5 处理XML数据
3.5.1 使用XML包
3.5.2 使用xml2包
3.6 处理JSON数据
3.6.1 JSON包
3.6.2 使用jsonlite包
3.6.3 使用RJSONIO包
3.6.4 使用tidyjson包
3.7 处理MySQL数据
3.7.1 和MySQL相关的包
3.7.2 使用RMySQL包
3.7.3 使用RMariaDB包
3.7.4 使用DBI包
3.7.5 dplyr包和dbplyr包
3.8 从网页抓取数据
3.8.1 使用rvest包抓取数据
3.8.2 使用httr包抓取数据
3.8.3 使用XML包抓取数据
3.8.4 使用jsonlite包抓取数据
3.9 数据准备与清洗
3.9.1 缺失数据处理
3.9.2 异常值检测和处理
3.9.3 异常值检测方法小结
第4章 绘制可视化统计图
4.1 R语言绘图系统简介
4.1.1 常用的绘图包
4.1.2 基本绘图函数plot()
4.2 单变量绘图
4.2.1 绘制直方图
4.2.2 绘制条形图
4.2.3 绘制饼形图
4.2.4 绘制箱线图
4.2.5 绘制密度图
4.3 双变量绘图
4.3.1 绘制双变量条形图
4.3.2 绘制散点图
4.3.3 绘制折线图
4.3.4 绘制箱线图(双变量)
4.4 绘制多变量图
4.4.1 绘制气泡图
4.4.2 绘制热力图
4.5 文件数据的可视化
4.5.1 CSV文件数据的可视化
4.5.2 Excel文件数据的可视化
4.5.3 XML文件数据的可视化
4.5.4 JSON文件数据的可视化
4.5.5 MySQL数据库数据的可视化
第5章 描述性统计分析
5.1 描述性统计分析简介
5.2 平均数、中位数和众数
5.2.1 计算平均数
5.2.2 计算中位数
5.2.3 计算众数
5.3 方差和标准差
5.3.1 计算方差
5.3.2 计算标准差
5.4 百分位数
5.4.1 常见的百分位数
5.4.2 计算百分位数
第6章 探索性数据分析
6.1 EDA简介
6.2 检测重复值
6.2.1 检测重复值简介
6.2.2 R语言检测重复值的方法
6.3 数据可视化方法
6.4 相关性分析
6.4.1 相关性分析的基本信息
6.4.2 皮尔逊相关系数
6.4.3 斯皮尔曼相关系数
6.4.4 肯德尔相关系数
第7章 推论统计
7.1 抽样和抽样分布
7.2 置信区间
7.2.1 置信区间的概念
7.2.2 总体均值的置信区间
7.2.3 总体比例的置信区间
7.2.4 总体方差的置信区间
7.3 假设检验
7.3.1 假设检验的基本步骤
7.3.2 假设检验中的错误类型
7.4 抽样方法
7.4.1 随机抽样
7.4.2 系统抽样
7.4.3 分层抽样
7.4.4 多阶段抽样
7.5 推论统计的方向小结
7.5.1 参数推断
7.5.2 非参数推断
第8章 回归分析
8.1 回归分析简介
8.2 线性回归和多元线性回归
8.2.1 线性回归
8.2.2 多元线性回归
8.3 逻辑回归
8.3.1 逻辑回归简介
8.3.2 逻辑回归的应用领域
8.3.3 使用逻辑回归模型
8.4 非线性回归
8.4.1 非线性回归简介
8.4.2 使用非线性回归模型
8.5 条件回归
8.5.1 条件回归简介
8.5.2 使用条件回归模型
第9章 方差分析
9.1 方差分析简介
9.2 单因素方差分析
9.2.1 单因素方差分析的步骤
9.2.2 单因素方差分析的应用
9.3 多因素方差分析
9.3.1 多因素方差分析简介
9.3.2 两因素方差分析
9.3.3 多因素方差分析
9.4 协方差分析
9.4.1 协方差分析方法简介
9.4.2 协方差分析的应用
第10章 非参数统计分析
10.1 非参数统计的方法
10.2 秩和检验
10.2.1 秩和检验简介
10.2.2 使用秩和检验
10.3 Wilcoxon符号秩检验
10.3.1 Wilcoxon符号秩检验简介
10.3.2 使用Wilcoxon符号秩检验
10.4 Kruskal-Wallis检验
10.4.1 Kruskal-Wallis检验简介
10.4.2 使用Kruskal-Wallis检验
10.5 Friedman检验
10.5.1 Friedman检验简介
10.5.2 使用Friedman检验
10.6 卡方检验
10.6.1 卡方检验简介
10.6.2 卡方拟合度检验
10.6.3 卡方独立性检验
10.7 符号检验
10.7.1 符号检验简介
10.7.2 使用符号检验
第11章 主成分分析
11.1 PCA简介
11.1.1 PCA的概念
11.1.2 PCA的应用领域
11.2 PCA的数学原理
11.2.1 主成分的提取
11.2.2 PCA的可解释性
11.3 PCA的应用:信用卡欺诈检测
11.3.1 准备R语言包
11.3.2 导入数据集
11.3.3 计算ROC和AUC
11.3.4 可视化处理
11.3.5 显示混淆矩阵
11.3.6 探索数据
11.3.7 相关性分析
11.3.8 使用随机森林模型
11.3.9 欺诈预测
11.3.10 结论
第12章 聚类分析
12.1 聚类分析简介
12.1.1 聚类分析的基本概念
12.1.2 聚类分析的方法
12.1.3 聚类分析的应用领域
12.2 K均值聚类
12.2.1 K均值聚类简介
12.2.2 K均值聚类的应用
12.3 层次聚类
12.3.1 层次聚类简介
12.3.2 层次聚类的应用
12.4 DBSCAN聚类
12.4.1 DBSCAN简介
12.4.2 DBSCAN的应用领域
12.4.3 使用DBSCAN聚类算法
12.5 高斯混合模型聚类
12.5.1 高斯混合模型聚类简介
12.5.2 高斯混合模型聚类的应用
12.6 谱聚类
12.6.1 谱聚类简介
12.6.2 谱聚类的应用
第13章 生存分析
13.1 生存分析简介
13.1.1 生存分析的基本概念
13.1.2 生存分析的应用领域
13.1.3 用R语言实现生存分析
13.2 Kaplan-Meier生存曲线
13.2.1 Kaplan-Meier生存曲线的解释
13.2.2 Kaplan-Meier生存曲线的构建
13.3 Cox比例风险模型
13.3.1 Cox比例风险模型简介
13.3.2 Cox比例风险模型的应用
13.4 心血管疾病的生存分析实战
13.4.1 数据集简介
13.4.2 数据预处理
13.4.3 二元变量分布
13.4.4 连续变量分布
13.4.5 死亡事件计数与生存时间
13.4.6 相关性分析
13.4.7 变量选择的机器学习模型
13.4.8 生存分析
13.4.9 总结
第14章 因子分析
14.1 因子分析简介
14.1.1 因子分析的基本概念
14.1.2 因子分析的应用领域
14.2 因子分析方法
14.2.1 常用的因子分析方法
14.2.2 最大似然估计法
14.2.3 最小二乘法
14.2.4 广义最小二乘法
14.2.5 主轴因子分析
14.2.6 因子旋转
14.2.7 因子得分估计
14.3 因子分析的应用:心血管疾病风险因素分析系统
14.3.1 设置环境
14.3.2 数据准备和探索
14.3.3 相关性分析
14.3.4 总结
第15章 基于机器学习的患者再入院预测分析系统
15.1 背景简介
15.2 需求分析
15.3 系统分析
15.4 系统简介
15.4.1 系统功能简介
15.4.2 系统模块结构
15.5 技术分析
15.5.1 dplyr:数据预处理
15.5.2 psych:心理学和社会科学研究
15.5.3 ROSE:不平衡处理
15.5.4 caret模型训练和评估
15.6 数据处理
15.6.1 导入数据集
15.6.2 数据预处理
15.7 第一方案
15.7.1 划分训练集和测试集
15.7.2 数据集平衡
15.7.3 交叉验证
15.7.4 模型比较
15.8 第二方案
15.8.1 数据集拆分和数据平衡
15.8.2 逻辑回归模型拟合和预测
15.8.3 计算处理
15.8.4 逻辑回归模型的拟合、预测和评估
15.8.5 使用交叉验证方法训练决策树模型
15.8.6 使用交叉验证方法训练随机森林模型
15.8.7 实现朴素贝叶斯模型
15.9 模型训练和评估
15.9.1 数据预处理
15.9.2 逻辑回归模型的训练和评估
15.9.3 决策树模型的训练和评估
15.9.4 随机森林模型的训练和评估
15.9.5 朴素贝叶斯模型的训练和评估
15.10 结论
第16章 中概科技指数统计分析与投资系统
16.1 背景简介
16.2 需求分析
16.3 系统分析
16.3.1 系统目标
16.3.2 系统模块
16.3.3 数据处理流程
16.4 技术栈
16.4.1 Tidyquant:财务数据分析
16.4.2 Tidyverse:数据处理工具
16.4.3 Loess平滑算法:非参数统计方法
16.5 数据处理
16.6 中概股技术分析
16.6.1 股票价格和收益分析
16.6.2 配对分析统计图
16.6.3 MACD技术分析统计图
16.6.4 OBV技术分析统计图
16.6.5 CCI技术分析统计图
16.6.6 Chaikin AD Line技术分析统计图
16.6.7 相对表现比率统计图
16.6.8 RSI技术分析统计图
16.6.9 交易差价技术分析统计图
16.6.10 CCI密度图
16.6.11 自定义指数技术分析统计图