第1章 引言
1.1 作为科学的统计
1.1.1 统计是科学
1.1.2 模型驱动及数据驱动
1.2 数据及模型
1.2.1 数据中的信息
1.2.2 有监督学习模型
1.2.3 使用交叉验证来评价和比较模型
1.2.4 有监督学习过程汇总
1.2.5 传统统计模型和机器学习模型简介
1.2.6 历史:本来是数据驱动的统计变成模型驱动
1.2.7 今后:借用Donoho(2024)
1.3 关于软件的说明
1.3.1 本书使用R和Python语言
1.3.2 本书中的自编函数
1.4 有监督学习传统统计方法与机器学习方法的交叉验证比较
1.4.1 传统统计及机器学习回归方法交叉验证精度比较
1.4.2 传统统计及机器学习二分类方法交叉验证精度比较
1.4.3 传统统计及机器学习多分类方法交叉验证精度比较
1.5 习题
1.6 本章的R和Python代码
1.6.1 1.4.1节的R和Python代码
1.6.2 1.4.2节的R和Python代码
1.6.3 1.4.3节的R和Python代码
第2章 经典线性回归
2.1 模型形式
2.1.1 回顾高中课程:自变量为一个数量变量的情况
2.1.2 自变量为多个数量变量的情况
2.1.3 “线性”是对系数而言的
2.2 用最小二乘法估计线性模型
2.2.1 一个数量自变量的情况
2.2.2 多个自变量的情况
2.2.3 自变量有分类变量的情况*
2.3 回归系数的大小没有可解释性
2.3.1 “皇帝的新衣”
2.3.2 最小二乘线性回归仅是众多回归方法之一,过多的延伸是浪费
2.4 传统统计关于线性回归系数的性质和推断*
2.4.1 基本假定
2.4.2 关于H0:βi=0H1:βi≠0的t检验
2.4.3 关于多自变量系数复合假设F检验及方差分析表
2.4.4 分类变量的显著性必须从方差分析表看出
2.4.5 关于“残差的检验及点图”
2.5 通过一个“教材数据”来理解简单最小二乘回归
2.5.1 几种竞争的线性模型
2.5.2 孤立看模型可能会产生多个模型都“正确”的结论
2.5.3 多个模型相比较以得到相对较好的模型
2.5.4 对例2.6喂毒素数据的6个模型做预测精度的交叉验证
2.6 处理线性回归多重共线性的经典方法*
2.6.1 多重共线性
2.6.2 自变量子集选择
2.6.3 岭回归
2.6.4 lasso回归
2.6.5 适应性lasso回归
2.6.6 通过例2.7击球手数据比较几种方法的预测精度
2.7 损失函数及分位数回归简介*
2.7.1 损失函数
2.7.2 恩格尔数据例子的分位数回归
2.8 习题
2.9 本章的R和Python代码
2.9.1 2.2节的代码
2.9.2 2.3节的代码
2.9.3 2.4节的代码
2.9.4 2.5节的Python代码
2.9.5 2.6节的代码
2.9.6 2.7节的代码
第3章 广义线性模型
3.1 模型
3.2 指数分布族及典则连接函数
3.3 似然函数和准似然函数
3.3.1 似然函数和记分函数
3.3.2 广义线性模型的记分函数
3.3.3 准记分函数、准对数似然函数及准似然估计
3.4 广义线性模型的一些推断问题
3.4.1 最大似然估计和Wald检验
3.4.2 偏差和基于偏差的似然比检验
3.4.3 散布参数的估计
3.5 logistic回归和二元分类问题
3.5.1 logistic回归(probit回归)
3.5.2 用logistic回归做分类
3.6 Poisson对数线性模型及频数数据的预测*
3.6.1 Poisson对数线性模型
3.6.2 使用Poisson对数线性模型的一些问题
3.6.3 Poisson对数线性模型的预测及交叉验证
3.7 习题
3.8 本章的Python代码
3.8.1 3.5节的代码
3.8.2 3.6节的代码
第4章 机器学习:有监督学习
4.1 引言
4.2 决策树
4.2.1 决策树的基本构造
4.2.2 决策树是把因变量数据变纯的过程
4.2.3 一个真实数据的决策树回归实践
4.2.4 决策树回归和线性回归的比较和交叉验证
4.2.5 一个真实数据的决策树分类实践
4.3 集成算法的思想
4.3.1 基本思想
4.3.2 集成算法及自助法抽样
4.4 bagging方法
4.4.1 概述
4.4.2 一个真实数据的bagging回归实践
4.4.3 例4.3慢性肾病数据的bagging分类实践
4.5 随机森林
4.5.1 概述
4.5.2 例4.5能源效率数据的随机森林回归
4.5.3 例4.6进口汽车数据的随机森林分类
4.6 AdaBoost分类
4.6.1 概述
4.6.2 对例4.3慢性肾病数据的分类及变量重要性
4.6.3 使用AdaBoost预测
4.6.4 用自带函数做交叉验证
4.6.5 分类差额
4.7 mboost回归
4.7.1 概述
4.7.2 例子及拟合全部数据
4.7.3 对例4.6进口汽车数据做几种方法的交叉验证
4.8 Xgboost模型
4.8.1 模型概述
4.8.2 对例4.7皮肤病数据做Xgboost分类
4.8.3 对例4.8服装业生产率数据做Xgboost回归
4.9 神经网络
4.9.1 神经网络原理
4.9.2 神经网络的计算步骤
4.9.3 神经网络回归实例
4.9.4 神经网络分类实例
4.10 支持向量机
4.10.1 支持向量机分类的基本概念:线性可分问题
4.10.2 支持向量机分类的基本概念:非线性可分问题
4.10.3 多于两类的支持向量机分类
4.10.4 对例4.3慢性肾病全部数据的拟合
4.10.5 支持向量机回归的基本概念:线性问题
4.10.6 支持向量机回归的基本概念:非线性问题
4.10.7 用支持向量机拟合例4.4翼型数据
4.11 k最近邻方法
4.11.1 距离的定义
4.11.2 k最近邻方法分类
4.11.3 k最近邻回归
4.12 朴素贝叶斯分类
4.12.1 朴素贝叶斯原理
4.12.2 用朴素贝叶斯方法对例4.7皮肤病数据做分类
4.13 案例分析:例4.8服装业生产率数据
4.13.1 探索数据
4.13.2 例4.8服装业生产率数据:通过回归交叉验证选择模型
4.14 案例分析:例4.9信用卡批准数据
4.14.1 探索数据和弥补缺失值
4.14.2 例4.9信用卡批准数据:通过回归交叉验证选择模型
4.15 习题
4.16 本章的R和Python代码
4.16.1 4.2节的代码
4.16.2 4.3节的R代码
4.16.3 4.4节的代码
4.16.4 4.5节的代码
4.16.5 4.6节的代码
4.16.6 4.7节的代码
4.16.7 4.8节的代码
4.16.8 4.9节的代码
4.16.9 4.10节的代码
4.16.10 4.11节的代码
4.16.11 4.12节的代码
4.16.12 4.13节的代码
4.16.13 4.14节的代码
第5章 判别分析*
5.1 线性判别分析
5.2 Fisher判别分析
5.3 混合线性判别分析
5.4 习题
第6章 混合效应模型*
6.1 概念
6.2 通过一个数值例子解释线性混合模型
6.2.1 受欢迎程度数据(例6.1)
6.2.2 对例6.1受欢迎程度数据的探索性分析
6.2.3 对例6.1受欢迎程度数据的建模探索
6.2.4 交叉验证
6.3 线性混合模型的一般形式
6.3.1 线性混合模型的一般形式
6.3.2 例6.2数学分数数据
6.3.3 牛奶蛋白质含量数据(例6.3)
6.3.4 帕金森病远程监控数据(例6.4)
6.4 广义线性混合模型
6.4.1 例子
6.4.2 恶性黑色素瘤死亡率数据(例6.5)
6.4.3 癫痫数据(例6.6)
6.4.4 马德拉斯精神分裂症数据(例6.7)
6.5 决策树关联的混合模型
6.5.1 决策树关联的混合模型REEM tree和GLMM tree简介
6.5.2 GLMM tree拟合癫痫数据(例6.6)
6.5.3 用REEM tree和GLMM tree拟合数学分数数据(例6.2)
6.6 对例6.2数学分数数据做第6章方法与其他模型的比较
6.7 Python对例6.2数学分数数据的MERF模型及其他模型比较
6.8 习题
第7章 生存分析及Cox模型*
7.1 基本概念
7.2 生存函数的Kaplan-Meier估计
7.3 累积危险函数
7.4 估计和检验*
7.4.1 生存时间的中位数和均值估计
7.4.2 几个样本的危险函数检验
7.5 Cox比例危险模型
7.6 习题
7.7 本章的Python代码
7.7.1 7.2节例7.1艾滋病数据的Kaplan-Meier估计
7.7.2 7.3节例7.1艾滋病数据的Nelson-Aalen累积危险函数
7.7.3 7.5节例7.1艾滋病数据的Cox比例危险模型
参考文献