第1章 大数据预处理概述
1.1 大数据预处理的目的和主要内容
1.2 本书主要使用的数据集
第2章 缺失值插补
2.1 简单统计量插补
2.2 聚类插补
2.3 模型插补
本章练习
第3章 低频分类数据处理
3.1 低频分类数据识别
3.2 低频分类数据的处理
本章练习
第4章 高偏度数据处理
4.1 高偏度数据的识别
4.2 高偏度数据的处理
本章练习
第5章 异常值处理
5.1 异常值的识别
5.2 异常值的处理
本章练习
第6章 数据配平
6.1 欠采样
6.2 过采样
6.3 混合采样
6.4 数据配平的效果和改进
本章练习
第7章 数据归约
7.1 变量选择
7.2 样本归约
本章练习
第8章 日期时间型数据处理
8.1 日期时间型数据的概念
8.2 日期时间型数据的转换与应用
本章练习
第9章 文本数据处理
9.1 正则表达式
9.2 社交媒体数据预处理
9.3 文本向量化
本章练习
第10章 数据离散化
10.1 数据分组
10.2 数据分类
本章练习
第11章 定性数据处理
11.1 多分类数据转化为哑变量
11.2 顺序数据转化为得分
11.3 定性数据的平滑化
本章练习
第12章 缺失值模式提取
12.1 缺失值模式的识别
12.2 缺失值模式的提取
本章练习
第13章 数据特征缩放
13.1 数据标准化
13.2 Min-Max缩放
13.3 Max-ABS缩放
13.4 Robust缩放
本章练习
第14章 信号数据的处理
14.1 信号数据的特征与类型
14.2 信号的平滑
14.3 信号的求导
14.4 噪音对求导的影响
本章练习
第15章 图像数据的处理
15.1 图像的数据结构
15.2 图像的卷积
本章练习
第16章 分布式平台上的大数据预处理
16.1 SQL语句和PyODPS工具
16.2 案例:异常值处理
16.3 案例:数据聚合处理