第1章 明月松间照,清泉石上流:文本预处理
1.1 分词
1.1.1 分词的重要性和基本原理
1.1.2 基于空格的分词
1.1.3 基于标点符号的分词
1.2 词干化与词形还原
1.2.1 词干化与词形还原的区别
1.2.2 词干化
1.2.3 词形还原
1.3 去除停用词
1.3.1 什么是停用词
1.3.2 基于词汇列表的去除
1.3.3 基于词频的去除
1.3.4 TF IDF方法去除
1.3.5 机器学习方法去除
1.4 数据清洗和处理
1.4.1 处理缺失值
1.4.2 异常值检测与处理
1.4.3 处理重复数据
第2章 大音希声,大象无形:特征提取
2.1 特征提取介绍
2.1.1 特征在大模型中的关键作用
2.1.2 特征提取与数据预处理的关系
2.2 特征选择
2.2.1 特征选择的必要性
2.2.2 特征选择的方法
2.3 特征抽取
2.3.1 特征抽取的概念
2.3.2 主成分分析
2.3.3 独立成分分析
2.3.4 自动编码器
2.4 嵌入
2.4.1 嵌入介绍
2.4.2 使用嵌入层进行特征提取
2.4.3 Word2Vec模型
2.4.4 GloVe模型
2.5 词袋模型
2.5.1 实现词袋模型的步骤
2.5.2 词袋模型的限制与改进
……
第3章 人有悲欢离合,月有阴晴圆缺:文本分类与情感分析
第4章 白日依山尽,黄河入海流:语言的生成
第5章 海内存知己,天涯若比邻:机器翻译
第6章 会当凌绝顶,一览众山小:DeepSeek的核心Transformer模型
第7章 大漠孤烟直,长河落日圆:动代本文多模态模型的架构和训练
第8章 学而时习之,不亦说乎:预训练模型的训练和微调
第9章 千帆过尽,始见真章:DeepSeekAPI应用开发实战
第10章 纸上得来终觉浅,绝知此事要躬行:基于DeepSeek实现的仿ManusAgent系统