- 模块1 文本数据预处理
中文分词
TF-IDF算法及其改进
- 模块2 描述性推断
有损数据压缩(loss compression)
文本相似性计算与比较
词语搭配(Collocation)
情境中的关键词
词汇差异度(lexical diversity)
语言复杂性(linguistic complexity)的度量
语言风格(Linguistic style)
“有趣度”(Interestingness)
抽样分布和不确定性
- 模块3 监督学习(Supervised Learning)
监督学习的基本思想
正则化
朴素贝耶斯
支持向量机
K紧邻(KNN)
决策树与随机森林
集成学习
虚假信息监测(Lie detection)
- 模块4 无监督学习(Unsupervised Learning)
主成分分析
聚类分析
主题模型
隐含狄利克雷分配主题模型(LDA)
相关主题模型(CTM)
动态主题模型(DTM)
结构主题模型(STM)
- 模块5 词嵌入(Word Embedding)
单词矢量化的方法
词嵌入理论概览与核心
词嵌入技术与实现——Word2Vec
用Word2Vec训练统计语言模型
Word Embeddings的应用与评估
文档嵌入(Document embedding)
- 模块6 深度学习
神经网络 (Neural Networks, NNs)
卷积神经网络(Convolutional Neural Nets, CNNs)
循环神经网络 (Recurrent Neural Nets, RNNs)
- 模块7 文献阅读与分享