文本分析Workshop

  • 模块1      文本数据预处理

中文分词

TF-IDF算法及其改进

  • 模块2      描述性推断

有损数据压缩(loss compression)

文本相似性计算与比较

词语搭配(Collocation)

情境中的关键词

词汇差异度(lexical diversity)

语言复杂性(linguistic complexity)的度量

语言风格(Linguistic style)

“有趣度”(Interestingness)

抽样分布和不确定性

  • 模块3      监督学习(Supervised Learning)

监督学习的基本思想

正则化

朴素贝耶斯

支持向量机

K紧邻(KNN)

决策树与随机森林

集成学习

虚假信息监测(Lie detection)

  • 模块4     无监督学习(Unsupervised Learning)

主成分分析

聚类分析

主题模型

隐含狄利克雷分配主题模型(LDA)

相关主题模型(CTM)

动态主题模型(DTM)

结构主题模型(STM)

  • 模块5      词嵌入(Word Embedding)

单词矢量化的方法

词嵌入理论概览与核心

词嵌入技术与实现——Word2Vec

用Word2Vec训练统计语言模型

Word Embeddings的应用与评估

文档嵌入(Document embedding)

  • 模块6      深度学习

神经网络 (Neural Networks, NNs)

卷积神经网络(Convolutional Neural Nets, CNNs)

循环神经网络 (Recurrent Neural Nets, RNNs)

  • 模块7      文献阅读与分享