去年初学LDA,看完了Rickjin老师的《LDA数学八卦》,觉得不是很懂,查阅了很多资料之后才对LDA有了更深入地认识。一直想加入自己的理解后更简单的讲述这个模型,今日补上。
注:文章的行文思路与大多数公式参考了Rickjin《LDA数学八卦》。有兴趣更深入了解的同学可以在看完本篇后继续阅读。
LDA(Latent Dirichlet allocation)是主题模型的一种,最早是由Blei D M[1]等人在2003年提出的,常被用于文档的主题识别。时至今日,在大大小小的会议上仍能看到不少对LDA(或其衍生、或类似的主题模型)提出改进的文章。其自然的思路,优雅的求解和拓展性强的模型结构,实在是非常适合作为对无监督学习一个入门模型来学习和改进。
本文主要介绍LDA背后的相关数学知识和模型的构建与求解思路,力求只有少量统计知识的初学者也能看懂。文中略去了大量的公式推导细节,如果希望深入的了解,请根据需要查找相关的资料。