如何理解LDA模型(一)

如果从词的角度来观察,文档document是小部分数量的主题topic的混合。每个词word的出现,对文档的某个主题有一定的贡献

Ask:基于上述角度,如何理解这个“贡献”度,如何度量其“贡献”度?稀疏的Dirichlet priors编码了一种直觉,即文档只涵盖了一小部分主题,而主题通常只使用一小部分单词。

理解LDA模型的盘子表示法,原论文中也是这样表示的:https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation#cite_ref-blei2003_0-0

我从原论文中看到一张图,虽然不理解,但很具有代表性。

同样这篇学习笔记也很形象。http://blog.renren.com/share/249997584/13071550623

不管怎样,lda原理的理解是一定要深入到狄利克雷分布的,我反而感觉通过lda的Getting Started的API能更好地理解lda的使用。https://lda.readthedocs.io/en/latest/getting_started.html

写了些注释,详见https://gitee.com/jahentao/analysis_of_ML_posts_on_stack_overflow

秒杀Redis的KVS数据库上云了!伯克利重磅开源Anna 1.0

今天,AI前线给大家带来了Anna的最新消息,过去这半年里,伯克利RISE实验室对Anna的设计进行了重大变更,新版本的Anna能够更好地在云端扩展。实验表明,无论是在性能还是成本效益方面,Anna都表现突出,它明显优于AWS ElastiCache的memcached以及较早之前的Masstree,也比AWS DynamoDB更具成本优势。与此同时,Anna所有源码也正式登陆Github,开放给所有开发者。

来源: 秒杀Redis的KVS数据库上云了!伯克利重磅开源Anna 1.0