Aroslin

Life is always hard.


  • 首页

  • 标签

  • 分类

  • 归档

  • 有料

  • 搜索

[置顶] 从零开始学LDA(Latent Dirichlet allocation)

发表于 2017-11-07 | 分类于 机器学习模型 | 热度: ℃

去年初学LDA,看完了Rickjin老师的《LDA数学八卦》,觉得不是很懂,查阅了很多资料之后才对LDA有了更深入地认识。一直想加入自己的理解后更简单的讲述这个模型,今日补上。

注:文章的行文思路与大多数公式参考了Rickjin《LDA数学八卦》。有兴趣更深入了解的同学可以在看完本篇后继续阅读。

LDA(Latent Dirichlet allocation)是主题模型的一种,最早是由Blei D M[1]等人在2003年提出的,常被用于文档的主题识别。时至今日,在大大小小的会议上仍能看到不少对LDA(或其衍生、或类似的主题模型)提出改进的文章。其自然的思路,优雅的求解和拓展性强的模型结构,实在是非常适合作为对无监督学习一个入门模型来学习和改进。

本文主要介绍LDA背后的相关数学知识和模型的构建与求解思路,力求只有少量统计知识的初学者也能看懂。文中略去了大量的公式推导细节,如果希望深入的了解,请根据需要查找相关的资料。

阅读全文 »

《隐性逻辑》读书笔记

发表于 2017-11-19 | 热度: ℃

A novel approach to identify the major research themes and development trajectory: The case of patenting research

发表于 2017-11-15 | 分类于 文献阅读 , Technology foresight | 热度: ℃

作者:Louis Y.Y. Lu, John S. Liu

年份:2015

期刊:Technological Forecasting & Social Change

研究内容:Identify the major research themes. 文章在WOS上检索了关于“patent”的论文,建立引文网络,通过edge-betweenness clustering technique和key-route main path analysis are两种方法来确立主要研究主题。提出的方法可用于发现一个领域的主要研究主题并绘制发展轨迹。数据需要有citation relationships。

这篇文章的国内外研究现状是穿插在小节中,而不是独立在某一个chapter中写的。其实我个人比较认同这种引用文献的方式,但在TF & SC的其他论文中似乎比较少见。

阅读全文 »

Topic-driven Multi-type Citation Network Analysis

发表于 2017-11-10 | 分类于 文献阅读 , Technology foresight | 热度: ℃

作者:Yang Z, Hong L, Davison B D.

年份:2010

期刊:Adaptivity, Personalization and Fusion of Heterogeneous Information.

研究内容:Focus on the task of ranking authors.以往的研究已经使用了content-based approaches或者citation network link analyses,但两者的结合却很少。本文提出一种新的概率模型,模型结合了基于内容的方法和多种引用网络(文章之间,作者之间,隶属关系,出版场所),并且提出了heterogeneous PageRank random surfer model来反映不同特征的重要性。

本文贡献:

  • Proposing a novel probabilistic model which combines content-based analysis with a multi-type citation network, integrating relationships of authors, papers, affiliations and publishing venues in one model. This model can be extended to include more types of social factors.
  • Proposing a heterogeneous PageRank random surfer model compared with the original uniform PageRank model, to reflect the impact among different factors.
  • Introducing topical link analysis into citation network analysis. In particular, Topical PageRank [18] is adopted for citation link analysis.
  • A comparative study using ACM digital library data on various PageRank extensions as well as different complexity of citation networks.

说实话,他号称的Combine就是把俩结果用一个权值加起来,总有一种上当受骗的感觉…🙃🙃🙃

阅读全文 »

Social Influence Analysis in Large-scale Networks

发表于 2017-11-10 | 分类于 文献阅读 , Social Networks | 热度: ℃

作者:Jie Tang

年份:2009

期刊:KDD

研究内容:区分不同angle(topic)上的社会影响,量化影响的大小。 propose Topical Affinity Propagation (TAP) to model the topic-level social influence on large networks.

阅读全文 »
123
Aros Lin

Aros Lin

Machine Learning
Data Mining
Psychology
Personal Site

13 日志
8 分类
7 标签
RSS
GitHub
© 2018 Aros Lin
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.3
本站访问人数 总访问量
0%