作者:Yang Z, Hong L, Davison B D.
年份:2010
期刊:Adaptivity, Personalization and Fusion of Heterogeneous Information.
研究内容:Focus on the task of ranking authors.以往的研究已经使用了content-based approaches或者citation network link analyses,但两者的结合却很少。本文提出一种新的概率模型,模型结合了基于内容的方法和多种引用网络(文章之间,作者之间,隶属关系,出版场所),并且提出了heterogeneous PageRank random surfer model来反映不同特征的重要性。
本文贡献:
- Proposing a novel probabilistic model which combines content-based analysis with a multi-type citation network, integrating relationships of authors, papers, affiliations and publishing venues in one model. This model can be extended to include more types of social factors.
- Proposing a heterogeneous PageRank random surfer model compared with the original uniform PageRank model, to reflect the impact among different factors.
- Introducing topical link analysis into citation network analysis. In particular, Topical PageRank [18] is adopted for citation link analysis.
- A comparative study using ACM digital library data on various PageRank extensions as well as different complexity of citation networks.
说实话,他号称的Combine就是把俩结果用一个权值加起来,总有一种上当受骗的感觉…🙃🙃🙃
¶主要方法:
¶构建网络图
¶4-T graph version-1
四个Factor,四副sub-graph。
- Author Graph GAu。 节点是作者。如果两个作者共同写过一篇文章或者一个引用过另一个,两个作者间存在连线。单线,无权。(下同)
- Paper Graph GP。 节点是文章,连线是引用。
- Affiliation Graph GAf。 节点是机构,如果两个机构下至少有一对作者有连线,两机构连线。
- Venue Graph GV。节点是出版社,如果两个出版社下至少有一对文章有连线,两出版社连线。
子网间的连线:根据各自的关系,有一度连接的都连起来。
- 作者连线发表文章
- 作者连线属于机构
- 作者连线发表文章出版社
- 文章连线作者机构
- 文章连线出版社
- 机构连接下属作者发表文章对应的出版社。
¶4-T graph version-2
框架1存在冗余。设计框架2,子图和图内连接方式相同,作者只和文章与机构连线,文章之和作者和出版物连线。
¶Topical PageRank求解
整张图看作一个大的网络,使用Pagerank进行排序。不同于均匀的PageRank的是,节点间的传播概率是不同的。相同类型的两个节点间的传播概率相同。
基于Topical PageRank来实现content-based analysis。每一个节点对应一个Page,包括代表这个节点的T个主题的分布组成的主题向量和代表这个节点在每个主题上的重要程度的authority向量。random surfer model,游走求解。
¶Combine content-based approach with citation network
Okapi BM25:In information retrieval, Okapi BM25 (BM stands for Best Matching) is a ranking function used by search engines to rank matching documents according to their relevance to a given search query.
content-based approach就是用Okapi BM25算一个结果,citation network就是前面的Topical PageRank,Combine就是把他俩用一个权值加起来。
这就是你说的Combine?你在逗我?🙂
三种方式来评价结果和query的匹配程度(你上面不是说不用于检索吗?)
- In the first approach, we collected all the PC members in the related conferences for each research area during 2008 and 2009.
- In the second approach, we collected all the ACM fellows, ACM distinguished and senior members provided from the ACM website.
- We utilized human judgements to generate relevant lists in the third approach. In our evaluation system, the top ten and twenty returned authors by various ranking algorithms were retrieved and mixed together.
¶实验结果
评价指标:NDCG(网页中用于衡量网页排序质量的指标)
越后面介绍的方法指标更好。
参数的比较。