基于LDA的Topic Model变形与发展_会飞的蝸牛的博客-程序员宝宝

基于LDA的Topic Model变形
最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:
David M. Blei
LDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:
J. Chang and D. Blei. Relational Topic Models for Document Networks. Artificial Intelligence and Statistics, 2009. [ PDF]
       基本LDA模型,当然假设文档之间是可交换的,那么在原始的LDA中文档之间其实是认为条件独立的。而在实际情况中,往往不是这个样子的,文档间也许会存 在“social network”的这样的网络性质。如何结合内容和“social network”这两个特征也许是一个非常有意思的话题。这篇论文就是给出了一个解决方法。它为两个文档之间增加了一个二元随机变量,根据其内容特征,来 刻画这种隐含的链接关系。
       关于显示的链接关系是过去今年内,人们追逐研究的对象,进而产生PageRank、HITS等等一大批优秀的链接关系算法。那么如何利用隐含的链接呢?什 么是隐含的链接呢?一个最简单的隐含链接就是基于内容相似度构建的图。这个被人们用的不亦乐乎,比如在文摘中的LexRank等。O Kurland在SIGIR中发了两篇大概都是类似的文章,本质思想貌似就是在利用内容之间的“超链接”。
       另外一个比较新颖的研究点,就是如何基于“social network”来挖掘内容特征? Mei Qiaozhu的一篇论文就是利用“social network”的网络结构特征最为规则化因子,重新修正了原始的PLSA模型。想法非常的新颖。
D. Blei and J. Lafferty. Topic Models. In A. Srivastava and M. Sahami, editors, Text Mining: Theory and Applications. Taylor and Francis, in press. [ PDF]
    这篇论文是一篇综述性的大制作的论文,Blei在里面深入浅出的介绍了什么是Topic Model以及他早期的一些Topic Model的变形。值得大家去阅读。
J. Boyd-Graber and D. Blei. Syntactic Topic Models. Neural Information Processing Systems, 2009. [ PDF] [ Supplement]
   原始的LDA考察两个词只是基于共现的角度。而实际情况中,这种共现往往是不能够精确地刻画一些句子结构信息或者说词义信息。如何把这种信息引入。考虑 更深层的生成模型是目前一个热点。这篇论文着眼于一个句子的句法分析的生成过程,它认为每个句子的生成都是基于“parse tree”的,整个概率生成过程完全附着在“parse tree”上了。并且每个句子内,不同的词都有可能去选择更适合自己的Topic。
  
D. Blei, J. McAuliffe. Supervised topic models. In Advances in Neural Information Processing Systems 21, 2007. [PDF] [ digg data]
   现如今,网络数据除了纯内容外,往往还有其他一写辅助信息,如用户对于某博文的评价或者说用户对于某商品的评价。一个最典型的例子,就是说在当当买书 后,你可以给该书的质量进行打分:5星代表最好,4星代表比较好,。。。依次类推。那么如何把这些信息加入原始的LDA中呢? Blei为其引入了一个response变量因子,该因子条件依赖于该文档的topic distribution。
    如何把ratable information和内容有机地结合起来也是最近的一个研究热点。大多数方法还都是,建立一个ratable response variable,然后该变量条件依赖于内容或者说Topic信息。
J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation. In Empirical Methods in Natural Language Processing, 2007. [PDF]
    这篇论文对应的一个大背景是把Topic Model应用到自然语言处理中,具体内容我没太看,主要是结合了WordNet的结构特征,在此基础上产生的图模型。
    此外的一些工作还有把Topic Model用来文摘和词性标注中的。应用到这些问题的两个主要思路:第一个就是用Topic Model去学习出一些compact features,然后在次基础上利用分类器等机器学习方法;另外一种就是利用原始NLP问题的一些结构信息,比如刚才所说的WordNet中的网络结 构,在这个结构特征中推导出整个图模型的概率生成过程。
D. Blei and J. Lafferty. A correlated topic model of Science. Annals of Applied Statistics. 1:1 17–35. [ PDF] [ shorter version from NIPS 18] [ code][ browser]
   还没有认真看,这个其实打破了原来topic之间的可交换性。
D. Blei and J. Lafferty. Dynamic topic models. In Proceedings of the 23rd International Conference on Machine Learning, 2006. [ PDF]
   也没有仔细看,把Topic Model和时间维度结合了起来。Mei Qiaozhu也有一篇是研究话题内容随着时间变化的论文,但是是基于PLSI和HMM来完成的。
   
T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax. In Advances in Neural Information Processing Systems 17, 2005. [ PDF]
   这篇论文是一篇非常优秀的论文,开篇详细地叙述了词的不同功能分类,也叫做HMM-LDA模型。正如每个人存在都有其社会意义,那么词存在对于文本语义 的表述也有着不同的角色。作者把词分为了两大功能:第一个就是semantic功能,也就是之前我们所有的Topic word;另一个功能就是说语法功能,也就是说这些词的存在是为了让整个句子的生成过程看起来更像一个完整体或者说更符合语言规范。T. Griffiths和M. Steyvers是两个很优秀的学者,他们开发了topic model工具包,并且也有一堆的牛论文。
D. Blei. Probabilistic Models of Text and Images. PhD thesis, U.C. Berkeley, Division of Computer Science, 2004. [ PDF]
   Blei的博士论文,我至今还没有看完,因为一直纠结在那个Varitional inference的推导。自己责备一下自己。
D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003. [A shorter version appeared in NIPS 2002]. [ PDF] [ code]
        LDA的第一篇文章,不算很好读懂。初次阅读时,一般会遇到可交换性、variational inference、simplex等等细节问题。经典中的经典。
D. Blei and P. Moreno. Topic segmentation with an aspect hidden Markov model. In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 343–348. ACM Press, 2001. [ PDF]
   SIGIR中的一篇关于分段的论文。其实分段这个事情在现实中需求量比较大,但是成熟的工具包并不多,或者我不知道。比较好的成熟的算法一般还是基于语 义斜率的变化来计算的。在次召唤下懂这方面的大牛推荐几个好用的工具。与分段关联很紧密的一个问题就是网页正文抽取,同样也是这个问题,发论文的多,但是 实际release出来代码的很少。比较著名的,如VIPS,但是我没有用过。昨天发现VIPS的作者原来也是一个巨牛的中国人,Deng Cai。之前是清华学生,现在师从Jiawei Han,各种牛会议和牛期刊发了N多的文章。在此膜拜一下。
总结
       目前我能看懂的Topic Model的文章还是很少一部分,自己的概率和数学基础太差,对于posterior inference往往无能为力,这也是下一步我的目标。并且自己其实也不太会创新,下一步也是要在这个方面多下功夫,争取应用Topic Model来解决自己的实际问题。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u010692239/article/details/14464447

智能推荐

在Ubuntu16上做Helib编译_老提的博客-程序员宝宝

1. 编译安装【NTL】 sudo apt-getinstall m4下载gmp并解压,进入gmp-xx目录./configuremakemake checksudo make installls /usr/local/include|grep gmpls /usr/local/lib|grep gmp下载NTL解压,进入NTL-xx/src目录./configuremak...

CryEngine3中的颜色矫正_weixin_30492601的博客-程序员宝宝

颜色矫正是一种后期处理效果,用来处理色相、饱和度、对比度和亮度、曝光度、色彩曲线等的调整,CryEngine3中提供的颜色矫正方法与传统的Gamma矫正来比来的更灵活、更直观,它可以通过一张图或者颜色图表(ColorChart)来调整颜色,这使我们游戏中保持风格一直,色调动态调整更方便。 我们来看如何使用CryEngine3中提供的ColorChart功能来调整画...

计算机房安全检查项目,学校对机房安全进行专项检查_CLOUDU的博客-程序员宝宝

为提高校内机房设备设施使用效率,确保机房安全运行,国有资产管理处、信息化处、保卫处三部门组成联合检查组,对两校区22个单位、85个机房进行了拉网式安全检查。国有资产管理处副处长阎志军,信息化处副处长刘勇,保卫处副处长李文雷、缪长宗,及相关科室人员参加了本次检查。3月14日至21日,检查组深入各单位计算机和服务器机房,逐个房间、逐个机柜检查机房运行状况,对机房的安防、消防设施,机房配置情况,使用环境...

easyUI datagrid 横向滚动条显示问题_weixin_34117522的博客-程序员宝宝

为什么80%的码农都做不了架构师?>>> ...

java基本数据类型:BigDecimal_sinat_25444819的博客-程序员宝宝

今天在工作过程中喷到的问题,与BigDecimal这个类型相关。需求上是前端传两个参数,税前金额和税后金额,后端要校验关系是否正确,参数的接收使用BigDecimal类型。两个参数如下所示BigDecimal amount = request.getAmount().divide(new BigDecimal(1.071),2,BigDecimal.ROUND_DOWN);BigDecim...

Scala 概述、Scala编译器安装、Idea配置Scala编译器 01_啊策策的博客-程序员宝宝

1. 什么是ScalaScala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。Scala官网2. 为什么要学Scala优雅(不臃肿,不繁琐): 这是框架设计师第一要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。ps框架师就是写API,写框架的大牛~速度...

随便推点

<c:forEach>循环list,<c:if>判断奇偶_wuyukunbi的博客-程序员宝宝_c:foreach 奇偶

style="background-color: #ffffff" style="background-color: #f9f9f9" > ${prod.prodId} ...... list:后台传过来的集合prod:你定义的名字vs:用来计数prodId:实体

信息系统项目管理师-项目沟通管理与干系人管理核心知识点思维脑图_霸道流氓气质的博客-程序员宝宝

场景项目人力沟通管理有关的知识整理。注:博客:https://blog.csdn.net/badao_liumang_qizhi关注公众号霸道的程序猿获取编程相关电子书、教程推送与免费下载。实现项目沟通管理项目沟通管理基础项目沟通管理过程项目沟通管理技术和工具项目干系人管理项目干系人管理基础项目干系人管理过程项目干系人管理技术和工具沟通管理和干系人管理总脑图...

ModuleCode: urlrewrite 0.03_胡争辉的博客-程序员宝宝_urlrewritemodule

ModuleCode: urlrewrite 0.03ModuleDescription: Url RewriteDirectory: /modules/urlrewrite/adminFile: /modules/urlrewrite/admin/create.php include dirname(__FILE__)./../../../include/cp_header.php; x

Android的Audio 系统_zbl_zbl的博客-程序员宝宝

Android的Audio 系统第一部分 Audio系统综述第二部分 Audio系统和上层接口第三部分 Audio的硬件抽象层第一部分 Audio系统综述Audio系统在Android中负责音频方面的数据流传输和控制功能,也负责音频设备的管理。Audio系统主要的分成几个层次:1. media中库提供的Audio系统的上层接口2. AudioFlinger作为Aud

Spark 学习之路三——Spark 的核心之 RDD 进阶_taoshengyijiu_的博客-程序员宝宝

Spark 学习之路三——Spark 的核心之 RDD 进阶文章目录一、Spark 优化1.1 常用参数说明1.2 Spark 常用编程建议二、Spark 中的两种依赖关系2.1 宽依赖2.2 窄依赖2.3 `DAG`2.4 **任务的划分(重点)**2.5 RDD的缓存与检查点2.5.1 RDD 缓存2.5.2 RDD 检查点2.6 累加器和广播变量2.6.1 累加器2.6.2 广播变量三、Spark 的原理3.1 Spark 的运行流程3.2 Spark 的运行涉及概念3.2.1 `Applicati

MSP430G2553电子时钟实验_Surenon的博客-程序员宝宝

用msp430g2553控制1602液晶显示时间,并能够通过按键设置时间。我做了正计时和倒计时两种模式/*********************************************************************msp430g2553与1602引脚连接情况* PIN1 --&gt; 地* PIN2 --&gt; VCC(一定要接+5V)...

推荐文章

热门文章

相关标签