- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于小世界模型中文文本主题分析
基于小世界模型中文文本主题分析
摘要:本文旨在研究如何基于小世界模型进行文本分割,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来。为此首先证明由文本形成的词汇共现图呈现短路径,高聚集度的特性,说明小世界结构存在于文本中;然后依据小世界结构将词汇共现图划分为“簇”,通过计算“簇”在文本中所占的密度比重识别片段边界,使“簇”与片段对应起来;最后利用短路径,高聚集度的特性提取图“簇”的主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵。虽然国际上已有很多关于小世界结构及基于其上的应用研究,但利用小世界特性进行主题分析还是一个崭新的课题。实验表明,本文所给方法的结果明显好于其他方法,说明可以为下一步文本推理的工作提供有价值的预处理。
关键词:计算机应用;中文信息处理;主题分析;小世界模型;文本分割;词汇聚类
中图分类号:TP391 文献标识码:A
文本的主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等,分析结果对于信息提取、文摘自动生成、文本分类等领域都有极为重要的价值。主题分析的程度随着应用对象的不同有所区别,浅层次的分析仅仅确定主题边界(文本分割)[1,2],或者进而指明不同片段间的关系(是否讨论同一主题)[3];比较复杂的分析能够在识别边界的基础上讨论主题的内容[4]。作为文本推理的预处理,本文研究如何利用小世界模型特性识别文本的片段边界,并抽取片段主题及全文的中心主题。
常用的主题分析策略是选择合适的概率模型,利用统计的方法实现边界计算及主题提取。文献[4]以不附加任何统计假设的有限混合模型(FiniteMixture Model)代表文本中的词汇分布,直接利用期望极大算法对其进行训练。PLSA(Probabilistic La-tent Semantic Analysis)[5]和LDA(Latent DirichletAllocation)[6,7]是另外两种可选的,也是目前较常用的主题模型。统计方法的最大弊端是需要大量的背景语料,对于应用来说,有时并不方便除了采用统计的方法,主题提取还可以基于其他策略,比如词汇链[8],但无法与文本分割集成在统一框架之下。
与上述策略完全不同,本文基于文本的小世界特性:①将文本表示为词汇共现图,通过聚类形成多个“簇”;②利用密度公式计算不同的“簇”所对应的文本片段,识别片段边界;③提取片段主题词,并通过背景语料库的词汇聚类产生联想;④从联想后的片段主题词中提取全文中心主题词。实验表明以该方法分析文本的主题脉络,其结果基本符合人的直觉判断,且优于其他模型及方法。
本文的结构安排如下,第一节介绍小世界模型;第二节解释词汇聚类;第三节详述主题分析的方法;第四节给出测试手段及实验结果,并就实验结果进行讨论;最后总结全文。
1 小世界模型
小世界拓扑结构常见于生物、社会以及人造系统中。对于自然语言网络的小世界特性研究基本集中在印欧语系语言,比如英语[9,10],而汉语与这类语言有极大的差别。第四节的实验表明汉语文本同样存在小世界现象。
1.1 小世界现象
社会学家Milgram在1976年发现,任意一对美国人之间,大都可以找到不多于六个两两相识的人将他们联系起来,这就是著名的“六度分离(Six-Degree Separation)”。D.J.Watts[11]对这一网络特性进行了深入的研究,于1998年提出“小世界模型”,该模型在某种程度上同时实现了短路径和高聚集度两种特性。
1.2 词汇共现图
通过文本建立词汇共现图的方法如下:
(1)对文本进行预处理,包括分词,删除虚词及无意义的实词,忽略标题,图表及文章结构等。
(2)选择出现频率f>fthr为一常数)的n个词汇作为节点。
(3)针对每一对词汇ωi,ωj,计算Jaccard系数Jωi,ωj如果Jωi,ωj>Jthr(Jthr为一常数)则在ωi,ωj之间加边。Jaccard系数的计算公式为:Jωi,ωj=
其中nωi代表出现词汇ωi的句子数目,nωj代表出现词汇ωj的句子数目,nωi,ωj代表同时出现词汇ωi,ωi的句子数目。
1.3 小世界特性
为了将小世界特性形式化的表示出来,Watts[11]引入特征路径长度和聚集度两个变量。特征路径长度是指任意两个节点之间最短路径长度的平均值,聚集度是指一个随机抽取节点的两个邻接节点成为邻接节点的概率。具体计算方法如下:
假设ΩL=(WL,EL)被定义为由文本抽取的词汇共现图,其中,WL={ωi},
文档评论(0)