- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用上下文提高文本聚类效果
利用上下文提高文本聚类效果
摘 要;传统文本聚类的向量空间模型中,认为词的权重只和词频有关,而与词语出现的上下文无关。本文介绍了如何借助按词语之间关系组织的本体论词典对文章进行上下文分析,得到文章中词语之间意义上的相互关系,进而用相关词语的词频及关系的权重量化地给出一个词语受到上下文的支持程度,所以在衡量词语权重时不仅考虑其词频,而且考虑上下文的支持情况。文章还介绍了如何用自动构建的方法得到本文所需的词典,使得在本体论词典资源还不太丰富的汉语中也能应用上面的方法。实验数据表明,本文的方法能有效的消除噪音,提高文本聚类的效果。
关键词:计算机应用;中文信息处理;文本聚类;上下文;词语权重;本体论词典
中图分类号:TP18 文献标识码:A
1 引言
在文本聚类、基于关键词的信息检索和话题跟踪等方面,一个重要的环节是给文档的特征顶(一般为文章中的词语)一个合理的权重,来衡量这个特征项在文档中的重要程度(在信息检索中,这个量又称为目标文档和关键词的相关程度)。
在传统方法中,特征项的权重一般是按特征项在文档中出现的频率或相对频率来计算。但由于受到作者行文习惯等方面的影响,特征项的频率往往带有很大的偏向性噪音。特别是在搜索引擎领域,一些网站会使用关键词欺骗等手段来获得靠前的排名。如何合理的衡量一个特征项在文档中的权重成为了自然语言处理中的一个重要课题。
在人们的实际阅读中,上下文是理解文章的重要信息。在自然语言处理领域,上下文方面的研究一般集中于如何利用上下文进行词语的消歧,而文本聚类方面一般以“词袋”模型来表示文档,即认为一个词语在文章中的权重只和它出现的次数有关,而与词出现的次序以及词语之间的关系无关。这样传统的文本聚类方法在处理词语时就忽略了上下文的信息。近年来的一些研究表明,在考虑上下文(Context)的信息后能够提高搜索引擎和文本聚类的效果。如何充分有效的利用上下文(Context)信息成为了一个研究热点。
关于“Context”的基础理论,近年来许多国内外学者也开展了研究。这里的“Context”不仅指自然语言处理中的上下文,也包括移动设备的环境等内容、图像处理中目标物体和周围物体的关系等方面。
“Context”是指一个物体,以及这个物体和其他物体之间的关系。在智能机器、图像处理等领域,“Context”理论已开始显现出它的优势。提到,关于“Context”的模式有两种:一种是“in theContext of x(CO)”,可以理解为在某种环境中,对问题的解空间能够做出的一些推测;另外一种是“the Context for x(CF)”,可以理解为选定某个中心物体为研究对象时,考虑环境对其的支持情况。
在自然语言处理中,传统的关于上下文的研究大多数都可以归结为“CO”模式。比如利用上下文进行词义消歧等,考虑的是在某一上下文中可以对词语的词性、词义做出的推断。
近年来在搜索引擎方面,“CF”模式的研究成为一个热点。例如在隐含语义检索技术中,把那些不含关键字、但却和含关键字的文档有类似上下文的文档也当成目标文档返回给用户,在这项技术中突出考虑的不是单单是要检索的关键字,而且把关键字出现的上下文也作为一个重要方面来考虑。又如,Google的Topic-Sensitive PageRank技术是对网页进行分主题的PageRank网页排名,计算目标网页被哪类主题的网页引用最多,从而得知网页和哪个主题相关。这种技术认为具有链接关系的网页之间具有相似的主题,在考察一个网页的主题时,不仅仅考察这个网页的内容,而且把与这个网页有超链接关系的网页作为Context,通过考察这些相关网页的内容来确定目标网页的主题。再如,在Applied Semantics公司(2003年被Google收购)的专利技术Meaning-based information organizationand retrieval中,把要检索的关键字当成一组词,把目标文档当成另一组词,然后再计算这两组词在语义网中的距离。这种技术基本抛弃了传统的基于词频的方法,可以认为它把关键字看作中心物体,把目标文档中出现的词语看作Context,然后通过在语义网中计算它们之间的距离来表示它们的相关程度。
在文本聚类方面,提出了利用句法分析得到句子的树状(网状)表示的语法结构,然后分析某个节点所拥有的语法链接数量,认为链接数越多那么这个节点越重要。这篇文章中还提到如何借助自组织神经网络的方法把句法分析得到的单个句子中的词语之间关系扩展到整篇文章中,总的来说这种方法还是借助单个句子中词语之间的语法关系及其扩展关系,来计算词语在文章中的权重。
分析上面列举的近年来自然语言处理领域出现的“
原创力文档


文档评论(0)