- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
270_话题内相关文本的内容计算
话题内相关文本的内容计算
1 2
刘冬明,杨尔弘
(1.中北大学,山西省太原市 030051;2. 北京语言大学,北京市 100083)
摘要: 信息的暴涨给文本处理带来了更多的挑战。话题检测能够把大量的信息以文本为单位有效的组织起
来,然而最终用户并不需要涉及某一话题的所有文本,仅仅关心该话题的具体内容。在我们能够实现根据
相关文本智能表达话题内容推送给用户之前,自动从相关文本中挑选符合用户需求的文本是一个非常有意
义的工作。本文致力于相同话题的文本之间的内容比较计算,目的便是能够有效的选出满足需求的文本。
我们通过对话题进行重新定义,并根据此定义设定了话题和文本的表示方法,给出了基于该表示方法的话
题和文本之间的内容比较计算方法。最后,通过实验说明了这一系列方法的有效性。
关键词:话题定义;文本表示; 话题检测;文本内容计算
中图分类号:TP391 文献标识码:A
The Text Content Computing within an Topic
Abstract : Because of Skyrocketing information, text processing is encountering more challenges.
Topic detection can effectively organize a lot of information with the text as an unit, but the end
user does not need all the texts on a topic. They may just concern the specific content of the topic.
Before we can automatically push content to the user with intelligent expression in accordance
with the relevant texts in the topic, it is a very meaningful work that selecting the text in line with
the needs of users from the associated texts. This paper will compare the content between the texts
in a topic and effectively select the text which meets the needs of the user. We redefine the topic
and set topic and text representation pattern according to this definition. Then we give calculation
method between the texts and topic based on the representation pattern. Finally, the experiment
illustrates the effectiveness of this series approach.
Key words: Topic Definition of Topic; Textual Representation; Topic Detection; Text Content
Computing
1 引言
随着互联网的迅速发展,信息量规模巨大,然而相同或相近内容的信息,特别是新闻话
题,在位置上分散,在形式上多样,导致信息难以高效的利用。话题检测与跟踪[1]、话题
演化等相关技术正是为了将信息根据内容以有效合理的形式组织起来。然而对于最终用户来
讲,需要的不是关于某一话题成堆的文本,而是关于该话题的具体内容或某一方面的内容。
要想精准的给予用户所需信息,需要依据内容的自动语言生成技术,然而该技术目前还远未
达到应用的要求;另外也可采用多文档自动文摘技术,但在效果上远不如原文流畅易读。
本文研究目标就在于从描述某一话题的大量文本中寻找符合用户需求的文本,这样的文
本或者包含了整个话题的来龙去脉,或者包含了用户想要了解的该话题某一方面的
文档评论(0)