基于主题分割与PageRank算法的文本主题抽取.docVIP

下载本文档

11
0
约9.37千字
约 8页
2017-08-17 发布于重庆
举报
版权申诉

基于主题分割与PageRank算法的文本主题抽取.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于主题分割与PageRank算法的文本主题抽取.doc

基于主题分割与PageRank算法的文本主题抽取( 段晓丽王宇 (大连理工大学管理学院辽宁大连 116024) [摘要] 针对主题句抽取时完整性差的问题，本文在对文本进行主题分割的基础上，为每个主题包构建句子关系图，并采用基于图的PageRank算法对关系图中的句子排序，选取权重大的句子作为每个主题包的主题句。实验表明，该算法抽取的主题句对全文有很好的覆盖率。 [关键词] 主题句抽取主题分割句子关系图 PageRank算法 [分类号] TP391 The Subject Extraction Based on Topic Segmentation and PageRank Algorithm Duan XiaoLi Wang Yu （School of Management, Dalian University of Technology, Dalian 116024, China） [Abstract] Considering the completeness of Subject Extraction, this paper sort the sentences with PageRank algorithm based on text theme divisions after reconstructing sentence relation map to every theme package. Then set the sentence which has the maximum weight among all text to be the topics sentence. Experiments show that the topic sentence extraction algorithm has good coverage of the full text. [Keywords] Topic Sentence Extraction Subject Segmenting Sentence Relation Map PageRank Algorithm 随着计算机技术和互联网的发展，信息急剧增长。网络上大量和查询无关或者关联不大的Web页面和文本给人们的阅读和理解带来了很大麻烦。因此有人提出从文本中自动提取文本的主题，为读者节约宝贵的时间和精力。主题句是表达文本主题的一种重要方式，主题句抽取是自动文摘等文本自动处理的一项基础性工作。如何从文本中抽取出对全文覆盖性好、完整性强、准确度高的主题句是主题句抽取的关键。针对这个问题，本文首先对文本进行主题结构分析，将文本按主题划分为几个语义相对内聚的块，再将每个语义块表示为一个句子关系图结构，采用改进的PageRank算法对关系图中的句子进行排序，进行主题句的抽取。 1 相关工作由于很多文本都是多主题的，在对文本进行主题句抽取时，若直接从全文按照句子的重要度由高到低抽取，大主题虽然能得到充分反映，但是可能造成对次重要主题的遗漏或忽略，完整性差。为了保证主题句对文章内容的覆盖度，在对文本进行主题句抽取前，应先为文本划分主题结构[1,2]。文本主题结构划分的主要任务是将原有的文本内容划分成一个或几个不同的部分，每一部分具有下面两个特征：每一部分围绕讲述同一个主题；连续的部分讲述不同的主题[3]。目前关于文本主题结构划分的方法有很多，如国外比较经典的TextTiling方法[4]、Dotploting方法[5]、Kozima在1993年提出的基于词汇集聚图(Lexical Cohesion Profile)的方法[6]等。但上述这些方法在处理特征间相似性时都是采用了基于词的统计信息，没有充分利用文本上下文的语义信息。本文采用的是基于连续段落相似度的主题划分方法，以句子作为最小切分粒度，通过计算相邻段落间句子相似度来得出段落间的相似度，再根据所得信息进行文本主题分割，更加充分利用了文本上下文的语义信息。文本主题句抽取的关键在于给句子赋予有效的权值。评估句子重要性的方法目前通常包括度量句子中词的权值、句子间的相互关系以及借助文本的结构形式来评估句子的重要性[7]。文献[8]提出了一种基于句子特征来确定句子权值的方法，文献[9]采用句子特征与句子间语义关系相结合的方法为句子打分，但是这种基于文本特征抽取的方法通常都需要事先为每个特征设定一定的权值，鲁棒性较差。文献[10]采用以关键词抽取为核心的文摘句选择策略；文献[11]中根据汉语文本切分困难的特点，结合信息论方法，以字同现频率为基础，统计句（段）的信息量，作为权重对句子进行排序，抽取主题句（段），这种基于统计的方法是根据文章的外在特征进行抽取，不能充分利用文本的语义信息，因而抽取结果也不理想