多文档自动文摘中的特征组合优化 combination optimization of features in multi-documents automatic summarization.pdfVIP

多文档自动文摘中的特征组合优化 combination optimization of features in multi-documents automatic summarization.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多文档自动文摘中的特征组合优化 combination optimization of features in multi-documents automatic summarization

2008年第8期 计算机系统应用 多文档自动文摘中的特征组合优化① COmbinatiOn OfFeaturesinMuIti—dOcumentsAutOmatic OptimizatiOn Summarization 刘茂福 李淑君 金可佳 张晓龙 (武汉科技大学计算机科学与技术学院湖北武汉430065) 摘要:在分析当前多文档自动文摘方法中使用较多的特征基础上,提出了一种特征组合优化模型。该模型选 用tf幸idf,句子位置及与标题句相似度来判断句子包含信息的重要程度,并加入了句子长度特征解决由 tf木.df特征引起的长度偏长的句子占优势的问题,采用这4个特征来判断句子的重要性,并给每个特征 指定权重来解决优化问题,实验结果表明特征组合优化模型在多文档自动文摘中的可行性。 关键词:tf幸Ⅻ句子位置标题句相似度句子长度组合优化 1 引言 等雎】。但单纯以统计的方法来衡量句子中的词在文档 随着网络的迅速发展,人们接触到的数据急剧增 的重要性,没有考虑其语义环境,同时忽略了文章的结 多,当人们面对成千上万同一主题的网页,它们大多 构信息及包含信息的重要程度,此外,在采用词频特征 具有相同的信息,又包含少量不同的信息,如何快速 时会使句子的重要性偏向于较长的句子,因此,本文采 准确地获取这些关键信息成为人们关注的问题。文 用四个特征:词的tf幸.df、句子的位置、句子与标题句 本摘要可以帮助人们花更少的时间获得更多有用的 的相似度以及句子长度特征来解决以上问题。本文以 信息。 DUC2001语料为基础,以句子为基本处理单元,将句子 文摘是准确全面地反映某一文本中心内容的简洁 的tf宰idf与句子位置、标题句相似度以及句子长度特 连贯的短文。自动文摘就是利用计算机自动地从原始 征相结合,并优化这四个特征的权重找出最佳的组合 文献中提取文摘。多文档文摘是将多文档集合中多次 方式。 重复的信息以一次出现在文摘中,其他与主题相关的 信息根据重要性及压缩比依次抽取的文本集合压缩技 2特征组合优化模型 术Ⅲ。目前多文档文摘的主要方法是将多文档集合作 模型采用自动摘录的多文档文摘方法。自动摘录 为一个整体研究,将文档集中的句子按其表达意思的 (Automatic 相近程度组合聚类,然后从不同的类别中抽取文摘句。 句子视为词的线性序列[3】:按照句子的各个特征计算 在国内外目前的自动文摘研究中,计算句子重要度用 每个特征项的得分,并按一定方式组合优化各个特征 到的特征有:词频,位置信息,相似度等。这些特征从 项的权重得到句子的最终得分,按最终得分排序,抽取 不同的方面体现了信息的重要性,如何更好的组合优 句子生成文摘。 化这些特征使文摘更准确更全面的反映原文信息是本 模型主要分4个模块实现:预处理,独立特征计 文关注的问题。 算,特征组合优化及文摘的生成。 统计特征是自动文摘中常用到的方法。统计方法 的自动文摘系统是利用文章的形式特征来提取摘要, 2.1预处理 如词频、关键词、词的位置、词控制表和指示性的句子 预处理主要是将DUC2001语料中的每个文档划 ①http:∥gate.∽.uk/ 万方数据 计算机系统应用

您可能关注的文档

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档