网站大量收购独家精品文档,联系QQ:2885784924

多文档自动文摘中的特征组合优化! - 计算机系统应用.pdf

多文档自动文摘中的特征组合优化! - 计算机系统应用.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多文档自动文摘中的特征组合优化! - 计算机系统应用

2334 年 第 4 期 计 算 机 系 统 应 用 多文档自动文摘中的特征组合优化! !#$%’(% )*(%#%+’(% , -.’(/0.1 % 2/3(% 4 56/#.(1 7/(#’(%6 8/##’0%+’(% 刘茂福! 李淑君! 金可佳! 张晓龙! (武汉科技大学 计算机科学与技术学院 湖北 武汉 #$$% ) 摘! 要:在分析当前多文档自动文摘方法中使用较多的特征基础上,提出了一种特征组合优化模型。该模型选 用’( )*( ,句子位置及与标题句相似度来判断句子包含信息的重要程度,并加入了句子长度特征解决由 ’( )*( 特征引起的长度偏长的句子占优势的问题,采用这 个特征来判断句子的重要性,并给每个特征 指定权重来解决优化问题,实验结果表明特征组合优化模型在多文档自动文摘中的可行性。 关键词: ’( )*( 句子位置 标题句相似度 句子长度 组合优化 +! 引言 等[, ]。但单纯以统计的方法来衡量句子中的词在文档 随着网络的迅速发展,人们接触到的数据急剧增 的重要性,没有考虑其语义环境,同时忽略了文章的结 多,当人们面对成千上万同一主题的网页,它们大多 构信息及包含信息的重要程度,此外,在采用词频特征 具有相同的信息,又包含少量不同的信息,如何快速 时会使句子的重要性偏向于较长的句子,因此,本文采 用四个特征:词的’( )*( 、句子的位置、句子与标题句 准确地获取这些关键信息成为人们关注的问题。文 本摘要可以帮助人们花更少的时间获得更多有用的 的相似度以及句子长度特征来解决以上问题。本文以 信息。 -./,$$+ 语料为基础,以句子为基本处理单元,将句子 的’( )*( 与句子位置、标题句相似度以及句子长度特 文摘是准确全面地反映某一文本中心内容的简洁 连贯的短文。自动文摘就是利用计算机自动地从原始 征相结合,并优化这四个特征的权重找出最佳的组合 文献中提取文摘。多文档文摘是将多文档集合中多次 方式。 重复的信息以一次出现在文摘中,其他与主题相关的 信息根据重要性及压缩比依次抽取的文本集合压缩技 ,! 特征组合优化模型 术[+ ]。目前多文档文摘的主要方法是将多文档集合作 模型采用自动摘录的多文档文摘方法。自动摘录 为一个整体研究,将文档集中的句子按其表达意思的 (01’234’)5 67’845’)29 )将文本视为句子的线性序列,将 相近程度组合聚类,然后从不同的类别中抽取文摘句。 句子视为词的线性序列[# ];按照句子的各个特征计算 在国内外目前的自动文摘研究中,计算句子重要度用 每个特征项的得分,并按一定方式组合优化各个特征 到的特征有:词频,位置信息,相似度等。这些特征从 项的权重得到句子的最终得分,按最终得分排序,抽取 不同的方面体现了信息的重要性,如何更好的组合优 句子生成文摘。 化这些特征使文摘更准确更全面的反映原文信息是本 模型主要分 个模块实现:预处理,独立特征计 文关注的问题。 算,特征组合优化及文摘的生成。 统计特征是自动文摘中常用到的方法。统计方法 的自动文摘系统是利用文章的形式特征来提取摘要,

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档