- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多文档自动文摘中的特征组合优化! - 计算机系统应用
2334 年 第 4 期 计 算 机 系 统 应 用
多文档自动文摘中的特征组合优化!
!#$%’(% )*(%#%+’(% , -.’(/0.1 % 2/3(% 4 56/#.(1 7/(#’(%6
8/##’0%+’(%
刘茂福! 李淑君! 金可佳! 张晓龙! (武汉科技大学 计算机科学与技术学院 湖北 武汉 #$$% )
摘! 要:在分析当前多文档自动文摘方法中使用较多的特征基础上,提出了一种特征组合优化模型。该模型选
用’( )*( ,句子位置及与标题句相似度来判断句子包含信息的重要程度,并加入了句子长度特征解决由
’( )*( 特征引起的长度偏长的句子占优势的问题,采用这 个特征来判断句子的重要性,并给每个特征
指定权重来解决优化问题,实验结果表明特征组合优化模型在多文档自动文摘中的可行性。
关键词:
’( )*( 句子位置 标题句相似度 句子长度 组合优化
+! 引言 等[, ]。但单纯以统计的方法来衡量句子中的词在文档
随着网络的迅速发展,人们接触到的数据急剧增 的重要性,没有考虑其语义环境,同时忽略了文章的结
多,当人们面对成千上万同一主题的网页,它们大多 构信息及包含信息的重要程度,此外,在采用词频特征
具有相同的信息,又包含少量不同的信息,如何快速 时会使句子的重要性偏向于较长的句子,因此,本文采
用四个特征:词的’( )*( 、句子的位置、句子与标题句
准确地获取这些关键信息成为人们关注的问题。文
本摘要可以帮助人们花更少的时间获得更多有用的 的相似度以及句子长度特征来解决以上问题。本文以
信息。 -./,$$+ 语料为基础,以句子为基本处理单元,将句子
的’( )*( 与句子位置、标题句相似度以及句子长度特
文摘是准确全面地反映某一文本中心内容的简洁
连贯的短文。自动文摘就是利用计算机自动地从原始 征相结合,并优化这四个特征的权重找出最佳的组合
文献中提取文摘。多文档文摘是将多文档集合中多次 方式。
重复的信息以一次出现在文摘中,其他与主题相关的
信息根据重要性及压缩比依次抽取的文本集合压缩技 ,! 特征组合优化模型
术[+ ]。目前多文档文摘的主要方法是将多文档集合作 模型采用自动摘录的多文档文摘方法。自动摘录
为一个整体研究,将文档集中的句子按其表达意思的 (01’234’)5 67’845’)29 )将文本视为句子的线性序列,将
相近程度组合聚类,然后从不同的类别中抽取文摘句。 句子视为词的线性序列[# ];按照句子的各个特征计算
在国内外目前的自动文摘研究中,计算句子重要度用 每个特征项的得分,并按一定方式组合优化各个特征
到的特征有:词频,位置信息,相似度等。这些特征从 项的权重得到句子的最终得分,按最终得分排序,抽取
不同的方面体现了信息的重要性,如何更好的组合优 句子生成文摘。
化这些特征使文摘更准确更全面的反映原文信息是本
模型主要分 个模块实现:预处理,独立特征计
文关注的问题。
算,特征组合优化及文摘的生成。
统计特征是自动文摘中常用到的方法。统计方法
的自动文摘系统是利用文章的形式特征来提取摘要,
您可能关注的文档
- 基于余类零空间与最近距离的人脸识别算法① - 计算机系统应用.pdf
- 基于信息模型的数控机床可靠性系统构建.pdf
- 基于信息熵的知识网度量方法及应用 - 东南大学学报.pdf
- 基于信息重用技术的机床产品快速设计方法 - 重庆理工大学学报.pdf
- 基于制度创新视角的国有企业核心竞争力研究 - 社科网.pdf
- 基于内容的音乐语义特征描述方法 - 电子设计工程.pdf
- 基于低频振幅算法的难治性癫痫发作间期静息态功能磁共振成像研究 .doc
- 基于公理化设计理论的产品配置建模方法及其在大型化工 - 化工学报.pdf
- 基于包层旋转折变型光纤光栅的动态增益均衡器! - 物理学报.pdf
- 基于动态能力中介作用的资源开发过程与新创企业绩效关系 - 管理学报.pdf
文档评论(0)