多文档自动文摘中的特征组合优化 combination optimization of features in multi-documents automatic summarization.pdfVIP

下载本文档

0
0
约1.31万字
约 5页
2017-11-02 发布于上海
举报
版权申诉

多文档自动文摘中的特征组合优化 combination optimization of features in multi-documents automatic summarization.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多文档自动文摘中的特征组合优化 combination optimization of features in multi-documents automatic summarization

2008年第8期计算机系统应用多文档自动文摘中的特征组合优化① COmbinatiOn OfFeaturesinMuIti—dOcumentsAutOmatic OptimizatiOn Summarization 刘茂福李淑君金可佳张晓龙 (武汉科技大学计算机科学与技术学院湖北武汉430065) 摘要：在分析当前多文档自动文摘方法中使用较多的特征基础上，提出了一种特征组合优化模型。该模型选用tf幸idf，句子位置及与标题句相似度来判断句子包含信息的重要程度，并加入了句子长度特征解决由 tf木．df特征引起的长度偏长的句子占优势的问题，采用这4个特征来判断句子的重要性，并给每个特征指定权重来解决优化问题，实验结果表明特征组合优化模型在多文档自动文摘中的可行性。关键词：tf幸Ⅻ句子位置标题句相似度句子长度组合优化 1 引言等雎】。但单纯以统计的方法来衡量句子中的词在文档随着网络的迅速发展，人们接触到的数据急剧增的重要性，没有考虑其语义环境，同时忽略了文章的结多，当人们面对成千上万同一主题的网页，它们大多构信息及包含信息的重要程度，此外，在采用词频特征具有相同的信息，又包含少量不同的信息，如何快速时会使句子的重要性偏向于较长的句子，因此，本文采准确地获取这些关键信息成为人们关注的问题。文用四个特征：词的tf幸．df、句子的位置、句子与标题句本摘要可以帮助人们花更少的时间获得更多有用的的相似度以及句子长度特征来解决以上问题。本文以信息。 DUC2001语料为基础，以句子为基本处理单元，将句子文摘是准确全面地反映某一文本中心内容的简洁的tf宰idf与句子位置、标题句相似度以及句子长度特连贯的短文。自动文摘就是利用计算机自动地从原始征相结合，并优化这四个特征的权重找出最佳的组合文献中提取文摘。多文档文摘是将多文档集合中多次方式。重复的信息以一次出现在文摘中，其他与主题相关的信息根据重要性及压缩比依次抽取的文本集合压缩技 2特征组合优化模型术Ⅲ。目前多文档文摘的主要方法是将多文档集合作模型采用自动摘录的多文档文摘方法。自动摘录为一个整体研究，将文档集中的句子按其表达意思的 (Automatic 相近程度组合聚类，然后从不同的类别中抽取文摘句。句子视为词的线性序列[3】：按照句子的各个特征计算在国内外目前的自动文摘研究中，计算句子重要度用每个特征项的得分，并按一定方式组合优化各个特征到的特征有：词频，位置信息，相似度等。这些特征从项的权重得到句子的最终得分，按最终得分排序，抽取不同的方面体现了信息的重要性，如何更好的组合优句子生成文摘。化这些特征使文摘更准确更全面的反映原文信息是本模型主要分4个模块实现：预处理，独立特征计文关注的问题。算，特征组合优化及文摘的生成。统计特征是自动文摘中常用到的方法。统计方法的自动文摘系统是利用文章的形式特征来提取摘要， 2．1预处理如词频、关键词、词的位置、词控制表和指示性的句子预处理主要是将DUC2001语料中的每个文档划 ①http：∥gate．∽．uk／万方数据计算机系统应用