基于主题词权重和句子特征自动文摘.pdf

下载文档 降价啦

6
0
约2.53万字
约 8页
2019-01-22 发布于湖北
举报
版权申诉
保障服务

基于主题词权重和句子特征自动文摘.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

华南理工大学学报(自然科学版) 第38卷第7期 JournalofSouthChina of V01．38No．7 UniversityTechnology 2010年7月 Science 2010 (Natural Edition) July 基于主题词权重和句子特征的自动文摘术蒋昌金1 圜1陈建超2 马千里1 摘要：为获得高质量的自动文摘，在组合词识别算法的基础上，充分考虑词的频率、词性、词的位置、词长等因素，构建了一个词语权重计算公式，该公式能使表达主题的词和短语具有较高的权重．对句子权重的计算，则考虑了句子的内容、位置以及线索词的作用和用户偏好等．摘要的生成充分考虑了候选文摘句的相似性，避免了冗余信息的加入．对摘要的评估进行了从句子粒度到词语粒度的改进，提出了一种基于词语粒度的准确率和召回率计算方法．实验证明，该算法生成的自动文摘有着较高的质量，平均准确率达到77．1％．关键词：主题词；自动文摘；组合词；权重计算；句子特征中图分类号：TP391．1 自动文摘技术本质上是一个用机器自动提取原文中在组合词识别的基础上，提出了一个词语文中最重要和有用信息、按照篇幅长短提供原文浓权重计算方法，该方法能使表达主题的词获得较高缩版的过程．自动文摘有两类方法…：基于统计的的权值．然后构造了一个根据句子所含内容、位置、自动文摘方法和基于自然语言理解的自动摘要方线索词和用户偏好等因素计算句子权重的公式，并法．前者抽取原文中出现的句子构成文摘，技术比较通过能消除冗余的方法获取文摘．成熟，而后者需要借助深层次的自然语言处理技术 1 关键技术如语义推理等理解原文，生成文摘，文摘中的句子可能是原文中没有的． 1．1 组合词的识别与分词修正自从Luhn【21于1958年提出自动文摘概念以对中文文本的处理首先牵涉到分词．现有的分来，中外学者提出了各种各样的文摘方法．Edmund，词系统因受所使用分词词典的限制，无法识别大量 80n等Ho根据句子位置和线索词来提取文摘句．No．由两个词或两个以上的词组成的组合词．所谓组合 moto等M1提出了一种无监督自动摘要方法，该方法词是这样的词，它客观上表达一个独立、特定的语通过在原文中发现概念和减少文摘冗余来实现自动义，但却被分词系统错误的切分为多个词．各种术摘要．Salton等No将内容的交叠大于规定阈值的段语、命名实体、关键词等基本上都是组合词，因此组落归为一组，以此来寻找文章的子主题．李蕾等∞1 合词在表达文章的主题方面占有极重要的位置．本通过设计义块组配的方法，将语句理解与文摘信息算法首先利用基于词序列频率有向网的中文组合词提取直接相连，以提高理解的效率和文摘生成的速提取算法19J，识别出文章中的组合词．该算法首先度．王志琪等一1提出一种基于互增强关系(MRP)的建立描述文本中的词序列出现频率的有向网，然后迭代算法，模拟句子和词之间的循环加权关系，计算通过独特的矩阵运算，逐步把组合词识别出来，组合句子权重，从而形成文摘．Chen等o提出一种基于