- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华南理工大学学报(自然科学版)
第38卷第7期 JournalofSouthChina of V01.38No.7
UniversityTechnology
2010年7月 Science 2010
(Natural Edition) July
基于主题词权重和句子特征的自动文摘术
蒋昌金1 圜1陈建超2 马千里1
摘要:为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词
性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短
语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和
用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘
要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回
率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.
关键词:主题词;自动文摘;组合词;权重计算;句子特征
中图分类号:TP391.1
自动文摘技术本质上是一个用机器自动提取原 文中在组合词识别的基础上,提出了一个词语
文中最重要和有用信息、按照篇幅长短提供原文浓 权重计算方法,该方法能使表达主题的词获得较高
缩版的过程.自动文摘有两类方法…:基于统计的 的权值.然后构造了一个根据句子所含内容、位置、
自动文摘方法和基于自然语言理解的自动摘要方 线索词和用户偏好等因素计算句子权重的公式,并
法.前者抽取原文中出现的句子构成文摘,技术比较 通过能消除冗余的方法获取文摘.
成熟,而后者需要借助深层次的自然语言处理技术
1 关键技术
如语义推理等理解原文,生成文摘,文摘中的句子可
能是原文中没有的. 1.1 组合词的识别与分词修正
自从Luhn【21于1958年提出自动文摘概念以
对中文文本的处理首先牵涉到分词.现有的分
来,中外学者提出了各种各样的文摘方法.Edmund,
词系统因受所使用分词词典的限制,无法识别大量
80n等Ho根据句子位置和线索词来提取文摘句.No. 由两个词或两个以上的词组成的组合词.所谓组合
moto等M1提出了一种无监督自动摘要方法,该方法
词是这样的词,它客观上表达一个独立、特定的语
通过在原文中发现概念和减少文摘冗余来实现自动 义,但却被分词系统错误的切分为多个词.各种术
摘要.Salton等No将内容的交叠大于规定阈值的段 语、命名实体、关键词等基本上都是组合词,因此组
落归为一组,以此来寻找文章的子主题.李蕾等∞1 合词在表达文章的主题方面占有极重要的位置.本
通过设计义块组配的方法,将语句理解与文摘信息 算法首先利用基于词序列频率有向网的中文组合词
提取直接相连,以提高理解的效率和文摘生成的速 提取算法19J,识别出文章中的组合词.该算法首先
度.王志琪等一1提出一种基于互增强关系(MRP)的
建立描述文本中的词序列出现频率的有向网,然后
迭代算法,模拟句子和词之间的循环加权关系,计算 通过独特的矩阵运算,逐步把组合词识别出来,组合
句子权重,从而形成文摘.Chen等o提出一种基于
文档评论(0)