基于多重映射的自动中文短文摘提取方法.docVIP

基于多重映射的自动中文短文摘提取方法.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多重映射的自动中文短文摘提取方法.doc

基于多重映射的自动中文短文摘提取方法   摘 要 中文短文摘提取时受其字数限制,难以获得均衡的提取性能。针对该问题,本文提出了一种基于多重映射的自动短文摘提取方法。   【关键词】自动短文摘提取方法 字数限制 提取性能   自动文摘技术是处理海量信息的重要手段,可以帮助人们高效地获取信息。自动文摘用计算机自动生成全面反映文献中心内容的摘要。从其生成策略看,自动文摘分为生成式和抽取式两类。生成式文摘基于自然语言理解和生成技术。抽取式文摘通过预定义的特征集,选取原文的句子形成文摘。   1 多重映射规则定义   本文采用抽取式方法进行中文短文摘的提取。为抽取反映文本中心内容的句子,需对句子进行特征提取。由于单一特征难以获得高召回率,本文基于传统文摘的常用特征,提出了一种多重映射方法。   1.1 句子关联度映射规则Hst   本文考虑文摘是最能表达文本主题的句子集,因此,可计算句子与文本的关联度,提取关联度高的句子作为文摘的候选句子集。   设有文本D={S1,S2,…,Sn},其中Sk={tk1,tk2,…,tkn}为其任意句子,tkr为Sk的词项。本文认为句子Sk与D的关联度越大,句子Sk对D的隶属度越强,则Sk越具代表性。由此,将句子Sk与文本D的关联度计算看成是分类问题。结合朴素贝叶斯多项式模型,本文将Sk与D的关联度参数Wst(Sk,D)定义为:Sk相对于D的后验概率,由此得到关联度值计算如式(1)所示:   其中,P(Sk)为Sk在D中的先验概率,tf(tkr,Sk)为词项tkr在Sk中的频度,P(tkr|D) 为词项tkr在D中的条件概率,其计算如式(2)所示:   考虑任一句子在文本中出现的概率均等,令P(sk)=1,由此将式(1)改写为式(3):   对任意Sk∈D,通过式(3)计算其与D的后验概率,得到Sk与D的关联度值Wst(Sk,D)。通过设定阈值α,选取Wst(Sk,D)大于α的句子作为候选文摘句子集。本文将长度小于或等于5的句子称为特短句,长度大于110的句子称为特长句,对文本D的句子Sk,通过式(4)计算其长度映射值:   其中,len是句子Sk中包含的字符数。通过设置阈值β,使长度小于β的较短句获得较大映射值。   1.2 位置映射规则Hp   现有研究表明,文本的首段与尾段句往往蕴含更多主题信息,人工摘要中85%的句子为段首句,7%为段尾句。结合现有文摘技术对位置特征的用法,本文对任意文本D,设置其句子Sk的位置映射值计算如式(6)所示:   由此定义位置映射规则Hp如下:   映射规则Hp:   令映射集   for each Sk in D   计算Wp(Sk)   if Wp(sk) 0   endif   endfor   规则Hp抛弃了所有非段首、段尾句,对形成的映射集Hp(S),在后续多重映射阶段,优先选取位置映射值大的句子。   1.3 长度映射规则Hl   本文将长度小于或等于5的句子称为特短句,长度大于110的句子称为特长句,对文本D的句子Sk,通过式(4)计算其长度映射值:   其中,len是句子Sk中包含的字符数。通过设置阈值β,使长度小于β的较短句获得较大映射值。由此定义长度映射规则Hl如下:   映射规则Hl:   令映射集   for each Sk in D   计算Wl(Sk)   if Wl(Sk) 0   endif   endfor   1.4 标题相似度规则Ht   本文用余弦夹角作为句子与标题的相似度。以词频作为词的权重,设句子向量 Sk={wk1,wk2,…,wkm},标题向量t={t1,t2,…,tm},相似度计算如式(5)所示:   (5)   由此定义标题相似度映射规则Ht如下:   映射规则Ht:   令映射集   for each Sk in D   计算sim(Sk,t)   if sim(Sk,t) γ   endif   endfor   通过设置阈值γ,可获得不同大小的映射集作为候选句子集。   2 多重映射方法   多重映射方法如图1所示。   如图1所示,对句子集S={s1,s2,…,sn},多重映射(Multiple MAPPing,MM)包含4种映射:关联度映射Hst,标题相似度映射Ht,位置映射Hp,长度映射Hl,R为最终提取到的文摘句子集。以映射集为顶点,边(Hm,Hn)表示映射集,由此得到图2的映射关系图。   映射关系可能为完全图(图2(a)),也可能非连通(图2(b))。对此需在多重映射中运用不同策略。   结合前述的多种映射规则,对任意文本,可得到其句子的多种映射值。在现有文摘提取方法中,有将映射值作为权重,通过多

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档