- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多重映射的自动中文短文摘提取方法.doc
基于多重映射的自动中文短文摘提取方法
摘 要 中文短文摘提取时受其字数限制,难以获得均衡的提取性能。针对该问题,本文提出了一种基于多重映射的自动短文摘提取方法。
【关键词】自动短文摘提取方法 字数限制 提取性能
自动文摘技术是处理海量信息的重要手段,可以帮助人们高效地获取信息。自动文摘用计算机自动生成全面反映文献中心内容的摘要。从其生成策略看,自动文摘分为生成式和抽取式两类。生成式文摘基于自然语言理解和生成技术。抽取式文摘通过预定义的特征集,选取原文的句子形成文摘。
1 多重映射规则定义
本文采用抽取式方法进行中文短文摘的提取。为抽取反映文本中心内容的句子,需对句子进行特征提取。由于单一特征难以获得高召回率,本文基于传统文摘的常用特征,提出了一种多重映射方法。
1.1 句子关联度映射规则Hst
本文考虑文摘是最能表达文本主题的句子集,因此,可计算句子与文本的关联度,提取关联度高的句子作为文摘的候选句子集。
设有文本D={S1,S2,…,Sn},其中Sk={tk1,tk2,…,tkn}为其任意句子,tkr为Sk的词项。本文认为句子Sk与D的关联度越大,句子Sk对D的隶属度越强,则Sk越具代表性。由此,将句子Sk与文本D的关联度计算看成是分类问题。结合朴素贝叶斯多项式模型,本文将Sk与D的关联度参数Wst(Sk,D)定义为:Sk相对于D的后验概率,由此得到关联度值计算如式(1)所示:
其中,P(Sk)为Sk在D中的先验概率,tf(tkr,Sk)为词项tkr在Sk中的频度,P(tkr|D) 为词项tkr在D中的条件概率,其计算如式(2)所示:
考虑任一句子在文本中出现的概率均等,令P(sk)=1,由此将式(1)改写为式(3):
对任意Sk∈D,通过式(3)计算其与D的后验概率,得到Sk与D的关联度值Wst(Sk,D)。通过设定阈值α,选取Wst(Sk,D)大于α的句子作为候选文摘句子集。本文将长度小于或等于5的句子称为特短句,长度大于110的句子称为特长句,对文本D的句子Sk,通过式(4)计算其长度映射值:
其中,len是句子Sk中包含的字符数。通过设置阈值β,使长度小于β的较短句获得较大映射值。
1.2 位置映射规则Hp
现有研究表明,文本的首段与尾段句往往蕴含更多主题信息,人工摘要中85%的句子为段首句,7%为段尾句。结合现有文摘技术对位置特征的用法,本文对任意文本D,设置其句子Sk的位置映射值计算如式(6)所示:
由此定义位置映射规则Hp如下:
映射规则Hp:
令映射集
for each Sk in D
计算Wp(Sk)
if Wp(sk) 0
endif
endfor
规则Hp抛弃了所有非段首、段尾句,对形成的映射集Hp(S),在后续多重映射阶段,优先选取位置映射值大的句子。
1.3 长度映射规则Hl
本文将长度小于或等于5的句子称为特短句,长度大于110的句子称为特长句,对文本D的句子Sk,通过式(4)计算其长度映射值:
其中,len是句子Sk中包含的字符数。通过设置阈值β,使长度小于β的较短句获得较大映射值。由此定义长度映射规则Hl如下:
映射规则Hl:
令映射集
for each Sk in D
计算Wl(Sk)
if Wl(Sk) 0
endif
endfor
1.4 标题相似度规则Ht
本文用余弦夹角作为句子与标题的相似度。以词频作为词的权重,设句子向量 Sk={wk1,wk2,…,wkm},标题向量t={t1,t2,…,tm},相似度计算如式(5)所示:
(5)
由此定义标题相似度映射规则Ht如下:
映射规则Ht:
令映射集
for each Sk in D
计算sim(Sk,t)
if sim(Sk,t) γ
endif
endfor
通过设置阈值γ,可获得不同大小的映射集作为候选句子集。
2 多重映射方法
多重映射方法如图1所示。
如图1所示,对句子集S={s1,s2,…,sn},多重映射(Multiple MAPPing,MM)包含4种映射:关联度映射Hst,标题相似度映射Ht,位置映射Hp,长度映射Hl,R为最终提取到的文摘句子集。以映射集为顶点,边(Hm,Hn)表示映射集,由此得到图2的映射关系图。
映射关系可能为完全图(图2(a)),也可能非连通(图2(b))。对此需在多重映射中运用不同策略。
结合前述的多种映射规则,对任意文本,可得到其句子的多种映射值。在现有文摘提取方法中,有将映射值作为权重,通过多
您可能关注的文档
- 基于《指南》的幼儿观察策略的研究.doc
- 基于《设计结合自然》的古遗址生态化保护策略研究.doc
- 基于不同文体的语用型阅读教学课例的开发.doc
- 基于不同潮湿模型的矿井热环境数值模拟.doc
- 基于不同纤维素掺加剂的SMA路面路用性能对比分析.doc
- 基于不平衡绝缘的35kV电力线路差异化防雷效果分析.doc
- 基于中国医患关系现状研究.doc
- 基于中学生核心素养的初中英语课堂活动策略研究.doc
- 基于中学生英语差异化教学策略的运用.doc
- 基于中间表示的代码相似性检测方法.doc
- 2025年上海市人工种草在乡村道路绿化工程应用可行性研究报告.docx
- 2022年黑龙江省绥化市中考语文真题(原卷版).pdf
- 2022年湖北省鄂州市中考化学真题及答案.pdf
- 2025年上海市精馏装置在生物柴油生产中的应用可行性研究.docx
- 2025年上海市科技型中小企业典当融资服务优化可行性研究报告.docx
- 2025年上海市工业园区工业用水管网扩建给水工程可行性研究报告.docx
- 2025年城市绿化电缆桥架与生态景观融合可行性研究报告.docx
- 2022年湖北省鄂州市中考英语真题(原卷版).pdf
- 2022年湖北省鄂州市中考英语真题(原卷版).pdf
- 2025年基层医疗机构家庭病房扩容改造项目可行性研究报告.docx
最近下载
- 清水混凝土模板施工工艺.pdf VIP
- 清水混凝土施工工艺质量控制与防治演示文稿.ppt VIP
- GB50164-2021混凝土质量控制标准.docx VIP
- 文旅项目景区景点城市农文旅融合项目稻田主题策划规划方案【旅游】【文旅】【农旅】【文旅规划】.pptx VIP
- 混凝土结构工程施工质量验收规范(英文版).pptx
- 心血管科中医护理课件.pptx VIP
- 混凝土结构工程施工质量验收规范培训课件.pptx VIP
- 《混凝土结构工程施工质量验收规范》局部修订的条文及.docx VIP
- 2012混凝土结构工程施工质量验收规局部修订.doc VIP
- 《混凝土质量控制标准》XX50164-2011正文精华版.doc VIP
文档评论(0)