基于多重映射的自动中文短文摘提取方法.docVIP

下载本文档

0
0
约3.74千字
约 8页
2017-08-25 发布于北京
举报
版权申诉

基于多重映射的自动中文短文摘提取方法.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多重映射的自动中文短文摘提取方法.doc

基于多重映射的自动中文短文摘提取方法　　摘要中文短文摘提取时受其字数限制，难以获得均衡的提取性能。针对该问题，本文提出了一种基于多重映射的自动短文摘提取方法。　　【关键词】自动短文摘提取方法字数限制提取性能　　自动文摘技术是处理海量信息的重要手段，可以帮助人们高效地获取信息。自动文摘用计算机自动生成全面反映文献中心内容的摘要。从其生成策略看，自动文摘分为生成式和抽取式两类。生成式文摘基于自然语言理解和生成技术。抽取式文摘通过预定义的特征集，选取原文的句子形成文摘。　　1 多重映射规则定义　　本文采用抽取式方法进行中文短文摘的提取。为抽取反映文本中心内容的句子，需对句子进行特征提取。由于单一特征难以获得高召回率，本文基于传统文摘的常用特征，提出了一种多重映射方法。　　1.1 句子关联度映射规则Hst 　　本文考虑文摘是最能表达文本主题的句子集，因此，可计算句子与文本的关联度，提取关联度高的句子作为文摘的候选句子集。　　设有文本D={S1，S2，…，Sn}，其中Sk={tk1，tk2，…，tkn}为其任意句子，tkr为Sk的词项。本文认为句子Sk与D的关联度越大，句子Sk对D的隶属度越强，则Sk越具代表性。由此，将句子Sk与文本D的关联度计算看成是分类问题。结合朴素贝叶斯多项式模型，本文将Sk与D的关联度参数Wst（Sk，D）定义为：Sk相对于D的后验概率，由此得到关联度值计算如式（1）所示：　　其中，P（Sk）为Sk在D中的先验概率，tf（tkr，Sk）为词项tkr在Sk中的频度，P（tkr|D）为词项tkr在D中的条件概率，其计算如式（2）所示：　　考虑任一句子在文本中出现的概率均等，令P（sk）=1，由此将式（1）改写为式（3）：　　对任意Sk∈D，通过式（3）计算其与D的后验概率，得到Sk与D的关联度值Wst（Sk，D）。通过设定阈值α，选取Wst（Sk，D）大于α的句子作为候选文摘句子集。本文将长度小于或等于5的句子称为特短句，长度大于110的句子称为特长句，对文本D的句子Sk，通过式（4）计算其长度映射值：　　其中，len是句子Sk中包含的字符数。通过设置阈值β，使长度小于β的较短句获得较大映射值。　　1.2 位置映射规则Hp 　　现有研究表明，文本的首段与尾段句往往蕴含更多主题信息，人工摘要中85%的句子为段首句，7%为段尾句。结合现有文摘技术对位置特征的用法，本文对任意文本D，设置其句子Sk的位置映射值计算如式（6）所示：　　由此定义位置映射规则Hp如下：　　映射规则Hp：　　令映射集　　for each Sk in D 　　计算Wp（Sk）　　if Wp（sk） 0 　　endif 　　endfor 　　规则Hp抛弃了所有非段首、段尾句，对形成的映射集Hp（S），在后续多重映射阶段，优先选取位置映射值大的句子。　　1.3 长度映射规则Hl 　　本文将长度小于或等于5的句子称为特短句，长度大于110的句子称为特长句，对文本D的句子Sk，通过式（4）计算其长度映射值：　　其中，len是句子Sk中包含的字符数。通过设置阈值β，使长度小于β的较短句获得较大映射值。由此定义长度映射规则Hl如下：　　映射规则Hl：　　令映射集　　for each Sk in D 　　计算Wl（Sk）　　if Wl（Sk） 0 　　endif 　　endfor 　　1.4 标题相似度规则Ht 　　本文用余弦夹角作为句子与标题的相似度。以词频作为词的权重，设句子向量 Sk={wk1，wk2，…，wkm}，标题向量t={t1，t2，…，tm}，相似度计算如式（5）所示：　　（5）　　由此定义标题相似度映射规则Ht如下：　　映射规则Ht：　　令映射集　　for each Sk in D 　　计算sim（Sk，t）　　if sim（Sk，t） γ 　　endif 　　endfor 　　通过设置阈值γ，可获得不同大小的映射集作为候选句子集。　　2 多重映射方法　　多重映射方法如图1所示。　　如图1所示，对句子集S={s1，s2，…，sn}，多重映射（Multiple MAPPing，MM）包含4种映射：关联度映射Hst，标题相似度映射Ht，位置映射Hp，长度映射Hl，R为最终提取到的文摘句子集。以映射集为顶点，边（Hm，Hn）表示映射集，由此得到图2的映射关系图。　　映射关系可能为完全图（图2（a）），也可能非连通（图2（b））。对此需在多重映射中运用不同策略。　　结合前述的多种映射规则，对任意文本，可得到其句子的多种映射值。在现有文摘提取方法中，有将映射值作为权重，通过多