会议论文焦妍.ppt

下载文档 降价啦

1
0
约7.43千字
约 27页
2017-08-19 发布于北京
举报
版权申诉
保障服务

会议论文焦妍.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

缩略语，众所周知，就是有较长的词缩短省略得到的词。比如“北京大学”就是一个完整形式，她的缩略形式是“北大”。缩略语因其简洁易用性在自然文本中大量出现，同时也成为了未登录新词的一大来源，尤其在中文分词，命名实体识别等诸多方面带来了困难。因此缩略语的研究在自然语言处理领域有着重要的意义。相关的研究主要分为４个方面，包括缩略语预测，完整形式扩展，缩略语识别，缩略语挖掘。其中，缩略语预测是给定完整形式求对应的缩略形式的过程，这也是本文的主要任务。 * 目前的关于中文缩略语的研究大多采用机器学习的方法，比较有代表性的工作包括台湾的张景新的研究，采用了隐马尔科夫模型。还有孙栩等人使用支持向量回归的方法进行打分。然而缩略语的形成受多种因素影响，因此单纯使用机器学习的方法具有一定的局限性。目前一些最新的研究中利用了网络资源进行分析，有一定的效果。因此基于已有的研究，本文提出了将机器学习方法与网络信息相结合进行缩略语预测。 * 下面介绍我的主体算法 * 首先看一下整体流程。分为机器学习和网络资源验证两个部分。 * 先用ＣＲＦ进行训练 * 得到模型后对测试集测试，生成１０个缩略语候选 * 再利用搜索引擎进行验证打分 * 最后综合ＣＲＦ得到的结果和网络验证的结果进行综合 * 重排序后得到最终的结果 * 把缩略语生成的过程化为一个序列标注的模型。完整形式为Ｘ１到Ｘｎ的序列。对每个字都声生成一个标记，Ｓ或Ｋ，S是表示略过，Ｋ表示保留，这样得到对应的标记序列，取出标记为Ｋ的字即时生成的缩略语。比如北京理工大学取出标记为Ｋ的即北理工 * 本文才采用ＣＲＦ模型求解。ＣＲＦ是一种判别式概率模型，在给定观察序列的前提下，计算整个标记序列的概率。最常见的就是下面这个一阶链式结构。 * 采用特征模板生成特征函数，特征包括单字，二元词的汉字＼拼音信息等。 * 首先看一下CRF得到的结果，top-k覆盖率就是前K个候选中包含正确结果的case所占比例,top-1就是正确率。可以看到覆盖率在k=10的时候基本稳定达到90% 为了检验重排对Top-1的影响，同时又尽可能控制计算复杂性，本文只选择CRF的前10个候选。根据搜索结果中的标题、摘要，URL以及总结果数量进行打分。 * 一共应用四种统计方法。方法1是基于缩略语的搜索，将每个候选在百度中搜索，取前20个返回结果打分。首先看标题部分，对每个缩略候选，统计它以单独标红的形式在多少个标题中出现，记为titleAbbr。同时统计完整形式在多少个标题中出现，记为titleFull。摘要的打分与之相似 * 方法二是缩略语与完整形式的对比，这次对完整形式单独进行搜索，再与上一步得到的搜索结果进行对比。方法就是对搜索完整形式的前10个标题的出现次数和排序值建立字典，看每个缩略语搜索到的每个标题在字典中是否出现，用次数乘以权值得到得分。URL的打分与之类似 * 方法三是基于线索词的搜索，对每个候选，在百度中搜索完整形式简称缩略候选。经实验发现，很多搜索缩略形式的结果得到的是不规整的资源，因此为了得到较为官方的信息，添加线索词“简称”。然后将可能出现的形式概括为正则表达式，拿前20个结果的摘要依此去匹配。 * 方法四是基于共现的搜索，对每个候选，搜索完整形式缩略候选，获取前20条搜索结果以及总共搜索结果数目resultNum。由于有些缩略候选本身是个字或者单独成词，那它和完整形式一起搜索得到的数量必定很多。因此进行限定，如果单独搜索候选的结果达到最大值1亿，且单独搜完整形式没达到最大值，就把分数置0.比如这个例子中把前四个候选排除掉，正确结果“片源”的得分最高。摘要的打分及统计二者的共现即可。 * 最后进行融合，由上面的四种方法以及标记统计方法可以得到10个估值。分别对每个值count进行归一化，就可以使每个值的范围都在0，1之间。经过参数为1的平滑处理，与CRF得到的概率值相乘得到最终的分值。然后进行降序重排即为最终的结果。 * 我们来看一下实验的结果 * 这个是单独使用各种统计方法得到的结果，与单纯与CRF序列标注相比，摘要信息相关的提升都比较明显，线索词也有较明显的提升。 * 这是最终的结果，可以看到比单纯使用机器学习的方法有较为明显的提高，在top-1提高了约5% * 最后进行总结和展望 * 本文的特点主要是结合了机器学习和网络信息验证这两个方法进行缩略语预测。并且提出了缩略语搜索、对比法、线索词法、共现法四种打分方式。最终使结果提高了约5% 但是由于网络资源较为复杂，所以提升效果不是特别的明显，进一步的工作可以涉及优化搜索结果的验证模型，探索新的统计方法，以及设计更加合理的重排序算法。另外在融合方面也可以考虑对不同的打分按照重要程度设立权值。 * 我的工作就介绍到这里。谢谢大家！ * 基于机器学习方