基于编辑距离无序词表对齐和定位.docVIP

下载本文档

5
0
约6.45千字
约 12页
2018-08-30 发布于福建
举报
版权申诉

基于编辑距离无序词表对齐和定位.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于编辑距离无序词表对齐和定位

基于编辑距离无序词表对齐和定位　　摘要：语言调查采集到的数据存在相当程度的差异，需要进行二次加工。本文基于编辑距离算法实现从语言和方言词汇大数据中的词汇相似匹配及数据的对齐和定位。通过对达让语数据进行的三次实验发现，在做距离计算时，以词算而不是以词加括号内注释的整体去算的方式在保证抽取词汇召回率的基础上准确率会显著提升。实验结果表明，基于编辑距离的数据抽取方法是可行的，具有较好的检索效果。　　关键词：编辑距离；相似度　　中图分类号：TP391 文献标识码：A 　　Abstract： The data of languages collected from field research have considerable differences，they need for secondary process.This paper implements the match and extraction of vocabulary similarity from the big data of language and dialect vocabulary based on levenshtein distance algorithm.Through the three experiments made by using the data of Darang， the research finds that the way of counting words rather than words and comments in brackets as a whole increases the precision rate dramatically on the basis of ensuring extraction vocabulary recall rate when the levenshtein distances are computed. The experimental results show that it is feasible to extract data based on levenshtein distance， the aboved method has better retrieval effect. 　　Keywords： Levenshtein Distance；similarity 　　引言　　中国语言研究中，经历了60余年大规模数据的采集，形成约数千种语言和方言词汇大数据。不过这些数据因调查理念、调查目的、调查方式、调查领域、调查词表等不同而存在不同程度的差异，需要进行二次加工处理，这批宝贵资源对语言工程和语言文化建设具有重要价值。本文目标提出对采集的语言数据二次加工，建设统一格式词表，便于后续的语言科学研究。也就是说语言调查采集到的数据是无序的，且数量不等，本文拟建设统一格式词表，该词表包括1 329个词汇，并且这些词汇是按照顺序排列的，然后又从数千种语言词汇大数据中，每种语言都抽取意义相同1 329个词汇，如果没有找到，则以空表示，这就涉及到数据的定位，由于这1 329个词汇是按照顺序排列的，所以还涉及到数据的对齐，最后将每种语言按顺序排好的1 329个词汇保存为独立的Excel文件，供语言分析研究使用。本文的难点在于如何从数千种语言词汇数据中尽可能准确地找到这1 329个词汇。　　1 中国语言和方言数据现状　　半个多世纪以来，我国开展过数次规模不等的语言和方言调查。1956年，根据国务院指示开展了汉语和民族语言普查，共普查了1 849个县市的汉语方言，并组成7个民族调查队，调查了主要民族地区的语言。这次语言普查，对于推广普通话和汉语规范化，对于少数民族文字的改革与创制，对于民族身份的认定等都起了重要作用。1999年，教育部、国家语委等11部（委）联合开展了中国语言文字使用情况调查，调查采用入户问卷的调查方式，涉及全国1 063个县（市、区），直接被调查对象47万多人。这次调查获得了我国语言文字使用的一些基本数据，为当今的语言决策提供了重要支撑。除了这2次大的语言调查之外，我国学者还持续进行了汉语方言、民族语言、海外华语的调查研究，取得了许多重要成果。　　在推广普通话的同时，社会的语言资源保护意识逐渐加强，方言文化保护受到社会各界的关注。国家语委积极推进中国语言资源有声数据库建设，江苏库数据调查工作完成并通过国家验收，成为全国首个建成并开通的省级语言资源库，上海、北京、辽宁、广西等省区市有声数据库建设工作取得成效，山东、河北、福建等省有声数据库建设工作启动。“中华经典资源库”启动了首期建设工作[1]。　　但是语言生活异常丰富复杂且与时而变，半个多世纪