面向互联网数据的新词发现平台的设计与实现-软件工程专业毕业论文.docxVIP

下载本文档

3
0
约5.57万字
约 82页
2019-05-08 发布于上海
举报
版权申诉

面向互联网数据的新词发现平台的设计与实现-软件工程专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Classified Index: TP311 U.D.C: 621.3 Dissertation for the Master Degree in Engineering INTERNET DATA ORIENTED RESEARCH IMPLEMENTATION OF NEW WORD AND PHRASE DISCOVERY PLATFORM Candidate： DuConghui Supervisor： Engineer.TianYingxin Associate Supervisor: Senior Engineer LiuTingchao Academic Degree Applied for： Master of Engineering Speciality： Software Engineering Affiliation： School of Software Date of Defence： June, 2013 Degree-Conferring-Institution： Harbin Institute of Technology 哈尔滨工业大学工程硕士学位论文哈尔滨工业大学工程硕士学位论文 -I- -I- 摘要社会在不断地发展，人类的语言也在不断的变更。语言的内涵、形式都在不断地扩充。新词的不断涌现，可以说是语言不断发展的最好证明。而QQ输入法作为文字的输入工具，也应该保证与时俱进。新词的扩充是QQ输入法的基本功能之一。词语是人们打字的最小单位，只有保证候选词的丰富，才能帮助用户提高打字速度。如何有效地发现新词是学术界关注的焦点，因为新词发现是许多技术研究的基本要求，如信息抽取、语音识别、主题发现、机器翻译等。中文信息处理与英文信息处理的方法与难点存在很大的差异，中文自身有其独特的特征，英文的词与词之间有空格间隔，而中文的词语是紧密连着的，没有词与词之间的标识；另外，英文字母也有字母大小写的区分，而中文没有。因此在自然语言处理领域，中文的新词发现是个非常棘手的问题。互联网不断地向生活的方方面面渗透，信息也在呈爆炸式增长，现有词典已经不能满足人类交流的需要，新词在源源不断的产生。如何让人类的知识储备跟上社会的发展，是一个需要认真研究探讨的问题。本文的主要研究内容是面向互联网数据的新词发现平台的设计与实现，为输入法开发一套能源源不断提供新词的新词发现平台。在方案的选取上，本文首先分析并比较了几种流行的新词发现方法，最终设计了一套基于统计和规则相结合的方法来构建新词发现平台。其中基于统计的方法为快速地处理大批量的数据提供了有效的手段，而基于规则的方法则对大规模数据的处理结果提供精确的修正算法。新词发现平台分为四大组件：隐马尔科夫模型组件、实际语料切分组件、新词候选词修正组件、新词列表维护组件。隐马尔科夫模型是需要一个长期优化和积累的部分，它对汉字的各种属性概率进行统计和计算。隐马尔科夫的“学习”内容采用的是经过语言学家处理过的语料数据。对这些语料数据进行分析和处理后就能形成一个与中国汉字相关的模型。该模型是新词提取部分切分实际语料的一个理论依据。实际语料切分就是对互联网上的数据进行初步地切分，依据的是隐马尔可夫模型原理。新词候选词修正组件是对实际语料切分组件的切分结果进行修正，以获取真正的新词。新词列表维护组件就是对新词列表信息进行维护，保证新词的正确性。新词提取的过程具体为可以概括为以下步骤：依据隐马尔科夫模型对实际数据集的初步切分；对上一步的切分结果做出初步的垃圾过滤，形成新词候选 -II- -II- 词集合；对新词候选词集合里的每一个词组进行分析，得到相关的数据集。然后对候选词进行修正算法，得到更加精确的新词结果；输出新词集合。新词词表维护的主要工作是在时间线上对已有的新词列表进行更新。更新操作包括：删除、新增、更新新词数据等。主要目的是使新词列表能跟上社会的不断发展，能准确的反映出当下最常用和最热门的词语。最终，该课题构建了一套完成以上工作的新词发现平台。经过性能测试，新词发现平台满足QQ输入法产品对发现新词的需求。关键词：新词发现；中文分词；隐马尔科夫模型；Viterbi算法；短语修正； - - PAGE IV- Abstract With the continuous development of society, human language is in constant evolution. The connotation and form of a language are also growing. And the most prominent feature of the evolution of a