- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                
Classified Index: TP311 U.D.C: 621.3
Dissertation for the Master Degree in Engineering
INTERNET DATA ORIENTED RESEARCH  IMPLEMENTATION OF NEW WORD AND PHRASE DISCOVERY PLATFORM
Candidate:
DuConghui
Supervisor:
Engineer.TianYingxin
Associate Supervisor:
Senior Engineer LiuTingchao
Academic Degree Applied for:
Master of Engineering
Speciality:
Software Engineering
Affiliation:
School of Software
Date of Defence:
June, 2013
Degree-Conferring-Institution:
Harbin Institute of Technology
哈尔滨工业大学工程硕士学位论文
哈尔滨工业大学工程硕士学位论文
-I-
-I-
摘	要
社会在不断地发展,人类的语言也在不断的变更。语言的内涵、形式都在 不断地扩充。新词的不断涌现,可以说是语言不断发展的最好证明。而QQ输入 法作为文字的输入工具,也应该保证与时俱进。新词的扩充是QQ输入法的基本 功能之一。词语是人们打字的最小单位,只有保证候选词的丰富,才能帮助用 户提高打字速度。如何有效地发现新词是学术界关注的焦点,因为新词发现是 许多技术研究的基本要求,如信息抽取、语音识别、主题发现、机器翻译等。 中文信息处理与英文信息处理的方法与难点存在很大的差异,中文自身有 其独特的特征,英文的词与词之间有空格间隔,而中文的词语是紧密连着的,
没有词与词之间的标识;另外,英文字母也有字母大小写的区分,而中文没有。 因此在自然语言处理领域,中文的新词发现是个非常棘手的问题。互联网不断 地向生活的方方面面渗透,信息也在呈爆炸式增长,现有词典已经不能满足人 类交流的需要,新词在源源不断的产生。如何让人类的知识储备跟上社会的发 展,是一个需要认真研究探讨的问题。
本文的主要研究内容是面向互联网数据的新词发现平台的设计与实现,为 输入法开发一套能源源不断提供新词的新词发现平台。在方案的选取上,本文 首先分析并比较了几种流行的新词发现方法,最终设计了一套基于统计和规则 相结合的方法来构建新词发现平台。其中基于统计的方法为快速地处理大批量 的数据提供了有效的手段,而基于规则的方法则对大规模数据的处理结果提供 精确的修正算法。
新词发现平台分为四大组件:隐马尔科夫模型组件、实际语料切分组件、 新词候选词修正组件、新词列表维护组件。
隐马尔科夫模型是需要一个长期优化和积累的部分,它对汉字的各种属性 概率进行统计和计算。隐马尔科夫的“学习”内容采用的是经过语言学家处理过 的语料数据。对这些语料数据进行分析和处理后就能形成一个与中国汉字相关 的模型。该模型是新词提取部分切分实际语料的一个理论依据。实际语料切分 就是对互联网上的数据进行初步地切分,依据的是隐马尔可夫模型原理。新词 候选词修正组件是对实际语料切分组件的切分结果进行修正,以获取真正的新 词。新词列表维护组件就是对新词列表信息进行维护,保证新词的正确性。
新词提取的过程具体为可以概括为以下步骤:依据隐马尔科夫模型对实际 数据集的初步切分;对上一步的切分结果做出初步的垃圾过滤,形成新词候选
-II-
-II-
词集合;对新词候选词集合里的每一个词组进行分析,得到相关的数据集。然 后对候选词进行修正算法,得到更加精确的新词结果;输出新词集合。
新词词表维护的主要工作是在时间线上对已有的新词列表进行更新。更新 操作包括:删除、新增、更新新词数据等。主要目的是使新词列表能跟上社会 的不断发展,能准确的反映出当下最常用和最热门的词语。
最终,该课题构建了一套完成以上工作的新词发现平台。经过性能测试, 新词发现平台满足QQ输入法产品对发现新词的需求。
关键词:新词发现;中文分词;隐马尔科夫模型;Viterbi算法;短语修正;
-
- PAGE IV-
Abstract
With the continuous development of society, human language is in constant evolution. The connotation and form of a language are also growing. And the most prominent feature of the evolution of a 
                您可能关注的文档
- 抗痘苗病毒基因工程抗体的研究-基础兽医学专业毕业论文.docx
 - 慢性髓系白血病慢性期患者伊马替尼治疗失败后更换二代酪氨酸激酶抑制剂的临床疗效研究-内科学专业毕业论文.docx
 - 马克思主义关于利用资本主义及其实践研究 马克思主义理论与思想政治教育专业毕业论文.docx
 - 棉蝗生物学、生态学特性及人工饲料研究-动物学专业毕业论文.docx
 - 民事简易程序的公正与效益-法律专业毕业论文.docx
 - 科学界失范行为的成因分析及对策研究-科学技术哲学专业毕业论文.docx
 - 铝合金阳极的活化与阻化机理研究-应用化学专业毕业论文.docx
 - 考虑互连线影响的集成电路布局及其优化-电磁场与微波技术专业毕业论文.docx
 - 绿色溶剂—离子液体的合成、表征及应用-有机化学专业毕业论文.docx
 - 面向期货电子交易的通信中间件的研究与实现-计算机软件与理论专业毕业论文.docx
 
原创力文档
                        

文档评论(0)