- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
堡堕垒竺生墨塑董士竺塑二_j塑墨—————————————————一摘要
堡堕垒竺生墨塑董士竺塑二_j塑墨—————————————————一
摘要
组块的概念最初是在认知心理学中提出的,并在信息处理理论和通用智能系统中得 到应用。它又被推广到计算语言学领域中,用“分而治之”的策略来解决问题,对自然 语言进行组块计算。本文中对组块的计算,不仅包括组块分析,还涉及到对组块相似度 计算的研究。
完全的句法分析是当前自然语占处理中的一个难点和重点。一方面我们既要达到语 法分析的目的,另一方面还要降低分析过程中的难度。因此针对这种局面,进行部分的 句法分析,即组块分析。本文的目标就是在这种背景下,从理论、算法和应用三个方面 来讨论汉语组抉及其分析方法和技术。
本文范琵指出当前语法分析的困难,而组块分析是一条解决问题的途径。f并介绍了
组块分析的研究现状,以及组块分析的两条技术路线。提出了汉语组块分析任务的重要
性和可行性。
随后总结了界定组块的各种方法,在前人工作的基础上对汉语组块进行了定义。同 时组块库的获取和收集也是一项迫切的任务,由于不易直接获取具有组块标注的语料, 当前大多组块语料库是通过转化现有树库获得。本文实验所用的组块库是从宾州大学中 文树库中抽取而来的。根据组块定义,结合现有语料的实际,本文定义了12种汉语组 块类型,和分析过程中所用到的组块标注符号。
我们实现组块分析的系统是采用统计与规则相结合的路线。统计方法首次采用了成 熟的数学模型——最大熵模型进行汉语组块的识别和划分。最大熵模型具有简洁、通用 性和可移植性等特点,能灵活地选取特征,同时可以把计算模型和语言模型作为独立的 模块处理,而不必关心语言内部的细节。规则方法采用了有限自动机来完成组块分析的 任务,有限自动机实现简单、效率高,也具有较高的组块标注正确率。在两种方法并用 的基础上,加入了错误驱动的基于转换的机器学习方法,根据系统标注语料和正确标注 语料相比较的结果,不断学习和反馈,生成转换规则集合,用于基于混合模型的标注系 统中。
特征集合的选取是最大熵模型的关键问题所在,它选取合适与否决定了组块标注结 果的好坏。因此在本文中针对汉语组块的划分和识别,提出了词、词性标注、语法标注 和词音节数是构成组块划分的主要影响因素,并根据这几种因素来确定最大熵模型的特 征空间,从中自动获取组块分析的有效特征集合。
我们所采用的基于混合模型的组块分析方法,不仅利用了现有的技术,而且有效地
结合了两种方法的优势,达到较为满意的组块划分和识别效果。文中给出了各种模型的
汉语组块计算的若干研究于已有的汉语语义资源——同义词词林和知网,引入了义原问相似度和相关度的计算公
汉语组块计算的若干研究
于已有的汉语语义资源——同义词词林和知网,引入了义原问相似度和相关度的计算公 式。I同时根据义原构成词语、词语组成组块的关系,逐步计算出词语问的相似度和相关 度,最后得到组块问的相似度。对于英汉双语组块,本文提出了同时利用wjrdNet,得
到双语组块的相似度,该相似度计算的实现将有利于改进双语组块对齐的效果,乃至改 进机器翻译系统的性能。
本文的研究成果可以应用到信息检索、信息抽取、文本分类/聚类、机器翻译等自然
语言处理系统中去。、/一一、
卅飞
关键词:自然语言处理,语法分析,组块分析,最大熵定理,有限自动机
n
堡堕垄堡生簦塑董±堕茎!』坐坚竺————————————————一A
堡堕垄堡生簦塑董±堕茎!』坐坚竺————————————————一
A Study on the Computation of Chinese Chunks Li sujian(Applied Computer Tec}lIlology) Directed By Bai Shuo
The concept of‘‘chunk’’was proposed in the science of cognitiVe psychology,which was la【er applied in the field of info门nation processing theory and systems of general intelligence. Now it was spread to the field of Compuational Linguistics,using the“diVide—and—conquer” stmtegy to conduct chullking. In this p印er,t11e computation of chunks not only includes chunk parSing,but also refers to t11e computation of similar
您可能关注的文档
- 关于中日谈话节目中附和表现的使用实态-日语语言文学专业论文.docx
- 钴结壳螺旋滚筒采集头切削参数优化设计及其动力学仿真-机械电子工程专业论文.docx
- 鬼望远镜成像系统中噪声和分辨率的研究-信息与通信工程专业论文.docx
- 汉语法规英译的逻辑途径-外国语言学与应用语言学专业论文.docx
- 含螺旋大分子聚合物共交联网络的制备及手性识别性能研究-材料科学与工程专业论文.docx
- 过一硫酸氢钾复合盐的制备及工艺设计-化学工程专业论文.docx
- 过渡期护理干预对减轻脑卒中家庭照顾压力的效果研究-临床医学;护理学专业论文.docx
- 灌注CT对脑缺血的价值:动物试验与临床研究-影像医学专业论文.docx
- 官僚制视角下当代中国基层税务人员行为异化及治理-财政学专业论文.docx
- 广西东兰乌鸡生长期适宜能量和蛋白质水平的研究-动物营养与饲料科学专业论文.docx
- 海岸带管理信息系统框架研究-环境科学专业论文.docx
- 国际班轮运输运价协议法律问题研究-国际法学专业论文.docx
- 关于协同商务与企业应用集成的研究-管理科学与工程专业论文.docx
- 海水有机锡测量机械手的控制设计与应用-检测技术与自动化装置专业论文.docx
- 过氧化氢异丙苯二级分解反应工艺研究-化学工程与技术专业论文.docx
- 广州市区级公共图书馆读者服务分析-图书馆学专业论文.docx
- 过约束机构与欠秩并联机器人机构研究-机械设计与理论专业论文.docx
- 广州市区级公共图书馆读者服务研究-图书馆学专业论文.docx
- 广告分析——互文性视角-英语语言文学专业论文.docx
- 海洋微生物代谢产物抗肿瘤活性成分研究-水产品加工与贮藏专业论文.docx
原创力文档


文档评论(0)