- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章绪论1.1研究背景及意义近几年,随着利用计算机处理自然语言文本数量的迅速增长,经过计算机处理的自然语言理解得到全面发展,另外语言处理中的基础性研究分词和词性标注(part-of-speechTagging)等也进入工程阶段。但在自然语言处理中占十分重要地位的句法分析(Parsing)和语义标注的发展却比较缓慢,直接影响到有关汉语语言处理及应用领域(如信息检索、问答系统)的研究。所以对句法分析语义标注等领域的研究已经迫在眉睫。而短语的识别和标注是句法分析和语义标注发展的重点和基础。句法分析分为完全句法分析和浅层句法分析,完全句法分析要求对整个句子的结构和层次进行分析,分析的结果是句子完整的句法树。浅层句法分析(也就是语块分析或者是短语分析)是近些年来自然语言处理领域出现的一种新的语言处理策略,它有两个任务:短语的识别和分析;短语之间的依附关系分析。浅层句法分析的重点是短语的识别和分析,只要求识别句子结构中相对简单的成分,如名词短语、介词短语和动词短语。分析和识别的结果不仅在某种程度上简化句法分析的任务,同时分析技术和分析结果也在有关语言文本处理系统中迅速得到利用。随着机器翻译系统的开发,研究人员发现句法分析日益起到举足轻重的作用,句法分析中有很多值得研究者去深入探讨和研究的问题。例如,汉语句子中名词短语和介词短语的识别,作为句法分析的预处理阶段,它可以大大降低句子结构划分和分析处理的复杂性,并为句子进行深一步的分析提供必要的基础。本文提出的汉语基本短语识别,是对汉语浅层句法分析进行有意义的探索和研究,特别是名词短语和介词短语是自然语言句子的重要组成部分,是语言信息传递中必不可少的基本单位。汉语基本短语识别精度和效率的提高,不仅为完全句法分析打下良好的基础,也会进一步将汉语语料库的多级加工处理推进到一个新的层次。语义分析的主要任务是分析句子中的成分并为每个成分找到它所对应的语义角色,而句子中的成分大部分是由短语来承担。短语是构成文本中内容的信息元素,也是正确理解文本内容的基础。相比较而言汉语短语比英语短语复杂的多,短语不仅在表现形式上差别比较大,主要是内部结构非常复杂,而且汉语中的歧义问题也比英语中的模糊的多,所以要想实现不同领域不同环境下的所有短语是非常困难的,需要针对某个特定的任务,如信息检索、信息抽取或者是问答系统,选取合适的机器学习方法,才能达到短语识别的目的。英文的句法语义分析起步较早,已经取得了一定的成绩,但是并不很完善,主要问题是存在一些分支和分析的粒度不够统一,其分析的结果还没有完全用到自然语言处理任务中。而语义分析在汉语的句法中才刚刚起步,虽然汉语的句法分析已经取得了一定的成果,但是由于汉语语言的复杂性,缺点也是不能用于实际分析中,达不到应用的要求,所以汉语的句法语义分析是目前急待解决的问题。鉴于以上原因,本文分析了句法分析与语义分析的契合点,提出了对汉语基本短语的识别研究。1.2国内外研究现状国外研究者很早就对英语短语的机器识别进行了研究,取得一定的研究成果,积累了一些语言处理经验,为其他语言短语的研究奠定了基础。英语短语自动划分的研究内容是将句子中的不同短语成分利用括号标注,主要研究括号的标注位置和匹配方向。早在1987年,英国Lancaster大学的UCREL研究者就对英语短语用机器自动识别做了大量的探索。他们通过分析短语组成部分和词性标注之间的相似之处,提出了一种成分似然语法(constitute-likelihoodgrammar)[1]的处理思想。在此基础上,形成了早期的英语短语识别及一些标注算法。1990年,D.M.Magerman和M.P.Marcus又提出了一种基于广义互信息(GeneralizedMutualInformation,GMI)模型的短语机器识别算法[2]。它依据通过分析句子中词类n-gram组合的互信息值,来确定一个给定句子中的短语成分边界。实验结果表明此方法对十五个单词以下的句子分析效果比较好,而对某些比较长的句子的分析达不到理想的效果。1992年,E.Brill提出了基于变换的方法[3],其基本思想是先对每个句子进行初始状态划分,然后将这些初始划分的句子与人工划分的句子相比较,自动学习得到一些转换规则序列,最后在用机器识别时同样先对句子进行初始标注,再应用学习到的规则序列进行转换,达到对短语正确识别。实验结果显示,此方法在较小的训练集上能达到较高的准确率。随后,H.H.Shin等人又开发了一个自动短语划分系统AUTO[4]。目的是为英语SCFG提供一些比较好的训练数据,方法是利用启发式知识对短语进行划分。实验对2021个句子的封闭和开放测试表明,此系统分别达到大约85%和78%的召回率和正确率。近几年来,句法分析研究的热点逐渐转移到组块分析[5-11]。它与短语自动划分
您可能关注的文档
- 基于消费者视角的差别定价对品牌资产的影响研究-企业管理专业论文.docx
- 基于消费者评价的品牌联合影响因素实证研究-企业管理专业论文.docx
- 基于质量成本的企业质量改进研究-技术经济及管理专业论文.docx
- 基于心理契约违背的90后生产型员工离职倾向实证研究组织管理专业论文.docx
- 基于扎根理论的企业商业模式研究-企业管理专业论文.docx
- 基于战略伙伴的供应商选择决策方法-物流工程专业论文.docx
- 基于消费者行为的白酒营销策略-工商管理专业论文.docx
- 基于营销道德视角的我国乳品加工企业营销决策研究-企业管理专业论文.docx
- 基于演化博弈模型的网络联保贷款探析-理论经济学专业论文.docx
- 基于唾液蛋白质组学的2型糖尿病病证结合分子诊断模型分析-中西医结合临床专业论文.docx
- ABB REX640 保护和控制继电器 适用于高级发电和配电应用的一体化保护装置 数据表(中文).pdf
- honeywell霍尼韦尔SmartLine® 电子远传变送器产品文档.pdf
- Fujifilm 富士胶片 ApeosWare Management Suite 2 GM1216C2-6 说明书.pdf
- Panasonic松下HBC软件YA-2KPMV1F01说明书用户手册.pdf
- Colorlight卡莱特AI智能媒体中心AX6K 产品规格书 V1.0说明书用户手册.pdf
- ABB Prerequisite SOP for ServiceNow Discovery BAU 操作说明(英语).pdf
- YJ扬杰SiC MOSFET模块 MC14HFZ12C1N规格说明书.pdf
- YJ扬杰IGBT模块 MG40P12E2A规格说明书.pdf
- YJ扬杰IGBT单管 DGB20N65CTL1K规格说明书.pdf
- ApeosWare 管理套件 系统要求 Management Suite 2 入门指南.pdf
最近下载
- 软件质量保障体系构建.docx
- [八部经典中医学著作].06金匮要略.doc VIP
- 实践总结:东芝电梯CV180、190、330故障代码.doc VIP
- 第五单元第11课《刀言纸语》教学课件-2025-2026学年苏少版(2024)初中美术八年级上册.pptx VIP
- 2024-2025学年北京东城区八年级初二(上)期末物理试卷(含答案).pdf
- 八(上)古诗文赏析(含答案).doc VIP
- 中华人民共和国仲裁法(2025修订版)测试题及答案.docx VIP
- 高速公路桥梁T梁预制架设施工方案.doc VIP
- 济南酒店复盘总结2012.3.15.ppt VIP
- 第十五课《锦上添花》课件-+2025-2026学年赣美版(2024)初中美术七年级上册.pptx VIP
原创力文档


文档评论(0)