- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
7.5 大规模真实文本的处理 7.5.1语料库语言学及其特点 利用规则不可能完全准确地表达理解自然语言所需的各种知识,规则实际上是面向语言的使用者的,因此若将它面向机器则分析结果始终不尽如人意。 所需的知识蕴涵在真实文本中,通过知识库,实现以知识为基础的智能型自然语言理解系统。 必须对语料库进行适当的处理与加工,使之由生语料变为熟语料。 语料库语言学(Corpus Linguistics) 语料库中包括的语义信息: WordNet词典将近95,600个词形 (51500单词和44100搭配词)和70100个词义分为五类:名词、动词、形容词、副词和虚词,按语义而不是按词性来组织词汇信息。 WordNet词典中,名词有57000个,含有48800个同义词集,分成25类文件,平均深度12层。最高层为根概念,不含有固有名词。 传统词典把各类不同的信息放入一个词汇单元中,包括 拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。 但不够 如, “树”,解释为:一种大型的、木制的、多年生长的、具有明显树干的植物。(上位词加上辨别特征) 不够。原因: (1)它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提及它们是生命的组织形式。但是在WordNet中,只要查一下它的上位词“植物”,就可以找到这些信息。 (2)树的定义没有包括对等词的信息,不能推测其他种类的植物存在的可能性。 (3)对于各种树都感兴趣的读者,除了查遍词典,没有别的办法。 (4)每个人对树都有自己的认识,而词典的编撰者又没有将其写在树的定义中。如树包括树皮、树枝;树由种子生长而成等。 普通词典中遗漏构造性信息而不是事实性的信息。 WordNet是按一定结构组织起来的语义类词典,特征: (1)整个名词组成一个继承关系。 WordNet有着严格的层次关系,这样一个单词可以把它所有的前辈的一般性的上位词的信息都继承下来。 (2)动词是一个语义网。 WordNet进行关系分析。动词间的纵向关系,即词汇蕴涵关系。 大规模真实语料库的建设? 大规模、信息丰富的机读词典的编制方法? 数学方法——统计方法。 如何设计语料库? 如何对生语料进行不同深度的加工? 加工语料的方法? 规模几十万的词,含有丰富的信息 (如包含词的搭配信息、文法信息等)的计算机可用词典。 采用什么样的词典结构? 包含词的哪些信息? 如何对词进行选择? 如何以大规模语料为资料建立词典? 语料库语言学特点: (1)试验规模的不同。 要处理从多种出版物上收录的数以百万计的真实文本。这种处理在深度方面虽然可能不深,但针对特定的任务还是有实用价值的。 (2)文法分析的范围要求不同。 由于真实文本的复杂性 ,对所有的句子都要求完全的文法分析几乎是不可能的,同时,由于具体文章的数量极大,还有处理速度方面的要求。因此,目前的多数系统往往不要求完全的分析,而只要求对必要的部分进行分析。 (3)处理方法的不同。 基于规则的方法 + 对大量文本的统计性质分析。 (4)所处理的文本涉及的领域不同。 现在的系统则适合较宽的领域,甚至是与领域无关的。 (5)对系统评价方式的不同。 用真实文本进行较大模的、客观的和定量的评价(质量,处理速度)。 (6)系统所面向的应用不同。 走向实用化,要对大量的、真实的新闻语料进行处理。 (7)文本格式的不同。 要面向真实的文本。真实文本大多都是经过文字处理软件处理以后含有排版信息的文本。 7.5.2 统计学方法的应用 使用统计的方法 机器翻译的正确率达到60%, 汉语切分的正确率达到70%, 汉语语音输入的正确率达到80%。 总的趋势—— 部分分析代替全分析, 部分理解代替全理解, 部分翻译代替全翻译。 统计方法在理解自然语言时主要是和分析方法相结合使用的。 结构化语言模型——根据语料统计信息建立一定的优先评价机制,对输入句子的分析结果进行概率计算,从而得到概率意义上的最优分析结构。 最初在语音识别研究中提出的概率上下文无关文法PCFG, Backer提出Inside-Outside算法解决了PCFG文法的参数自动获取问题,出现了一些有用的成果。 随着结构化标注信息的树库的建立,开始使用各种有监督的学习机制,构造更为复杂的语言模型,如基于决策树的方法、基于词汇关联信息的语言模型等。 加大语言处理基本单元的力度也是重要的发展趋势。 7.5.3 汉语语料库加工的基本方法 书面汉语词/词 词表达概念 句法研究组词成句 汉语语料库加工: 自动分词和标注 词性标注和词义标注 1.汉语自动分词 (1)汉语自动分词方法 以基于词典的机械匹配分词方法为主。 最大匹配法(Maximum
文档评论(0)