- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算语言学资源-语料库
计算语言学资源语料库 徐志明 哈工大语言技术中心 回顾 两种计算语言学研究路线 基于规则的NLP方法 以形式语言理论为基础,人工撰写语言规则。 基于统计的NLP方法 将大规模真实语料库视为知识的源泉。 采用统计方法,从语料库中学习语言知识。 地位:目前是计算语言学的主流。 概念 什么是语料库 Corpus, Corpora 文本的集合。 可以原始的文本(生语料库) 也可以是带标记的文本(熟语料库) 语料库是统计NLP的知识来源 语料库语言学(corpus linguistics) 以大规模真实语料库为研究对象,而进行的语言学研究,称为语料库语言学。 也称为基于统计的NLP研究。 语料库语言学 语料库研究 收集: 收集大规模真实文本,建设平衡语料库。 加工: 对语料库进行各级语言单位的语言学信息标注。如词法、句法、语义、语用、篇章层。 标注技术:分词、词性标注、句法标注、语义标注等。 统计: 对语料库进行各级语言单位的统计。 模型化: 根据语料库的统计,对相关的语言问题,构造统计模型。 语料库研究的历史 第一代(1970-80年代) 百万词级,以语言研究为导向 第二代(1980-90年代) 千万词级,词典编纂-应用导向 第三代(1990年代-) 超大规模(上亿词级),标准编码体系, 深度标注/多语种,NLP应用 第四代(目前) 互联网可被视为海量信息的语料库。 英文语料库 Brown语料库(Brown Corpus) 世界上第一个根据系统性原则采集样本的标准语料库。 Brown大学,建于1960年代初。 主要代表当代美国英语。 100万词规模。 LOB语料库 由英国Lancaster大学著名语言学家Geoffrey Leech倡议,挪威Oslo大学StigJohansson主持完成。 安装在挪威Bergen大学挪威人文科学计算中心。规模与Brown语料库相当。 主要代表当代英国英语。 英文语料库 London-Lund语料库 1960年代初,由Randolph Quirk主持,1975年建成 收集2000小时的谈话和广播等口语素材并整理成书面材料 由瑞典Lund大学J. Svartvik主持全部录入计算机 COBUILD语料库 建于1980年代,以词典编撰为应用背景 有英国Birminghan大学与Collins出版社合作完成 规模达2000万词次 基于该语料库出版的Collins Cobuild词典受到了广泛的好评 英文语料库 朗文语料库(Longman Corpus) 建于1980年代 书面语 选自1900~的20世纪英语:知识性(informative)文本 规模2800 万词 宾州树库 (UPenn Tree Bank) /~treebank/home.html 美国宾州大学计算机系M.Marcus 教授主持 1993年完成约300万词次英语句子的语法结构标注 2000年完成第一版中文树库,约10万词次,4185个句子 宾州树库例子:他还提出一系列具体措施的政策要点。 词性标注: 他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN 要点/NN 。/PU 句法分析 ( IP ( NP-SBJ (PN 他)) ( VP (ADVP ( AD 还)) ( VP ( VV 提出)) ( NP-OBJ ( QP ( CD 一) ( CLP ( M 系列))) ( NP ( NP ( ADJP ( JJ 具体) ( NP (NN 措施))) ( CC 和) ( NP ( NN 政策) ( NN 要点)))))) ( PU 。)) 中文语料库 汉语现代文学作品语料库 (1979年,武汉大学,527万字) 现代汉语语料库 (1983年,北航,2000万字) 中学语文教材语料库 (1983年, 北师大,106万字) 现代汉语词频统计
文档评论(0)