- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
期中论文
PAGE \* MERGEFORMAT9
语料库和知识库研究现状
2015-12-9
2015-12-9
摘 要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。
关键词:语料库;知识库;研究现状
前言
语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专著、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。
研究意义
从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材, 有助于研究者根据大量的语言素材实际得出客观正确的结论。另外,语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计,帮助人们观察和把握语言事实,更为准确的得出结论。在应用语言学领域,语料库技术与应用语言学的结合也产生了大量的实用成果。比如,应用语料库产生一系列基于语料库的词典,应用语料库确定语言教学的教材提纲,提供外语教学与研究的良好平台等。
而知识库尤其是语言知识库,是帮助计算机了解人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提[3]。知识库的构建对于自然语言处理的发展具有重要作用,可以满足其对语言句子语义知识的要求,在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。
鉴于以上介绍的语料库和知识库在当今研究中的重要作用,对于语料库和知识库发展现状的研究总结,可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题,可以为人们对语料库知识库的进一步研究和应用提供一定的指导作用。
国内发展现状
3.1语料库的发展与现状
自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速,取得了相当一部分的成就。
早期语料库
早期在中国建立的机器可读语料库主要包括:1979年武汉大学建立的汉语现代文学作品语料库(527万字)、1983年北京航天航空大学建立的现代汉语语料库(2000万字)、1983年北京师范大学建立的中学语文教材语料库(106万8千字)以及1983年北京语言学院建立的现代汉语词频统计语料库(182万字)。早期形成的这些语料库,基本都是手工方式建立的,成本高、效率低。另外,在早期建立语料库时,只形成了初步的国家语料库的建立标准,在语料库建立的统一规范方面问题比较突出。
国家级大型汉语语料库
在1991年,为了推进汉语的词法、句法、语义和语用的研究,中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平,而且在语料的可靠和标注的准确方面等享有权威性,但是该语料库依靠纯手工建立,在选材方面也受到了一定的限制。目前,该语料库已经具有2000万字的核心语料,经过人们的加工处理,其正在完成从生语料库到熟语料库的过度。
大规模真实文本语料库
随着技术的进一步发展,大规模真实文本语料库逐渐被建立起来。研究大规模真实文本语料库的单位包括北京大学计
您可能关注的文档
- 压缩机的电机轴瓦间隙的调整与处理.doc
- 汽车后地板系统设计指南.pdf
- 雅思替换词+高级句型.doc
- 汽车结构用热轧双相钢的生产现状及发展趋势.pdf
- 眼耳鼻喉口腔科学复习题.doc
- 眼科护士个人工作总结.doc
- 腰痹临床路径2014.doc
- 腰椎间盘突出病历模板.doc
- 腰椎间盘突出特效方.doc
- 腰椎间盘突出诊疗规范.doc
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
文档评论(0)