从语料库中挖掘知识与抽取信息.pdfVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《外语与外语教学》2010 年第 4 期,总第 253 期 从语料库中挖掘知识和抽取信息 Mining Knowledge Extracting Information from Corpus 冯志伟 (教育部语言文字应用研究所, 100010 ) 提要:本文介绍了中国传媒大学树库研究团队从依存树库中获取语言学知识的一些工作,如 汉语复杂网络的研究等。这些工作都是在汉语依存树库的基础上进行的。本文也简要地介绍 了国外从语料库中获取非语言学知识的研究以及信息自动抽取的研究。 关键词:语料库;依存树库;知识挖掘;信息抽取 Abstract: Based on the dependency Treebank, the doctor students in Communication University of China study the complex network of Chinese. The paper introduces their works. The non-linguistic knowledge mining and automatic information extraction are also introduced. Keywords: corpus; dependency Treebank; knowledge mining; information extraction 大规模的真实文本语料库包含着无比丰富的知识和信息,语料库是一个宝藏,从语料 库中可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识,从语料 库中还可以抽取各种各样的信息。 在本文中,我们先讲怎样从语料库挖掘语言学知识,然后再讲怎样从语料库中挖掘非 语言学知识。最后,我们介绍怎样从语料库中抽取信息。 一、 从语料库中挖掘语言学知识 语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在 理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这 是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作, 大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一些独特的方法,提出了一些初 步的理论,形成了一门新的学科 -- 语料库语言学(corpus linguistics ),由于语料库是建立 在计算机上的,因此,很多学者把它看成是自然语言处理(natural language processing )的 一个分支学科。 语料库究竟有什么用处。这里我们通过一个实例来说明。 如果我们有关于副词“多半”用法如下的例句: 1. 游览北京名胜古迹的多半是外地人。(表示“大部分”) 2. 过了立秋,天气多半会变得凉爽起来。(表示“通常”) 3. 他们多半会同意的,你不用着急。(表示“很有可能”) 仔细观察,发现句子 3 有歧义。除了表示“很有可能”之外,还可以表示“他们”中 的“大部分”。也就是说,“多半”的语义指向可以向后指向“同意”,还可以向前指向“他 们”。 最近,我的博士生高松带着这样的问题,对北大语料库提供的 500 条语料进行分析, 得出了如下的统计结果: 条目数 比例 切分错误 22 4.4% 无歧义 329 65.8% 有歧义 149 29.8% 合计 500 100% 她还发现,如果不分词,会产生如下的切分错误句子: 4. 我差不多半年都没去书店了。 其实句子 4 中根本没有“多半”这个单词。 在有歧义的 149 条中,歧义格式可以分为两类: -- 名词、名词性短语 + 多半 + 动词 5. 考到外地大学生又多半不想回来。 --

文档评论(0)

feiyang66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档