- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《外语与外语教学》2010 年第 4 期,总第 253 期
从语料库中挖掘知识和抽取信息
Mining Knowledge Extracting Information from Corpus
冯志伟
(教育部语言文字应用研究所, 100010 )
提要:本文介绍了中国传媒大学树库研究团队从依存树库中获取语言学知识的一些工作,如
汉语复杂网络的研究等。这些工作都是在汉语依存树库的基础上进行的。本文也简要地介绍
了国外从语料库中获取非语言学知识的研究以及信息自动抽取的研究。
关键词:语料库;依存树库;知识挖掘;信息抽取
Abstract: Based on the dependency Treebank, the doctor students in Communication University
of China study the complex network of Chinese. The paper introduces their works. The
non-linguistic knowledge mining and automatic information extraction are also introduced.
Keywords: corpus; dependency Treebank; knowledge mining; information extraction
大规模的真实文本语料库包含着无比丰富的知识和信息,语料库是一个宝藏,从语料
库中可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识,从语料
库中还可以抽取各种各样的信息。
在本文中,我们先讲怎样从语料库挖掘语言学知识,然后再讲怎样从语料库中挖掘非
语言学知识。最后,我们介绍怎样从语料库中抽取信息。
一、 从语料库中挖掘语言学知识
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在
理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这
是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,
大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一些独特的方法,提出了一些初
步的理论,形成了一门新的学科 -- 语料库语言学(corpus linguistics ),由于语料库是建立
在计算机上的,因此,很多学者把它看成是自然语言处理(natural language processing )的
一个分支学科。
语料库究竟有什么用处。这里我们通过一个实例来说明。
如果我们有关于副词“多半”用法如下的例句:
1. 游览北京名胜古迹的多半是外地人。(表示“大部分”)
2. 过了立秋,天气多半会变得凉爽起来。(表示“通常”)
3. 他们多半会同意的,你不用着急。(表示“很有可能”)
仔细观察,发现句子 3 有歧义。除了表示“很有可能”之外,还可以表示“他们”中
的“大部分”。也就是说,“多半”的语义指向可以向后指向“同意”,还可以向前指向“他
们”。
最近,我的博士生高松带着这样的问题,对北大语料库提供的 500 条语料进行分析,
得出了如下的统计结果:
条目数 比例
切分错误 22 4.4%
无歧义 329 65.8%
有歧义 149 29.8%
合计 500 100%
她还发现,如果不分词,会产生如下的切分错误句子:
4. 我差不多半年都没去书店了。
其实句子 4 中根本没有“多半”这个单词。
在有歧义的 149 条中,歧义格式可以分为两类:
-- 名词、名词性短语 + 多半 + 动词
5. 考到外地大学生又多半不想回来。
--
您可能关注的文档
- 创伤性截瘫患者心理护理体会.pdf
- 创伤性休克病人急救护理.pdf
- 创伤叙事和_不及物写作_.pdf
- 创新2.0视野下智慧城市.pdf
- 创新2_0视野下智慧城市_宋刚.pdf
- 创新发展先进军事空天文化.pdf
- 创新和保守大学核心竞争力构建的双重维度.pdf
- 创新甲骨文应用产品策略.pdf
- 创新能力培养是高职院校素质教育灵魂.pdf
- 创新人才培养和课程考核改革.pdf
- 2025安徽马鞍山市中医院招聘人员11人考试备考题库及答案解析.docx
- 2019年上半年全国事业单位联考E类《职业能力倾向测验》答案+解析.pdf
- 小专题大智慧酸碱中和滴定的拓展应用人教选修.pptx
- 2025浙江绍兴市柯桥区稽山书院招聘2人模拟试卷及答案详解一套.docx
- 2019年下半年全国事业单位联考C类《职业能力倾向测验》答案+解析.pdf
- 2025浙江绍兴市柯桥区稽山书院招聘2人模拟试卷及答案详解1套.docx
- 2025内蒙古鄂尔多斯东胜区万正投资集团招聘60考试备考题库及答案解析.docx
- 2025广西农业职业技术大学招聘教职人员控制数 (高层次人才)23人考试备考题库及答案解析.docx
- 2025浙江绍兴市柯桥区稽山书院招聘2人考前自测高频考点模拟试题及参考答案详解.docx
- 2025浙江绍兴市柯桥区稽山书院招聘2人考前自测高频考点模拟试题及参考答案详解一套.docx
最近下载
- 精品解析:2025年云南省中考英语真题(解析版).docx VIP
- 2025中国金融市场投资者洞见白皮书.pdf VIP
- 2025年云南省中考英语真题(解析版).doc VIP
- 2025年混凝土质量控制及管理制度(二篇) .pdf VIP
- 北京海淀区2023-2024学年高三上学期期末生物试题 Word版含解析.docx VIP
- 沙漠光伏治沙工程行业可行性分析报告.docx
- 2024云南初中英语中考试卷分析.docx VIP
- 以“政府绩效与公众信任”为主题,撰写一篇小论文.docx VIP
- 2025年艺考生录取分数计算方式.pdf VIP
- 无人驾驶深度之一:无人物流专题:万事具备,爆发元年.pptx VIP
文档评论(0)