中文信息学报基于小规模语料库和机器可读词典的二元分布语义获取.PDF

中文信息学报基于小规模语料库和机器可读词典的二元分布语义获取.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息学报基于小规模语料库和机器可读词典的二元分布语义获取

中 文  信  息  学  报 第 18 卷 第 6 期   JOURNAL OF CHINESE INFORMATION PROCESSING Vol 18 No6 ( ) 文章编号 :1003 - 0077 2004 06 - 0023 - 07 基于小规模语料库和机器可读词典的 二元分布语义获取① 1 2 郝秀兰 ,杨尔弘 ( 1 太原师范学院 网络中心 , 山西 太原  0300122 ; 2 山西大学 计算机科学系 , 山西 太原  030006) ( ) 摘要 :本文提出了一种基于小规模语料库和机器可读词典 Machine Readable Dictionary ,MRD 的无指导的 动词语义获取方法 。该方法不需要使用有义项标注的语料库 ,而是使用从语料中获得的V + N 搭配以及 MRD 中多义词定义的应用实例中获得的知识 。使用两种方法解决数据稀疏问题 :首先 ,将词的相似性度量由直接 共现扩展到共现词的共现 , 以共现聚类而不是共现词来计算词的相似度 。其次 ,从 MRD 定义中获取名词的 IS - A 关系 。通过这些方法 ,即使两个词不共享任何词 ,也可认为是相似的。实验表明 ,该方法可从很小规模的 语料中获取知识 ,并在不限制词义的情况下达到 857 %的正确排歧率 。 关键词 :人工智能 ; 自然语言处理 ;机器可读词典 ;二元分布 ;语义 ;知识获取 中图分类号 :TP391    文献标识码 :A Dual Distributional Semantic Knowledge Acqusition with Small Corpora and Machine Readable Dictionaries 1 2 HAO Xiulan ,YAN G Erhong ( 1Network Center of Taiyuan Normal University , Taiyuan , Shanxi 030012 ,China ; 2Computer Science Department of Shanxi University , Taiyuan , Shanxi 030006 ,China) Abstract : This paper presents a system for unsupervised verb semantic knowledge acquisition using small corpus and a ma chinereadable dictionary (MRD) . The system does not depend on sensetagged corpus , but learns a set of typical usages listed in the MRD usage examples for each of the senses of a polysemous verb in the MRD definitions and uses verbobj ect cooccurrences acquir

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档