刘江鸣 徐金安 吴培昊 张玉洁北京交通大学自然语言处理小组.pptVIP

刘江鸣 徐金安 吴培昊 张玉洁北京交通大学自然语言处理小组.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Liu L, Cao C, Wang H. Extracting hyponymic relations?from?Chinese free corpus. ACOS06 Proceedings of the 5th WSEAS international conference on Applied computer science. 2006: 962-968 Liu L, Cao C, Wang H. Extracting hyponymic relations?from?Chinese free corpus. ACOS06 Proceedings of the 5th WSEAS international conference on Applied computer science. 2006: 962-968 Liu L, Cao C, Wang H. Extracting hyponymic relations?from?Chinese free corpus. ACOS06 Proceedings of the 5th WSEAS international conference on Applied computer science. 2006: 962-968 Liu L, Cao C, Wang H. Extracting hyponymic relations?from?Chinese free corpus. ACOS06 Proceedings of the 5th WSEAS international conference on Applied computer science. 2006: 962-968 LOGO LOGO 刘江鸣 徐金安 吴培昊 张玉洁 北京交通大学自然语言处理小组 Page ? * 面临的问题 Page ? * 传统方法 Page ? * 同义关系自动识别 Page ? * 模板匹配 模板1: A(简称|简称为|中文简称|又称|又称为|亦称|亦叫|亦作|又 叫|也称|也称为|俗称|又译|又译作|全称为|全称是) {左引号|冒号}B{右引号} 例如:杠杆原理: 亦称“杠杆平衡条件” 模板2: A{是|即}B(的简称|的全称|的对称|的缩写) 例如:马哲: 是马克思主义哲学的简称 Page ? * 模板匹配 模板3: A{:|【} 中文别名|通用名称 {】|:} B 例如:何首乌:中文别名: 首乌、夜交藤、赤首乌、铁秤砣 模板4: A(和)B(是同义词) 例如:万维网和www是同义词,已合并 Page ? * 词集处理 A的关键词集 B的关键词集 B词描述 A词描述 B引用A A引用B Page ? * 同义关系 网络资源 模板库 词描述 关键词集 同义关系 搜索队列 Crawler 词集处理 模板匹配 Page ? * 上下位关系自动识别 Page ? * 开放分类 Page ? * 词汇细化 Page ? * 领域分类 Page ? * 模板匹配 Page ? * 模板匹配 ? 阅读是一种信仰 ? 思念是一种病 Page ? * 上下位关系 网络资源 词描述 关键词集 上下位关系 搜索队列 Crawler 词汇细化 学科分类 开放分类 模板匹配 模板库 专有名词 Page ? * 实验结果 Page ? * 结论和未来工作 结论 网络蕴含大量信息并随着时代变化 关注词语类别和网络资源描述方式 词语的构成 未来工作 筛选并扩大有效模板库 缓解网络噪声 同义与上下位之间的关系 语义关系自动识别主要面临的问题有 1、流行词汇、网络用语等新词不断涌现,这使得具有同义关系和上下位关系的词对数量越加繁多。 2、一词多义,老词新义。在网络上浮云,沙发等老词被赋予了新的意思。 3、这必然会导致更加严重的歧义性。 在如此情况下,我们关注的是词的普遍意思,也就是常用意思。而随着词义的演变,这种普遍意思不是永久不变的。 因此利用网络资源获取语义关系是具有时代性和有效性的。 同义关系 统计: 使用标记语料库训练二值分类器。 基于图的方法,Newman方法进行图聚类 模版: 上下位关系 IS-A结构 过滤规则 在评测中,同义关系自动识别以网络资源为基础(包括百度百科,维基百科等),主要利用的是百度百科和维基百科描述词的特点。 使用两种方法,模板匹配和词集处理。 模板匹配中,以前人的经验,选取有效的模板构造模板库,达到同义关系自动识别的目的 词集处理中,主要使用的是百度百科词条描述中关键词,这里的关键词包括相关词条和超链词汇。 参考前人的经验选取有效的模板并以此加以扩充。 形如“简称”“简称为”“的全称”“缩写”等词标记 陆勇,章成志,侯汉清. 基于百科资源的多策略中文

文档评论(0)

jykt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档