网站大量收购独家精品文档,联系QQ:2885784924

中文信息学报自动获取汉语词语搭配-上海大学高性能计算中心.PDF

中文信息学报自动获取汉语词语搭配-上海大学高性能计算中心.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息学报自动获取汉语词语搭配-上海大学高性能计算中心

中 文  信  息 学  报 第 20卷 第 6期   JO URNAL O F CH INESE INFO RM A T IO N PROCESS ING Vol20 No6 文章编号 : 1003 - 0077 (2006) 06 - 003 1 - 07 自动获取汉语词语搭配① 1, 2 2 1 王素格 ,杨军玲 ,张  武 ( 1上海大学 计算机工程与科学学院 ,上海  200436; 2 山西大学 数学科学学院 , 山西 太原  030006) 摘要 :作为一种词汇现象 ,词语搭配在 自然语言处理的许多领域具有重要的应用 。本文对 4 种词语相关 性度量和 3种词语结构分布度量分别进行了比较分析 ,并提出了一种基于互信息与熵融合的获取词语搭配的 方法 。实验结果表明:在同现频率较高情况下 ,互信息、Co sine系数 、x2 测试和似然比测试 4 种相关性度量对 搭配判定有大致相同的效果 ;在度量词语的结构分布方面 ,熵要优于方差和离散度 。本文所提方法依赖度量 指标少 ,阈值容易选取 ,且与其他已有的方法具有同等效果 。 关键词 :计算机应用 ; 中文信息处理 ;词语搭配 ;互信息 ;熵 中图分类号 : TP39 1    文献标识码 : A A utom a tic A cqu isition of Ch in ese Colloca tion 1, 2 2 1 WAN G Suge , YAN G Junling , ZHAN G W u ( 1School of Computer Engineering and Science, Shanghai Un iversity, Shanghai 200072 , Ch ina; 2 School of M athem atic s Science, Shanxi Un iversity, Taiyuan , Shanxi 030006, Ch ina) A b stract:A s a k ind of word p henom enon, co llocation p lays a very importan t ro le in natu re language p rocessing. In th is p ap er, 4 k ind s of word a ssociation m easu rem ents and 3 k ind s of word structure distribu tion m easu rem ents are comp ared and analyzed re sp ectively, and a hybrid m ethod ba sed on m u tual inform ation and entropy for co llocation is p ropo sed. The exp erim ent resu lts indicate that 4 k ind s of word association m ea surem en ts, m utual inform ation, Co sine 2 coefficien t, x te st and likelihood ratio have the sam e imp act under h igh cooccu rrence frequency for co llocation acqu i ring and e

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档