利用统计量和语言学规则提取多字词表达.pdfVIP

利用统计量和语言学规则提取多字词表达.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用统计量和语言学规则提取多字词表达.pdf

Vo 1. 42 No.2 太原理工大学学报 第 42 卷第2 期 JOURNAL OF 丁AIYUA!I UNIVERSITY OF 丁ECHNOLOGY Mar. 2011 2011 年 3 月 义院编号,1007-9432(2011)02-0133-05 利用统计量和语言学规则提取多字词表达 刘荣,正奕凯 〈太原理工大学外国语学院,太原 030024) 摘 要:.A.予特定领域的始料库,利用统计和语宫学规则相结合的方法提取多华调农达(Mul崎 tiword expressions). 首先利用领域高频询作为种子词提取候选事,进一步利用各种统,计贵、多字 询表达边界过滤规则对候选串进行噪声剔除,得到多字词农i怠。实验结呆农明,该方法对于处理重大 规模具狭义本放牟很高,可以有效提高多字词求达的获取,可以虽已有针对性地在特定领域提取多华 饲表达6 关键诩g 多字饲农达,.i.1富息 s 娟 g 始官学规则 申阳分裳号g 丁阳9 1. 1 义瞰椒识惆:A 多字词表达可以定义为不可根据部分组成成分 有句法分析错误中,因为不能识别多字词若是达附产 闹知其意的具有句法戒语义特质的任意词语组 生的错误商达 8%。因此,自然谓宵处理需要惠鲁棒 合(1) .多字词表达包括动词短语(爆发、取决于),复 的自动或半自动方法提取多字词表埠,进而进行资 合名词(机器翻译、警用车辆),成语(雨后春笋、三人 源建设。此外,由于多字词表达与所属谱育和所属 行必有我师)等等。在日常语宵生附中,多字词瑛边 文化有关,识别合洁的翻译对是机帮翻译的一个难 大量存在。多字词表达在日常生活中使用颇率很 题。本文所提取的多字词表沾有广泛的应用前景,它 2 高,J ackendoff[ 1 推测在一个人的词典中多字词表达 对于词典编集、中文词语的歧义消解、提高中文文本 的数盘和单个词的数撒缎是翩翩叫样的。在 WordNet 自功分樊的准确率、搬商搜索引擎的姓率、中文倍息 中几乎一半的词条是多字词表达. Biber et a1. [3J 指 处理的演层句法分析、自动文摘、信息抽取、对外仅语 教学的教材更新、机器翻译等方面都会有所帮助. 出,在英语口语中大约 30% 到 45% 的内容,学术文 章中 21% 的内容都是由多字词器达构成。温峭 1 多字词表达提取的基本方法 政[4) 指出事实上,ilt 请愿谐的数最并不比词少,而 是相反,至少是平分秋色飞由此可见,在现语中,语 在提取多字词表达时,最简单的方法就是统计 调串的数量,这种统计方踹虽然简单附有效,但是会 的数量也是非常庞大的。叹谱中,除了传统谐音学 产生大量的崛膏,从而引鹉樵确惑不高的问题。以 定义的成谐、谚语、歇腊语、惯用语之外,投有被词典 收录的应该就是多字词表达。对于特定领域而言, 往的词串统计方法只计算了词串的颇度信息,在抽 专业词汇组成了大量的多字词表达,并且新的多字 取结果中会包含很多不合语法和语义的词串。为了 词

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档