利用高频词和互信息面向特定领域提取多字词表达.pdfVIP

利用高频词和互信息面向特定领域提取多字词表达.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
放射免疫学杂志

第 4O卷 第 3期 太 原 理 工 大 学 学 报 Vo1.40 No.3 2009年 5月 JOURNAL OF TAIYUAN UNIVERSITY 0FTECHN0L0GY M av 2009 文章 编 号 :1007—9432(2009)03—0210—05 利用高频词和互信息面向 特定领域提取多字词表达 刘 荣 ,王丽娟。,张志平 ,赵小兵 (1.北京语言大学 应用语 言学研究所 ,北京 100083;2.太原理工大学 文法学院外语系 ,山西 太原 030024; 3.太原理工大学 计算机与软件学院,山西 太原 030024;4.中央民族大学,北京 100038) 摘 要 :在 阐述 了多 字词表 达 定义 的基 础 上 ,对 面 向特 定领 域 的多字 词表 达提取 的技 术路 线进 行 了详 细说 明。 以大规模 的真 实文本 为研 究 对 象,利 用领 域 高频 词 和 互信 息统 计 量提 取 多字词 表 达 ,确 定 了多字词表 达 的最 大提取 长度 ,并通过 停 用词表 法 对候 选 多字词表 达进 行噪 声 处理 。实验 结果表 明 :笔者提 出的方 法在 处理 对 象规模 、效 率等 方 面均有 所提 高 。 关键词 :多 字词 表达 ;特 定 领域 ;高频词 ;互信 息 中 图分 类 号 :TP391 文献标 识 码 :A 对任何 NLP都是巨大的挑战。 “多字词表达的理论 1 课题研 究的必要性 还未成熟 ,在 NLP领域 中这个 问题被大大低估 对于大多数 自然语言处理工程而言,词汇资源 了”_r。本文以中文作为研究对象,通过高频词和互 是非常重要的。尽可能的面向大规模真实文本 ,利 信息对多字词表达的提取做了相关研究。 用机器 自动生成词汇的方法是一个当前研究的热点 和难点。在 自然语言理解和 自然语言处理 (NLP)的 2 关于多字词表达 许多实际应用 中,多字词表达 (MultiwordExpres— 2.1 多字词表达的广义定义 sions)有着很重要的作用 。多字词表达有广泛 的应 多字词表达 的难点是对它的定义和 自动识别 。 用前景 ,它对于词典编纂 、词语的歧义消解 、提高文 这两个问题互相关联就产生 了一个循环问题。一旦 本 自动分类的准确率 、提高搜索引擎的效率、中文信 我们不能完全体现和清楚描述 出多字词表达 的特 息处理的浅层句法分析 、自动文摘 、信息抽取 、对外 性 ,那么对多字词表达 的定义就不全面,进而言之 , 汉语教学的教材更新 、机器翻译等方面都会有所帮 如果定义不全面 ,那么多字词表达的提取就不充分 , 助。尤其在词典编纂领域 ,由于大部分词汇资源需 不能显现其所有的特性。在 自然语言处理领域和语 要手工编纂,这就需要耗费大量的人力物力财力 ,并 言学界 ,有相 当多 的研 究都借鉴 了 Sagetal和 且受限于编者所用 资料 的规模和取舍态度 ,一部词 Wray的广义 的定义[2]:Sagetal把多字词表达粗略 典总是难免出现这样那样的不可规避 的问题 ;另外 的定义为跨越词 的边 界或 空格 的特质 的解释。 随着现代信息社会 的发展 ,很多新词新义项难以很 Wray则从心理语言学 的角度给 出了定义 :一个连 快收录。因此 ,通过机器 自动提取多字词表达对 于 续或非连续的词语序列。它是预先构成 的,即存储 词典编纂有着很大的作用。 在记忆中或在使用时能从记忆中整体检索到,不受 在 自然语言处理领域 ,多字词表达引起了越来

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档