汉语科技词系统研究进展.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语科技词系统研究进展.pdf

D。 t‘宰■-书■n论:坛I石 http://www.dlf.net.cn 中文词汇知识组织系统的自动构建及应用。我们在基 示在该领域C全是多字词。式(1)实际上反映了单个汉字 于构词能力和构词模式的新词发现技术、基于双序列 在该领域的构词能力大小,则某一字串构成新词W的概 比对的中文术语语义相似度计算方法、基于最大频繁 项集挖掘的主题词推荐算法,以及根据Proximity数据 l{l一F-尸(:Iw(是单字词) 构建词汇 向量空间模型方法 以及词系统的可视化分析 兀 I( f (2) 方面做了大量的探索工作,开发了多种词系统辅助构 建工具,比如术语抽取工具、术语 问关系辅助构建工 显然,从概率论的角度可 以认为构词能力为零或 作、词条索引工具等等,并且许多工具嵌入了词系统 接近于零的字或词,与其他字或词联合构成新词的概 服务平 。 率为零。 其三 ,基于过程的知识组织系统的评价技术。 YaoYuan博士 曾提 出基于head—middle.tail结构 我们结合网络环境下知识组织系统构建、管理和应用 的构词模 式。任何一个字 ,在构成新词时有词首 的特点采用~些新的评价指标,对所构建的新型知识 (head)、词尾 (tail)、词中 (middle)三种模式4[】。 组织系统进行了全面的评价分析。首先,在传统分 设pttn(c)表示字的构词模式,则 类法、叙词表、分类主题一体化词表评价方法和评价 指标的基础上,结合词系统的特点,从功能、内容和 嘶 )lc)= (3) countlC 丁 多 子 叫 结构三个方面构建了新的评价指标体系,做到从宏观 和微观两个层面对汉语科技词系统进行定性评价和定 其中, 表示汉字C在某一多字词中取模式pttn(c)时 量评价。其次,由于传统知识组织系统评价方式存在 的条件概率。显然对于同一汉字,存在 缺乏宏观测度、时滞过长、不能动态揭示等缺陷,我 们结合复杂网络理论,从基本特性、动态特性和鲁棒 ∑P~pttn(c)lc)一 。 pttn(c)=H,M ,T 性三个角度着手,对汉语科技词系统网络特性进行分 析。实验证明:汉语科技词系统同时具有小世界特性 跟构词能力一样,构词模式的结果跟所用语料有 和无尺度特性,在建设过程中应采用有导向的建设, 直接关系。针对某一领域语料计算构词模式,主要是 在系统管理和维护的过程 中要注重词汇间相互关系, 词首和词尾的概率。用此结果作为规则,对新词进行 保证系统的连通性。 判断、筛选,以此提高新词的质量。 针对 《科技 日报》这种形式的语料,本文用二元 3 科技领域的新词发现 语法和三元语法作为统计模型,用 已有的构词能力和 构词模式作为规则,决定是否把其作为候选新词进行 新词发现常用的方法分三种:基于词频统计的方 词频统计。从系统测试来看,在 目前的条件下系统的 法、基于规则的方法、规则和统计结合的方法。我们以构 准确率达到90%左右,覆盖率能达到40%以上嘲。 词能力

文档评论(0)

39号书库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档