术语定义的聚类研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
术语定义的聚类研究   摘 要:术语定义的领域聚类是一项较新的研究课题。本文采用自下而上的层级聚类的方法,基于知网进行语义相似度计算,并根据不同词类对领域区分的贡献度以及构建领域聚类特有的停用词表来进行聚类的特征项选取,实现了术语定义的领域聚类。实验取得了较好的聚类结果。   关键字:术语,术语定义,语义相似度,领域聚类   中图分类号:H083;N04 文献标识码:A 文章编号:1673-8578(2011)01-0014-05      Cluster Research on Term Definition   ZHANG Rong   Abstract: Domain clustering of term definition is a relatively new research topic. In this research, we took bottom?up hierarchical clustering method for semantic similarity calculation based on HowNet, and selected cluster?specific characteristics based on words with different contribution to clustering and stop?used words constructing domain cluster. Our results realized the domain cluster of term definition, and achieved a desired experimental result.   Keywords: term, term definition, semantic similarity, domain clustering      一 前言      新事物、新概念的出现带来了大量的术语及术语定义。对术语定义进行分类加工,按领域划分为不同的类别,有利于领域学科专家建立领域术语数据库,以及系统地研究领域术语之间的概念层次关系、语义关系,提高术语检索的准确率与知识的系统化加工的效率。   由于术语在领域之间的相互借用,使得有些术语可以在多个应用领域被使用,这些术语在不同的领域具有不同的义项。以“病毒”这一术语为例,“病毒”可以是生物领域的“病毒”,也可以是计算机领域的“病毒”,而两个领域的“病毒”显然是不同的义项,当有若干条“病毒”定义时,如何从中鉴别出哪些是生物领域的病毒定义,哪些是计算机领域的病毒定义,需要人工的参与。我们以几组同名术语定义为例来阐述术语定义领域聚类的必要性。例如:   1.病毒   病毒是一种可以在其他生物体间传播并感染生物体的微小生物,一般包含核酸以及外壳蛋白,有些动物的病毒的外面也偶尔覆盖一层细胞膜。   计算机病毒是指编制或者在计算机程序中插入的破坏计算机功能或者毁坏数据,影响计算机使用,并能自我复制的一组计算机指令或者程序。   2.防火墙   防火墙:用于将因特网的子网与因特网的其余部分相离,以达到网络和信息安全效果的软件或硬体设施。   防火墙:两所房子之间或者一所房屋的两个部分之间的厚而高的墙,可以防止火灾蔓延。   3.蠕虫   蠕虫是指一种可以不断复制自己并在网络中传播的程序。   蠕虫是无脊椎动物的一大类,构造比腔肠动物复杂,身体长行,左右对称,质柔软,没有骨骼,没有脚。    4.树   树是指生成语法采用的一种二维图形表示,能方便地显示由一组规则生成句子的内部层级结构。    树是木本植物的统称。   例1中的“病毒”分别是生物领域的术语和计算机领域的术语;例2中的“防火墙”分别是计算机领域的术语和建筑领域的术语;例3中的“蠕虫”是属于计算机领域的术语和生物领域的术语;例4中的“树”分别是计算机领域的术语和通用领域的词语。   在领域数据库的构建和用户的使用过程中,有必要将这些定义区分开来。通过聚类将计算机科学术语聚合在一起,将生物学术语聚合在一起。但是当待处理的数据足够庞大时,人工将这些术语定义进行领域分类,将耗费大量的人力、物力,因此本文提出了计算机自动处理的术语定义的领域聚类方法。      二 术语定义聚类的流程      聚类是知识发现的重要方法,通过聚类,能够发现事物的内部规律和特征。聚类没有事先预定的类别,类别数在聚类过程中自动生成,无需人工标注和预先训练分类器。聚类作为一种无监督的机器学习方法,具有较高的灵活性和自动化处理能力[1]。本文聚类的具体过程如下图所示:               三 特征项选取      术语定义集

文档评论(0)

小马过河 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档