基于语义概念属性的文本聚类的研究.pdfVIP

基于语义概念属性的文本聚类的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
情报学报 z鲫·1000一o-,s 船器揣嚣毒嚣‰:嚣jP嚣蕊!黑 25 2006 第25卷428—431,2006年10月 Vol 428—431 Ocmher 基于语义概念属性的文本聚类研究 冯垢孙济庆 (华东理工大学科技信息研究所,上海200237) 摘要 针对文本处理中基于关键词的文本聚类方{击的局限性,本文提出了基于语义概念属性的文本聚类。引 K-means 人《HwNeO中的语义表示方法用义原定义语义概念,并作语义特征选取。经使用K-means算法和Biseetlng 算法验证.均优于基于关键词的文本聚类。 关键词 文本聚类文本处理语义 . 多共同项。此外,由于在文章撰写时修辞的缘放,对于同一 1引言 语义概念.为了避免用词重复,常常出现同义替换现象,所以 .将词犯映射到语义概念一级,可以更加全面地反映文本之阃 对文本的自动加工处理有多种不同的方法,以聚类为 的相似程度。 倒,在传统的文本聚类研究中基于关键词的文本聚类方法占 我们引入(HowS酏)中的语义表示方法作为我们引人语 主导地位,能直接对文本进行处理。但在对实际的自然语言 义概念的方式:用义原定义语义概念。相对于词j[而言,具 文本进行处理操作中也有很大的局限性,主要有以下几方 有以下优点: 把语义分解成为义原可以很好地解决一义多词的同题, 面。 词语同义性:不同的词语可咀表达一个相同的概念。在 文本聚类中。这是需要解决的主要的问题之一,解决好了这 均定义为。conjurerl电脑”,因此从义原这一层面来说我们 可以把它们视为语义等同的词语。其实从这个层面上来理 个问题,有助于召回率的提高。比如“电脑”和。计算机”表达 解,我们可以把某个概念的中文和英文单词同样看做是一个 的都是“电子计算机”遮一个概念,但这两词的外在表现形式 一义多词的一种形式,这样如果我们的分类是基于语义上 却不一样,基于关键词的分类方法却将其作为完全不同的词 的.只要解央好了排歧的问题,我们并不需要特殊处理就可 来对待。 ‘ 以解决跨语种文本分类与聚类的问题。 词语多义性:多义词指这样一类词.它们可代表多个概 通过词义排歧,解决一词多义的问题。如“病毒”既可代 念,并且每个概念可能分属不同的类别。多义词的数量很 表医学上的“病毒”概念,也可代表计算机类的。病毒”概念。 多.而且太多数为名词。还有部分词,它们在表面不是多义 比如我们可以认为,在计算机或程序等与Ⅱ相关上下文环 词.但在不同类别内却

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档