基于大规模语料的中文词聚类研究和实现.pdfVIP

基于大规模语料的中文词聚类研究和实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大规模语料的中文词聚类研究与实现1 蒋宏飞11 曹海龙21杨沐昀31 。(哈尔滨工业大学计算机系,哈尔滨150001) hiteducn E-mail:{hfjiang;chl;ymy}@mtlab 99 摘要:词聚类算法对自然语言处理具有重要意义。Brownl09-提出了一个经典的词聚类算法, 但是由于算法本身的复杂度较高,故难于对大规模语料进行处理(Brown文中提到词数超过5000 便是不可行的)。本研究中我们尝试着对上万词数的中文词语料进行了实现.并且,针对算法时 间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想。在近似的情况下, 它可以降低原算法一阶复杂度.本实验所用的语料来自人民日-{_g.1998年1月份的部分内容。 关键词:中文词聚类:聚类算法:大规模语料 引言 聚类算法是数据挖掘领域中的一个重要研究课题。聚类在电子商务、图像处理、模式识别、 自然语言处理等领域都有广泛的应用。 聚类分析作为统计学习的一个分支和一种无指导的机 器学习方法已有几十年的研究历史。所谓聚类,就是对数据集中的数据应用笋种方法进行分组。 使得每组内部的数据尽可能相似而不同组之间的数据尽可能不同,从而发现数据集内在的结构 【21 些改进思路。目前中文单词的聚类研究还很少,本文试图把Brown提出的算法(以下简称为Brown 算法)应用到中文单词的聚类中来。经过对于几万词数的语料库的实验,发现聚类的效果很不 好,于是我们试着分析了一些原因。后来又加入词性标注来辅助聚类,效果较理想。 算法的复杂度真接影响到对人规模的语料库的实用性,于是我们又提出了一种近似算法来 降低算法的复杂度。其基本的思想就是:不是每次聚合都用贪心算法来找出要聚合的两类,而 是一次就把类对按照相似度从大到小的顺序排队,以后每次取队首的类对来聚合。只是每次聚 合后要做一下必要的更新调整,这样在误差还不至于影响聚类结果的情况下可大大提高算法的 时间效率。只是随着积累误差的增加,到了一定程度就会影响聚类结果,所以是一种近似的聚 类。如果要把积累误差消除就需要再次重新计算相似度来排出新的候选队列。 本文结构如下:首先,介绍了聚类方法衡量标准。第二部分,论述TBrown算法的基本思想。 第三部分,简要介绍了一下实现思想。最后是实验结果分析以及算法近似改进探讨。 1聚类方法比较标准 统计学习中的聚类方法主要是基于距离的聚类分析。如K—means方法、肼方法等。数据挖 掘的聚类一般是针对大数据集而言的,因此在数据挖掘中聚类方法的比较应该满足以下7个标 准”1。 1可伸缩性。算法在满足小数据集的同时能否满足大数据集、高复杂性、高增量的要求: 2处理不同类型属性的能力。算法在处理数值类型数据的同时能否处理其他的数据类型: 3发现任意形状的类: 4决定输入参数的领域知识最小化。许多算法要求用户输入一定的参数(如希望产生的簇 。奉文受到国家自然科学基金资助 项目名称:基于双语信息的英汉译文消歧技术研究 数)。聚类结果对输入的参数十分敏感,因此要尽量避免: 5处理噪声数据的能力。实际数据集都包含孤立点、空缺、未知数据或错误等。算法能否 降低这些噪声数据的影响: 6对输入数据顺序的敏感性。算法能否与顺序无关: 7处理高维数据的能力。算法在应付低维数据的同时能否处理高维空间的非常稀疏、高度 偏斜的数据。 2 Brown的词聚类算法 2.1 基本思想 类时,每个词是完全的只属于某一个类【4J。 信息我们用互信息公式 log(P(wiwi—I)/(P(wf)P(wf—I))) (1) 率。 假设在源文本f?中,总共出现的词数为T,则c类词出现的概率为 P(c)=C(c),r (∞ 条件概率P(c21c1)表示cl类词出现后c2类词紧接着出现的概率,所以有 酬c·)2豇C(c雨,cO

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档