- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
算法分析-哈工大社会计算与信息检索研究中心-哈尔滨工业大学
面向变异短文本的快速聚类算法
黄永光,刘挺,车万翔,胡晓光
(哈尔滨工业大学信息检索实验室,哈尔滨 150001)
本文研究了变异短文本的聚类技术,提出了一种快速准确的聚类算法,它在原有的去重算法基础上,针对变异短文本这一特殊情况,采取了特定的特征串抽取方法,并融合了压缩编码的思想,加快了处理速度。hort Texts Fast Clustering Algorithm
Huang Yongguang,Liu Ting,Che Wanxiang,Hu Xiaoguang
(Information Retrieval Lab,Harbin Institute of Technology,Harbin 150001)
This paper discusses the clustering technology about the abnormal short texts and proposes an efficient clustering algorithm based on the duplication information deletion algorithm. It concerns about the features of the abnormal short texts and takes some special methods such as extracting feature code and compressing code to solve this problem. Experiments show that the clustering system based on this algorithm can depose lots of abnormal short texts with high accuracy and high speed.
Retrieve; Feature string; Clustering
1引言
随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。聊天室,即时通讯软件,短信的出现无时无刻不在影响着人们的日常生活。这些形式的信息都有一些共同特点:字数不多,大多数为100字以内,但是数量非常大。并且这些信息经过一些变化,表面看起来形式不同,但内容上却是一样的。我们称这些信息为变异短文本。由于这些信息,数量非常大,处理起来非常不方便,所以需要在进行其他分析之前,对它们先进行聚类分析。将主体内容一样,但形式上略有差别的短文本聚到一类。这样我们只需对同类中具有代表性的短文本进行分析即可,不仅可以节省用户很多精力,而且还可以提高分析效率。本文首先介绍了相关技术背景,然后重点地讲解了针对变异短文本的快速聚类算法,并给出了相关的算法分析和实验结果,最后得出了结论。
2 技术背景
2.1变异短文本的概念
变异短文本是指那些用少量词语表达一定语义关系的书写不规范的文字。拼音输入法的使用是造成此类现象的主要原因。这些变异短文本常会出现在各种聊天工具中,如QQ,MSN中。另外聊天室中的语言,手机短信中出现的语言也属于变异短文本。这些文字的一个共同特点是语句比较短,并且文字大多都不太规范。比如文字“好”,在聊天过程中常常会打成“hao”。再比如由于平时不注意语言规范,使用的输入法是拼音输入法,人们常常会把各种同音字打错,弄混。如“想你”错打成了“向你”。另外,在短文本中,也会常常出现很多间隔符,并且根据个人习惯不同,使用不同的分隔符。虽说分隔符不同,却不影响正常的阅读。如“今天下雨,你带雨衣了吗?”,错打成“今天下雨你带雨衣了吗”,后一句虽然没有间隔符,但是仍然表达了同样的意思。
综上所述,我们的处理对象,不同于传统的自然语言处理的文本,而是针对现今在一些传媒中出现的语言不规范的短本文。本文也正是针对变异短文本提出了一套算法,可以对其进行大规模的快速聚类,能把形式上不同,而内容上极其相似的短文本聚成一类。
2.2 普通聚类算法失效
正如上面提到的,我们是要针对变异短文本进行处理,那么我们也可以先尝试一下使用普通的聚类方法来解决这个问题。我们将常用的6763个简体汉字组成一个向量,然后将每个汉字在短文本里面出现的次数作为分量的值,将这个向量作为短文本的特征向量。通过计算相似度,比较它与聚类中心向量的相似度,来确定该短文本是否属于该类[1]。根据变异短文本的定义,内容极为相似的短文本才能算作一类,所以计算时,相似度非常高的短文本才能归为一类,换句话说,要求它们的向量夹角非常小,向量的模的大小相近。
但是,这种普通的聚类思想并不适合于这个问题。首先,聚类思想是通过一定的阈值,将某种特征相似的元素聚为一类,这通常适合于类别较少的情况,当类别非常大的时候,比较次数会增长得非常快,效率下降得
文档评论(0)