中文短文本去重方法研究Researchonamethodtodetect.PDF

下载文档 降价啦

5
0
约1.72万字
约 9页
2018-12-06 发布于天津
举报
保障服务

中文短文本去重方法研究Researchonamethodtodetect.PDF

中文短文本去重方法研究* 1 2 高翔，李兵（1.北京大学汇丰商学院，广东省深圳市 518055；2. 对外经济贸易大学，北京市朝阳区 100029）摘要：本文针对中文短文本冗余问题，提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点，以及中文与英文之间的区别，引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重，第二阶段由SimHash算法进行相似去重。本文设计了该算法框架的各项参数，并通过仿真实验证实了该算法框架的可行性及合理性。关键词：文本去重；中文短文本；Bloom Filter；Trie树；SimHash算法 Researchonamethodtodetectreduplicative Chineseshorttexts 1 2 XiangGao ,BingLi (1.PekingUniversityHSBCBusinessSchool,Shenzhen,GuangdongProvince518055,China;2. UniversityofInternationalBusinessandEconomics,Beijing 100029,China) Abstract: The article presents an effective algorithm framework for text de-duplication, focusing on redundancy problem of Chinese shorttexts. In view of the brevity and huge volumes of shorttexts, we have introduced Bloom Filter,Trietree andthe SimHashalgorithm.Inthefirststageofthealgorithmframework,BloomFilterorTrietreeis designed to remove duplications completely; in the second stage, we use the SimHash algorithm to detect similar duplications. This text has designedthe parameters used in the algorithm framework, andwe testified the feasibility andrationalityofit. Keywords:textde-duplication;Chineseshorttexts;BloomFilter;Trietree;SimHashalgorithm 1 引言近年来，随着我国计算机科学技术的迅猛发展，微博客、BBS、即时通讯工具等通过中文短文本形式承载信息的各项传播技术日益普及。短文本信息的迅猛增长，在为信息决策带来丰富资料来源的同时，也产生了大量冗余、无效的重复信息。庞大的重复信息集，不仅大量占用了系统的存储空间，同时也不利于针对短文本信息进行有效的数据挖掘，对于信息决策的准确性与及时性都会造成影响。因而迫切需要有效的中文短文本去重方法应用于企业与研究实践。 [1]~[3] 对于文本去重技术，我们根据算法原理的不同将其分为两类，一类采用基于字符串的 [4] 比较方法（基于语法的方法）。1994年，sif系统的提出，使得在大规模文件系统中寻找内容相似的文件成为可能。虽然并未涉及文本去重的相关技术，但是其率先提出的“信息近似指纹

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文短文本去重方法研究Researchonamethodtodetect.PDF