中文短文本去重方法研究Researchonamethodtodetect.PDF
中文短文本去重方法研究*
1 2
高翔 ,李兵
(1.北京大学汇丰商学院,广东省 深圳市 518055;2. 对外经济贸易大学,北京市 朝阳区 100029)
摘要:本文针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以
及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom
Filter或Trie树进行完全去重,第二阶段由SimHash算法进行相似去重。本文设计了该算法框架的各项参数,
并通过仿真实验证实了该算法框架的可行性及合理性。
关键词:文本去重;中文短文本;Bloom Filter;Trie树;SimHash算法
Researchonamethodtodetectreduplicative
Chineseshorttexts
1 2
XiangGao ,BingLi
(1.PekingUniversityHSBCBusinessSchool,Shenzhen,GuangdongProvince518055,China;2.
UniversityofInternationalBusinessandEconomics,Beijing 100029,China)
Abstract: The article presents an effective algorithm framework for text de-duplication, focusing on redundancy
problem of Chinese shorttexts. In view of the brevity and huge volumes of shorttexts, we have introduced Bloom
Filter,Trietree andthe SimHashalgorithm.Inthefirststageofthealgorithmframework,BloomFilterorTrietreeis
designed to remove duplications completely; in the second stage, we use the SimHash algorithm to detect similar
duplications. This text has designedthe parameters used in the algorithm framework, andwe testified the feasibility
andrationalityofit.
Keywords:textde-duplication;Chineseshorttexts;BloomFilter;Trietree;SimHashalgorithm
1 引言
近年来,随着我国计算机科学技术的迅猛发展,微博客、BBS、即时通讯工具等通过中文
短文本形式承载信息的各项传播技术日益普及。短文本信息的迅猛增长,在为信息决策带来丰
富资料来源的同时,也产生了大量冗余、无效的重复信息。庞大的重复信息集,不仅大量占用
了系统的存储空间,同时也不利于针对短文本信息进行有效的数据挖掘,对于信息决策的准确
性与及时性都会造成影响。因而迫切需要有效的中文短文本去重方法应用于企业与研究实践。
[1]~[3]
对于文本去重技术,我们根据算法原理的不同将其分为两类 ,一类采用基于字符串的
[4]
比较方法(基于语法的方法)。1994年,sif系统 的提出,使得在大规模文件系统中寻找内容
相似的文件成为可能。虽然并未涉及文本去重的相关技术,但是其率先提出的“信息近似指纹
您可能关注的文档
最近下载
- 金字塔原理完整版ppt课件.pptx VIP
- 黑龙江省牡丹江市高职单招2025-2026学年综合素质练习题含答案.pdf VIP
- 战略管理:概念与案例---课件PPT-中文641页.ppt VIP
- 医学影像学诊断报告书写规范(CT_MRI 版).docx VIP
- 黑龙江省实验中学2026届高三学年3月联合模拟考试政治+答案.pdf
- 2026年监理工程师职业资格考试预测卷(一).docx VIP
- 2021“华为杯”第十八届研究生数学建模D题.pdf VIP
- 2026年(五个方面)组织生活会个人对照检查分析4篇.docx VIP
- 《汤普森现代钢琴教程_(一)》.pdf VIP
- 2025年徐州生物工程职业技术学院单招语文测试试卷完整版.docx VIP
原创力文档

文档评论(0)