基于后缀树的中文新闻重复网页识别算法.pdfVIP

下载本文档

19
0
约 7页
2017-09-09 发布于重庆
举报

基于后缀树的中文新闻重复网页识别算法.pdf

总第１６２期　２００８年　第３期基于后缀树的中文新闻重复网页识别算法钱爱兵　江　岚（南京大学信息管理系　南京２１００９３）【摘要】针对识别中文新闻重复网页传统方法的不足，提出以后缀树作为基本数据结构，依据新闻网页的标题性和时间性，构建中文新闻重复网页识别算法。该算法以Ｕｋｋｏｎｅｎ算法和ＭａｔｃｈｉｎｇＳｔａｔｉｓｔｉｃｓ算法为基础，并对其具体实现进行优化。实验结果表明，该算法不仅具有有效性，而且对计算字符串相似度也有启发意义。【关键词】后缀树　重复网页　Ｕｋｋｏｎｅｎ算法　匹配统计算法【分类号】ＴＰ３９１　Ｇ２０２ＡｎＡｌｇｏｒｉｔｈｍｆｏｒＤｅｔｅｃｔｉｎｇＤｕｐｌｉｃａｔｅｄＣｈｉｎｅｓｅＷｅｂＮｅｗｓＢａｓｅｄｏｎＳｕｆｆｉｘＴｒｅｅＱｉａｎＡｉｂｉｎｇ　ＪｉａｎｇＬａｎ（ＤｅｐａｒｔｍｅｎｔｏｆＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ２１００９３，Ｃｈｉｎａ）【Ａｂｓｔｒａｃｔ】ＩｎｖｉｅｗｏｆｔｈｅｓｈｏｒｔｃｏｍｉｎｇｓｏｆｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｄｅｔｅｃｔｉｎｇｄｕｐｌｉｃａｔｅｄＣｈｉｎｅｓｅＷｅｂｎｅｗｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏ ｓｅｓｔｈｅｓｕｆ

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于后缀树的中文新闻重复网页识别算法.pdfVIP