基于后缀树的中文新闻重复网页识别算法.pdfVIP

  • 19
  • 0
  • 约 7页
  • 2017-09-09 发布于重庆
  • 举报

基于后缀树的中文新闻重复网页识别算法.pdf

总第162期 2008年 第3期 基于后缀树的中文新闻重复网页识别算法 钱爱兵 江 岚 (南京大学信息管理系  南京210093) 【摘要】针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性 和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和MatchingStatistics算法为基础,并对其具 体实现进行优化。实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义。 【关键词】后缀树 重复网页 Ukkonen算法 匹配统计算法 【分类号】TP391 G202 AnAlgorithmforDetectingDuplicatedChineseWebNewsBasedon SuffixTree QianAibing JiangLan (DepartmentofInformationManagement,NanjingUniversity,Nanjing210093,China) 【Abstract】InviewoftheshortcomingsoftraditionalmethodsdetectingduplicatedChineseWebnews,thispaperpropo sesthesuf

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档