- 19
- 0
- 约 7页
- 2017-09-09 发布于重庆
- 举报
总第162期 2008年 第3期
基于后缀树的中文新闻重复网页识别算法
钱爱兵 江 岚
(南京大学信息管理系 南京210093)
【摘要】针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性
和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和MatchingStatistics算法为基础,并对其具
体实现进行优化。实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义。
【关键词】后缀树 重复网页 Ukkonen算法 匹配统计算法
【分类号】TP391 G202
AnAlgorithmforDetectingDuplicatedChineseWebNewsBasedon
SuffixTree
QianAibing JiangLan
(DepartmentofInformationManagement,NanjingUniversity,Nanjing210093,China)
【Abstract】InviewoftheshortcomingsoftraditionalmethodsdetectingduplicatedChineseWebnews,thispaperpropo
sesthesuf
您可能关注的文档
- ·多媒体技术及应用·1000ATP312基于AVS-S的空域层间预测….pdf
- 3型硅化物的研究及相关的物理冶金学问题.pdf
- 5-溴尿嘧啶处理受精卵对中国对虾抗病和生长的影响.pdf
- 22008连续陶瓷基复合材料的研究现状及发展趋势.pdf
- AFPCEA双标记时间分辨荧光免疫分析试剂的研制及性能鉴定.pdf
- ArcGIS83Topolopy规则在地籍数据处理中的应用.pdf
- HPV58型E1^E4蛋白的表达纯化和多克隆抗体的制备.pdf
- LiTaO晶体分子振动光谱的实验研究.pdf
- MicroRNA调控少突胶质细胞分化的研究进展.pdf
- No03投资中“人”的因素.pdf
- 宗教场所绿化工程合同协议.docx
- 英语贵州毕节市2026届高三年级高考第二次适应性考试(毕节二诊)(3.19-3.20)(1).docx
- 语文(精排版)内蒙古赤峰市2026届高三年级下学期320模拟考试(赤峰一模)(3.23-3.25).docx
- 数学贵州毕节市2026届高三年级高考第二次适应性考试(毕节二诊)(3.19-3.20).docx
- 英语广西壮族自治区梧州、玉林、贵港、钦州、百色等八市高中毕业班2026届高三年级3月适应性测试(八市二模)(3.24-3.26).docx
- 英语广西壮族自治区梧州、玉林、贵港、钦州、百色等八市高中毕业班2026届高三年级3月适应性测试(八市二模)(3.24-3.26)(1).docx
- 英语湖南湘一名校联盟2026届高三年级下学期第二次联考(湘一名校联盟二模)(3.19-3.20).docx
- 新能源项目服务合同模板(专业服务).docx
- 影视行业版权转让合同协议书.docx
- 旅游合同模板(2025年)定制版发布.docx
最近下载
- 2025年广东省深圳中学自主招生数学试卷(含答案).pdf VIP
- 制造业企业质量管理能力评估规范.pdf VIP
- Initio Initio USB to SATA Bridge INIC-1618 Specification 说明书用户手册.pdf
- 农业农村局涉企的行政执法检查工作计划.docx VIP
- T_CAQI 220—2021_餐(饮)具及公共用品用具表面.pdf VIP
- 客车侧倾与侧翻稳定性研究绪论.doc VIP
- AQ3062-2025精细化工企业安全管理规范解读.pptx VIP
- VCS 5511719-issue9-201801螺纹紧固件摩擦性能的测定-chs.pdf
- 三洋伺服电机P系列样本.pdf VIP
- EDWARDS爱德华品类信息SCROLL PUMP型号信息nXDS,XDS35i 35iE,XDS46i说明书用户手册.pdf
原创力文档

文档评论(0)