- 1
- 0
- 约3.11千字
- 约 24页
- 2017-06-18 发布于湖北
- 举报
主题型网页发现以及网页内信息块发现 华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢 主题型网页发现 目录 特征分析 算法设计 结果分析 不足与改进 特征分析 主题型网页特征: 文字较多(非锚文本) 主题型网页一般都有明显的文本段落,文字较多,相应的标点符号也较多。 URL较长 在一般的Web网站链接导航树上,主题型网页主要分布于底层,多为叶节点。对于同一网站而言,主题型网页的URL相对较长。URL体现了网站内容管理的层次,对于大型网站而言,URL往往非常有规律。 链接较少 主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少。 特征分析 非主题型网页特征 文字较少 非主题型网页的主体是链接,图像,或者其它形式的内容,文字较少 链接较多 对于导航型网页而言,链接是其主要内容 URL较短 导航型网页的URL层数较少,且多为目录型URL 特征分析 网页噪音特征 多以链接的形式出现 有很多锚文本,但标点符号较少 有许多常见的噪音文本,如版权声明等 在视觉上,多出现于网页的边缘 算法设计 主题型网页发现:对网页进行二元分类 分类过程分为三个阶段: 阶段1: 根据主题型网页的重要特征进行分类,这些重要特征主要包括:标点符号数目,文字数目。无需复杂算法,只需设置特征阈值。 阶段2: 对在阶段1中无法确定分类的网页,提取更多
您可能关注的文档
最近下载
- 年产5万吨铝板,6万吨铝酸钠、铝酸钙建设项目环境影响报告书.pdf VIP
- (2026年)CRRT治疗参数的意义PPT课件.pptx VIP
- 行政区域界线管理概论 - 行政区域界线管理教程教案.ppt VIP
- DB45T 2967—2025 地基激光雷达典型森林类型地上碳储量调查技术规范.pdf VIP
- 2025至2030中国粉防己提取物行业深度研究及发展前景投资评估分析.docx
- 人教版四年级下册数学期中试卷15套(新版).pdf VIP
- 企业驾驶员安全生产培训.pptx VIP
- Lenovo Lenovo 维护手册 SR860 用户手册.pdf VIP
- 泌尿外科内镜检查操作规范.docx
- 中国汽车材料数据系统CAMDS培训教学PPT课件.ppt
原创力文档

文档评论(0)