- 2
- 0
- 约2.94万字
- 约 40页
- 2018-10-10 发布于广西
- 举报
北京大学信息科学技术学院学士学位论文
PAGE 11
PAGE i
MACROBUTTON MTEditEquationSection2 SEQ MTEqn \r \h \* MERGEFORMAT SEQ MTSec \r 1 \h \* MERGEFORMAT SEQ MTChap \r 1 \h \* MERGEFORMAT
本科生毕业论文
题目:(中文) 大规模网页模块识别与信息提取 系统设计与实现 (英文) Design and Implementation of Large Scale Web Template Detection and Information Extraction System
摘要
本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。
上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为框架,组织了主题型网页识别和网页主题内容信息块提取两个中
您可能关注的文档
- (毕业学术论文设计)-传统水墨画的艺术赏析.doc
- (毕业学术论文设计)-传统义利观论文:论传统义利观对行政价值观建设的影响.doc
- (毕业学术论文设计)-传统艺术风格论文人文精神论文:论传统艺术风格在动画影片中的应用 (2).doc
- (毕业学术论文设计)-传统与现代相融.doc
- (毕业学术论文设计)-船舶舱口盖精度的探讨与研究.doc
- (毕业学术论文设计)-船舶柴油发电机组及电站的自动化.doc
- (毕业学术论文设计)-船舶工程技术精度控制.doc
- (毕业学术论文设计)-船舶节能技术的探讨.doc
- (毕业学术论文设计)-船舶螺旋桨的设计.doc
- (毕业学术论文设计)-船舶污染与船舶管理工作.doc
- CN202511530188.5-一种固氮螺菌I102及其应用-公开.pdf
- 2026医药冷链物流运输温度波动率常态化管控方案及第三方监管协议.docx
- CN202511532037.3-一种高负载电驱液控缸及其驱动方法-公开.pdf
- 全国科普教育基地建设与运营模式创新报告.docx
- 全国范围内青少年志愿服务活动总结与展望报告.docx
- 2026滑石粉行业市场发展分析及前景趋势与投融资发展机会研究报告.docx
- 全国农村幼儿教育普及与发展研究报告.docx
- 浙江省金华市卓越联盟2025-2026学年高一下学期6月阶段检测生物试卷(含答案).pdf
- 2026年绿色环保科技应用前景展望报告.docx
- 2026年网络安全与数据安全防护指南.docx
原创力文档

文档评论(0)