论文--《大规模网页模块识别信息提取系统设计实现》.docVIP

下载本文档

12
0
约2.62万字
约 41页
2016-01-23 发布于安徽
举报

论文--《大规模网页模块识别信息提取系统设计实现》.doc

--(完美WORD文档DOC格式,可在线免费浏览全文和下载)值得下载！

本科生毕业论文题目：(中文) 大规模网页模块识别与信息提取系统设计与实现 (英文) Design and Implementation of Large Scale Web Template Detection and Information Extraction System 姓名：朱磊学号院系：计算机系专业：搜索引擎与互联网信息挖掘指导教师：闫宏飞二〇一六年一月二十一日摘要本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上，通过为所有符合W3C规范的Html标签分类，逐个分析各Html标签所包含的语义信息，细化规则设置，实现了一种自底向上的无信息遗漏的网页分块算法，并在此基础上，利用统计方法得到详细的概率分布数据，实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法，并将其求交，提高了主题内容信息块的识别精确度。上述算法已集成到天网搜索引擎平台的网页预处理模块中，并且在SEWM 2008会议中，以这套算法为框架，组织了主题型网页识别和网页主题内容信息块提取两个中文Web信息检索评测项目。在这套算法的基础

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

论文--《大规模网页模块识别信息提取系统设计实现》.docVIP