(毕业学术论文设计)-大规模网页模块识别与信息提取系统设计与实现.docVIP

  • 2
  • 0
  • 约2.94万字
  • 约 40页
  • 2018-10-10 发布于广西
  • 举报

(毕业学术论文设计)-大规模网页模块识别与信息提取系统设计与实现.doc

北京大学信息科学技术学院学士学位论文 PAGE 11 PAGE i MACROBUTTON MTEditEquationSection2 SEQ MTEqn \r \h \* MERGEFORMAT SEQ MTSec \r 1 \h \* MERGEFORMAT SEQ MTChap \r 1 \h \* MERGEFORMAT 本科生毕业论文 题目:(中文) 大规模网页模块识别与信息提取 系统设计与实现 (英文) Design and Implementation of Large Scale Web Template Detection and Information Extraction System 摘要 本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。 上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为框架,组织了主题型网页识别和网页主题内容信息块提取两个中

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档