- 12
- 0
- 约2.62万字
- 约 41页
- 2016-01-23 发布于安徽
- 举报
--(完美WORD文档DOC格式,可在线免费浏览全文和下载)值得下载!
本科生毕业论文
题目:(中文) 大规模网页模块识别与信息提取 系统设计与实现 (英文) Design and Implementation of Large Scale Web Template Detection and Information Extraction System
姓 名:朱 磊
学 号
院 系:计算机系
专 业:搜索引擎与互联网信息挖掘
指导教师:闫宏飞
二〇一六年一月二十一日
摘要
本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。
上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为框架,组织了主题型网页识别和网页主题内容信息块提取两个中文Web信息检索评测项目。在这套算法的基础
您可能关注的文档
- 利用铁矿尾矿制备轻质隔热保温墙体材料其研究.doc
- 利用物联网技术推动徐州健康服务业发展应用研究.doc
- 利用乡村资源,推进幼儿素质教育应用研究.doc
- 连锁超市销售人员的薪酬问题应用研究—--论文.doc
- 连锁关联的分析在疾病应用研究中的探讨.ppt
- 连锁企业供应链管理其研究.doc
- 联通公司营销管理问题及对策应用研究--自考论文模板.doc
- 练习 比喻性词语的翻译 (II).ppt
- 梁兵兵 有关绿色物流管理其研究.doc
- 两轮自平衡机器人动力学建模及平衡控制.doc
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
原创力文档

文档评论(0)