- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
II
II
Classified Index: TP391.3 U.D.C: 621.3
Dissertation for the Master Degree of Engineering
CONTENT UNIT BASED WEB PAGE ANALYSIS AND CONTENT
EXTRACTION
Candidate:
Jingqi Wang
Supervisor:
Prof. Xiaolong Wang
Associate Supervisor:
Associate Prof. Qingcai Chen
Academic Degree Applied for:
Master of Engineering
Specialty:
Computer Science and Technology
Affiliation:
Shenzhen Graduate School
Date of Defence:
December, 2008
Degree-Conferring-Institution:
Harbin Institute of Technology
I
I
摘 要
随着互联网技术的发展,在线中文网页的数量迅速增加,互联网上的信 息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户 迅速地获取所需要的知识和信息。然而互联网上的网页普遍存在着一些与用 户需求无关的噪声内容,这些内容影响了搜索引擎对网页的处理质量。因此, 对全部网页的预处理工作就必不可少。
本文的目的在于通过网页预处理技术,为搜索引擎建立一个内容精炼、 格式完整、编码统一的净化网页库,为其他模块提供数据支持。
网页处理技术经过多年的发展,逐渐形成了 DOM 结点解析与分块解析 两种思路。然而由于对网页分划粒度的不当,前者容易割裂结点之间的语义 关联,后者很难过滤分块内部的内容。为了弥补他们的缺陷,本文找到了一 种介于二者之间的网页解析粒度,称为内容单元,并在内容单元粒度上完成 了网页预处理工作。本文的研究内容主要包括以下几个方面:
(1) 提出网页内容单元的定义,并以内容单元为粒度完成网页分割解 析;
(2) 利用内容单元反映出来的网页结构特征和语言特征,完成主题型网 页的识别;根据内容单元的组成、结构和功能,利用启发式规则对其进行取 舍,完成网页正文内容的提取;识别具有特定功能的内容单元,提取他们当 中蕴含的网页题目、时间、导航等信息;
(3) 在单个网页的基础上构造并行净 化程序,完成搜索引擎 T 级
(terabyte)原始数据的净化,重组格式,统一编码。
从实验中得到的结论证明了网页内容单元解析粒度的有效性,对比显示 了基于内容单元的网页预处理对主题型网页识别和正文提取效果的提高。同 时 Inar 网页预处理模块的效果在网页分类应用中得到了验证。
关键词 内容单元;文档对象模型;网页解析;内容提取
II
II
Abstract
With the fast development of the internet technology, a huge amount of Chinese web pages have been accumulated. The internet has become a large information archive. Search engines can effectively organize and analyze huge information resource on the web, and help users to find useful information efficiently. However, it is very common that web page contains some noisy texts which are irrelevant to the user’s information need. The information process quality of a search engine can be greatly influenced by such content. Therefore, a pre-processing of the web page is indispensable.
This thesis aims at establishing a concise, formatted, code-unified ripe collection of web pages for the search engines through web page pre-pro
您可能关注的文档
- 基于无线传感器网络的森林火灾监测系统的设计与研究-控制理论与控制工程专业论文.docx
- 基于数据挖掘的高校图书馆借阅数据特性分析与应用-计算机应用技术专业论文.docx
- 基于内容的壁纸花纹图像检索技术的研究-计算机技术专业论文.docx
- 基于时间序列分析的我国GDP预测模型-概率论与数理统计专业论文.docx
- 基于利益相关者视角的浙江家庭农场发展对策研究-农村与区域发展专业论文.docx
- 基于数据挖掘技术的股票投资实证分析-概率论与数理统计专业论文.docx
- 基于平衡计分卡的安县政府绩效考核系统设计与实现-软件工程专业论文.docx
- 基于生产流程节点的成本控制方法研究-工业工程专业论文.docx
- 基于长记忆性的中国股票市场波动行为分析-金融工程专业论文.docx
- 基于手机数据的半监督社会关系推断模型-计算机系统结构专业论文.docx
- 基于生命周期理论的船舶碳足迹研究-船舶与海洋工程专业论文.docx
- 基于无线传感器网络的移动式城市燃气表监控与管理系统-控制理论与控制工程专业论文.docx
- 基于数据挖掘技术的电力网络状态估计研究-控制理论与控制工程专业论文.docx
- 基于素数域的椭圆曲线密码的 VLSI设计方法研究-计算机科学与技术专业论文.docx
- 基于无线传感器网络的目标跟踪算法分析-检测技术与自动化装置专业论文.docx
- 基于特征分类能力互补性的特征选择方法-计算机软件与理论专业论文.docx
- 基于算子理论的优化跟踪控制系统研究-控制理论与控制工程专业论文.docx
- 基于速率的网络拥塞控制协议若干技术研究-计算机应用技术专业论文.docx
- 基于神经网络的机器人路径规划仿真系统的设计与实现-软件工程专业论文.docx
- 基于时空线形图的地铁可视化进度控制系统-建筑与土木工程专业论文.docx
原创力文档


文档评论(0)