- 1、本文档共167页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
博士研究生学位论文
题目:历史网页的持续收藏及其再访问的关键技术研究
姓 名: 黄连恩
学 号:
院 系: 信息科学技术学院
专 业: 计算机系统结构
研究方向: 网络与分布式系统
导师姓名: 李晓明
二00八 年 五 月
On the Technologies for Building and Accessing a Web Archive
Dissertation Submitted to
Peking University
in partial fulfillment of the requirement
for the degree of
Doctor of PhilosophyDoctor of Philosophy
Huang Lian’en
(Computer Science and Technology)Dissertation Supervisor:Professor Li XiaomingMAY, 2008
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
? PAGE iv ?
摘 要
网页是一种易逝的信息资源,在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存,它们就会在不经意之间消失。而随着互联网成为一种不可忽视的新媒体,网页内容的重要性已经不言而喻。因此,持续收藏并永久保存出现过的网页具有重要的意义,可以为后人提供珍贵的历史资料。显然,人们还希望能够以一种比较方便的方式来再访问这些保存下来的海量网页,从而才能体现出这种收藏的价值。这里所说的“再访问”可以有多方面的含义,包括根据URL和链接关系来浏览历史网页,像搜索引擎那样查询相关网页,等等。
不难想到,这项工作可以大致分成两个部分,一是有计划地进行网页的持续搜集,二是将搜集到的网页适当地组织起来,以便再访问。本文的工作属于后者。即我们假定有一个搜集系统源源不断地将网页搜集下来,我们需要对它们进行有效地组织和存储,并提供对它们有意义的访问方式。
针对这种需求,本文确定了四个关键技术问题,对它们分别进行了深入的研究,并基于研究的成???设计并实现了两个系统。本文的主要贡献包括:
1)提出了一种带有时间标签的链接图的存储及压缩方法。链接图是表达网页之间关系的一种重要数据结构,它是链接分析技术的基础,广泛应用于Web数据的分析、挖掘、检索领域。通常,链接图上是没有时间信息的。而由于本文工作所针对的是长时间持续搜集的历史网页,对应同一个URL的网页的不同版本会在不同时间被搜集下来,于是网页的链接关系会随着时间发生改变,因而就形成了带有时间标签的链接图。本文研究了带有时间标签的链接图新型表示模型,详细设计了存储格式和压缩方法。这方面的研究成果的有效性在我们所收藏的24亿历史网页集合上得到验证,从该集合我们构造了一个包含有1546亿条带有时间标签链接的链接图系统,并得到一些初步应用。
2)提出了一种从杂乱无章的网页集合中筛选出文章型网页的方法。我们称新闻报道、分析评论、论坛帖子、博客日记等由人创作完成的作品,具有标题以及一段逻辑上连续的正文,为网络文章。文章型网页指的是包含网络文章的网页。直觉上,它们具有较高的挖掘和检索价值。本文提出的方法基于对文章一般性规律的认识,具有通用性和较好的效果。简要地说,首先从网页内容中提取出标题,然后从标题位置后面的文字内容中提取出正文来。实验表明精度和召回率都很高。根据这一方法(但在大规模数据条件下因个别技术难点没有完整实现),本文从24亿网页中提取出了约4.3亿篇网络文章。
3)提出了一种新型的相似网页检测算法,同时具备高准确率与高覆盖率的优点。该算法采用基于LCS(longest common subsequence)的相似性度量方法,设计了一个包含了三个步骤的检测过程框架,保证了算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率。该算法成功应用于上述网络文章的消重,将4.3亿文章型网页分割为0.68亿个相似网页子集(即得到0.68亿篇不同的网络文章),整个过程使用6台Linux服务器仅花费了5天的时间。
4)提出了一种网络文章发表时间的估计方法。发表时间是文章的一个重要属性。比较容易想到的方法是通过从网页文字内容中提取出来的时间、网页的Last-Modified-T
文档评论(0)