网站大量收购独家精品文档，联系QQ：2885784924

博士论文历史网页的持续收藏及其再访问的关键技术研究.doc

下载文档 降价啦

8
0
约15.55万字
约 167页
2017-04-21 发布于陕西
举报
版权申诉
保障服务

博士论文历史网页的持续收藏及其再访问的关键技术研究.doc

1、本文档共167页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

PAGE 博士研究生学位论文题目：历史网页的持续收藏及其再访问的关键技术研究姓名：黄连恩学号：院系：信息科学技术学院专业：计算机系统结构研究方向：网络与分布式系统导师姓名：李晓明二00八年五月 On the Technologies for Building and Accessing a Web Archive Dissertation Submitted to Peking University in partial fulfillment of the requirement for the degree of Doctor of PhilosophyDoctor of Philosophy Huang Lian’en (Computer Science and Technology)Dissertation Supervisor:Professor Li XiaomingMAY, 2008 版权声明任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人，亦不得随意复制、抄录、拍照或以任何方式传播。否则，引起有碍作者著作权之问题，将可能承担法律责任。 ? PAGE iv ? 摘要网页是一种易逝的信息资源，在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存，它们就会在不经意之间消失。而随着互联网成为一种不可忽视的新媒体，网页内容的重要性已经不言而喻。因此，持续收藏并永久保存出现过的网页具有重要的意义，可以为后人提供珍贵的历史资料。显然，人们还希望能够以一种比较方便的方式来再访问这些保存下来的海量网页，从而才能体现出这种收藏的价值。这里所说的“再访问”可以有多方面的含义，包括根据URL和链接关系来浏览历史网页，像搜索引擎那样查询相关网页，等等。不难想到，这项工作可以大致分成两个部分，一是有计划地进行网页的持续搜集，二是将搜集到的网页适当地组织起来，以便再访问。本文的工作属于后者。即我们假定有一个搜集系统源源不断地将网页搜集下来，我们需要对它们进行有效地组织和存储，并提供对它们有意义的访问方式。针对这种需求，本文确定了四个关键技术问题，对它们分别进行了深入的研究，并基于研究的成???设计并实现了两个系统。本文的主要贡献包括： 1）提出了一种带有时间标签的链接图的存储及压缩方法。链接图是表达网页之间关系的一种重要数据结构，它是链接分析技术的基础，广泛应用于Web数据的分析、挖掘、检索领域。通常，链接图上是没有时间信息的。而由于本文工作所针对的是长时间持续搜集的历史网页，对应同一个URL的网页的不同版本会在不同时间被搜集下来，于是网页的链接关系会随着时间发生改变，因而就形成了带有时间标签的链接图。本文研究了带有时间标签的链接图新型表示模型，详细设计了存储格式和压缩方法。这方面的研究成果的有效性在我们所收藏的24亿历史网页集合上得到验证，从该集合我们构造了一个包含有1546亿条带有时间标签链接的链接图系统，并得到一些初步应用。 2）提出了一种从杂乱无章的网页集合中筛选出文章型网页的方法。我们称新闻报道、分析评论、论坛帖子、博客日记等由人创作完成的作品，具有标题以及一段逻辑上连续的正文，为网络文章。文章型网页指的是包含网络文章的网页。直觉上，它们具有较高的挖掘和检索价值。本文提出的方法基于对文章一般性规律的认识，具有通用性和较好的效果。简要地说，首先从网页内容中提取出标题，然后从标题位置后面的文字内容中提取出正文来。实验表明精度和召回率都很高。根据这一方法（但在大规模数据条件下因个别技术难点没有完整实现），本文从24亿网页中提取出了约4.3亿篇网络文章。 3）提出了一种新型的相似网页检测算法，同时具备高准确率与高覆盖率的优点。该算法采用基于LCS（longest common subsequence）的相似性度量方法，设计了一个包含了三个步骤的检测过程框架，保证了算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率。该算法成功应用于上述网络文章的消重，将4.3亿文章型网页分割为0.68亿个相似网页子集（即得到0.68亿篇不同的网络文章），整个过程使用6台Linux服务器仅花费了5天的时间。 4）提出了一种网络文章发表时间的估计方法。发表时间是文章的一个重要属性。比较容易想到的方法是通过从网页文字内容中提取出来的时间、网页的Last-Modified-T

您可能关注的文档

最近下载

文档评论（0）

高江辉 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧！本网站所有资料为用户分享上传，若发现您的权利被侵害，请联系24小时智能客服，如遇紧急情况请联系侵权客服QQ：2885784724（客服上班时间为9:00-18:30）；若您有其他疑问或建议，可点击此处联系我们，上传者QQ群:751299218

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992