- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于网页信息系统一种预处理过程
XXX硕士研究生学位论文
题目:基于网页的信息系统的一种预处理过程
姓 名:
学 号:
院 系:计算机科学技术系
专 业:计算机软件与理论
研究方向:计算机网络与分布式系统
导 师: 教授
2004 年 5 月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
随着Web的迅速发展,Web上的信息越来越丰富。Web使用方便、信息丰富,人们越来越多的使用Web来寻找需要的信息。为了更好的使用Web上的信息,人们也不断的追求能够有效组织和利用网上信息的技术和系统。然而,Web上的信息存在很多问题:网页内的噪音内容多、Web上近似网页量大以及缺乏必要的元数据信息,这些问题严重影响了Web信息系统的服务质量。
针对Web信息系统的共性需求,本文提出了一个预处理框架及相应的方法。该预处理框架包括了三个预处理工作:网页净化、近似网页删除和网页元数据提取。通过预处理过程,原始网页集中的近似网页被删除,而保留下来的网页被净化并转化为一个统一的结构化模型(称之为DocView模型)。该模型中提供了各个领域需求较多的元数据和内容数据,它包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等元素。本文提出的预处理方法的一个重要优点是它不需要除原始网页以外的其他信息,而这些额外信息是该领域中其他方法所必须的;另一个优点是将Web信息系统的共性需求放到一个过程中一次性提取出来,可以避免相同中间过程的重复执行,从而提高信息提取效率。
本文中提出的预处理框架和方法已经应用到了“天网”搜索引擎和网页自动分类系统中。通过使用预处理后应用系统质量的提高,验证了该预处理方法的有效性。不难看出,通过这样一个预处理过程,可以在任何一个网页集上(包括World Wide Web)搭建一个组织良好的、净化的、更易使用的信息层。
关键词:万维网, 数据预处理,数据净化,近似网页识别,元数据提取
Abstract
With the rapid expansion of the Web, the content of the Web become richer and richer. People are increasingly using Web to find their wanted information because of the Web’s convenience and its abundance of information. In order to make better use of Web information, technologies that can automatically re-organize and manipulate web pages are pursued such as Web information retrieval, Web page classification and other Web mining work. However, there are many noises in the Web such as the noise content in the Web page (local noise) and near replica Web pages in the Web (global noise), which decrease the quality of the information on the Web, and consequently descrease the quality of the Web information systems seriously. Also, meta data of the Web pages are widely used in Web information systems, but they are not described explicitly. Some of these problems are never met in the traditional work.
In this thesis, we propose a new preprocessing framework and the corresponding approach to meet the common requirements of several typical web information systems. The framework includes thre
您可能关注的文档
- 基于单片机电子琴设计课程设计.doc
- 基于单片机电机控制开题报告.doc
- 基于单片机电子琴课程设计报告.doc
- 基于单片机电阻炉温度控制系统开题报告.doc
- 基于单片机电机调速系统设计单片机课程设计.docx
- 基于单片机电机控制.doc
- 基于单片机电子计算器设计.doc
- 基于单片机矿井摩擦提升机安全监控系统设计.doc
- 基于单片机热水器控制系统设计.doc
- 基于单片机直流电压表课程设计.doc
- 《GB/T 4340.2-2025金属材料 维氏硬度试验 第2部分:硬度计的检验与校准》.pdf
- GB/T 4340.2-2025金属材料 维氏硬度试验 第2部分:硬度计的检验与校准.pdf
- 中国国家标准 GB/T 4340.3-2025金属材料 维氏硬度试验 第3部分:标准硬度块的标定.pdf
- 《GB/T 4340.3-2025金属材料 维氏硬度试验 第3部分:标准硬度块的标定》.pdf
- GB/T 4340.3-2025金属材料 维氏硬度试验 第3部分:标准硬度块的标定.pdf
- 《GB/T 45284.1-2025信息技术 可扩展的生物特征识别数据交换格式 第1部分:框架》.pdf
- 中国国家标准 GB/T 45284.1-2025信息技术 可扩展的生物特征识别数据交换格式 第1部分:框架.pdf
- GB/T 45284.1-2025信息技术 可扩展的生物特征识别数据交换格式 第1部分:框架.pdf
- 《GB/T 45284.5-2025信息技术 可扩展的生物特征识别数据交换格式 第5部分:人脸图像数据》.pdf
- 中国国家标准 GB/T 45284.5-2025信息技术 可扩展的生物特征识别数据交换格式 第5部分:人脸图像数据.pdf
最近下载
- 软件设计服务合同.docx
- 工程制图与AutoCAD习题集(第2版)习题答案.pdf
- 第三单元 走向整体的世界 单元测试 (含解析)---2024-2025学年统编版(2019)高中历史必修中外历史纲要下册.pdf VIP
- 超级猩猩健身房品牌手册.pptx VIP
- 消费品以旧换新实施的创新路径与案例.docx VIP
- 智算中心建设项目可行性研究报告.docx
- 消费品以旧换新策略的实施案例分析与借鉴.docx VIP
- 基础护理学课件 14.第十四章 静脉输液与输血.ppt
- 电动港机装卸机械操作工(门机)技能测试题含答案.docx VIP
- 考点21:学会拓展延伸-备战2024年中考语文现代文阅读高频考点精讲课件(全国通用).pptx VIP
文档评论(0)