- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WEB信息整合平台设计与实现-计算机软件与理论专业论文
万方数据
万方数据
独 创 性 声 明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。
签名: 日期: 年 月 日
关于论文使用授权的说明
本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。
(保密的学位论文在解密后应遵守此规定)
签名: 导师签名:
日期: 年 月 日
摘
摘 要
万方数据
万方数据
摘 要
随着 Internet 技术的高速发展,网络信息资源的快速增长,网络已成为人们获 取数据的重要来源。面对庞大的网络资源,搜索引擎为人们检索提供重要的技术 手段。然而,传统的搜索引擎是基于单词的检索,存在一定的局限性,如搜索结 果存在大量无关的网页、由于转载而造成信息内容雷同等。因此,极有必要对网 络信息资源进行整合,以帮助人们从海量网络资源中,提炼出人们所关心的特定 信息,并对数据重新整合与统一的展现。本文的主要研究工作就是整合 WEB 资源 信息,使互联网用户能够快速准确地搜寻到自己需要的信息。
首先,本文对 WEB 信息整合中的相关理论和技术研究,包括信息整合两种方 法、三大组成模块以及四种关键技术等。并在设计过程中对各模块涉及知识做全 面综述,包括本体概念、网络爬虫、信息抽取、资源描述框架等。
其次,本文设计并实现了一种 WEB 信息整合平台原型系统,该系统以本体为 指导。设计了系统总体结构框架模型,系统由 4 大模块组成:数据采集、信息抽 取、存储模型、前台呈现。提出了基于本体和搜索引擎聚焦网络爬虫,基于本体 的页面分析过滤算法,基于本体和 DOM 树路径的信息抽取规则,以及基于 RDF 的数据存储模型和基于 B/S 前台结果呈现等一系列设计方案。通过该信息整合平 台,用户可以设置需要整合的领域信息,系统能够检索并整合出互联网中相关领 域资源,并将结果以统一的、结构的、形象的展示给用户。该系统不需要对不同 数据源分别建立包装器,而是作用域整个互联网之上,能够融合互联网中多种异 构资源。
最后,本文还对 WEB 信息整合平台做了综合测试,包括爬虫的效率与抓取量 测试、数据抽取率测试等。测试证明系统能整合互联网中部分异质的数据源,但 也存在一些不足。
关键词:WEB,异质资源,信息抽取,本体,信息整合
I
ABS
ABSTRACT
万方数据
万方数据
万方数据
万方数据
ABSTRACT
With the rapid development of Internet technology, and enrich of network information resources, the Internet has become a more important way for people to query and access to data. Faced with the huge network resources, the search engine provides an important contribution for people to information retrieval.However, traditional search engines are keyword-based retrieval. There are some limitations, such as the existence of a large number of irrelevant search results, the page may be reserved with same information content. Therefore, it is highly necessary to integrate of Internet Information resources to help people extract the specific information concerned about from the massive network resources, and re-integration the data with a unified show. The main research wo
您可能关注的文档
- UHF频段无线收发模块的设计与实现-电路与系统专业论文.docx
- UHF频段耳蜗式多工器的研究-微电子学与固体电子学专业论文.docx
- UHMWPE关节置换材料的耐磨改性研究-材料加工工程专业论文.docx
- UHMWPE纤维性能及其应用研究-纺织材料与纺织品设计专业论文.docx
- UHF频段RFID系统中运动物体方向与速度识别的研究-电路与系统专业论文.docx
- UHF频段RFID读写器系统的研究-计算机应用技术专业论文.docx
- UHMWPE纳米纤维增强PBS基复合材料的 制备与降解行为研究-材料工程专业论文.docx
- UHMWPE超高分子量聚乙烯的链缠结初始研究-物理化学专业论文.docx
- UHRF1在骨肉瘤细胞侵袭过程中的作用及其机制研究-外科学专业论文.docx
- UHRF1蛋白在结直肠癌组织中的表达情况及其辅助诊断、预后判断价值的分析-内科学(消化系病)专业论文.docx
- WEB内容监控的研究与实现-信息安全专业论文.docx
- Web信息自动抽取技术的研究-计算机软件与理论专业论文.docx
- Web内容管理系统的设计与实现-计算机应用技术专业论文.docx
- Web内容管理系统设计与实现-计算机科学与技术专业论文.docx
- Web内容自适应控制模型的设计与实现-计算机应用技术专业论文.docx
- Web安全评估与建议系统的研究与实现-软件工程专业论文.docx
- Web图形化建筑能耗监测系统设计与应用-控制工程专业论文.docx
- Web图像搜索中基于GPU的图像分割技术研究-计算机软件与理论专业论文.docx
- Web容器差分服务技术研究计算机技术专业论文.docx
- Web就业信息抽取系统的实现分析-计算机技术专业论文.docx
最近下载
- SYT 5547-2000螺杆钻具使用、维修和管理.pdf
- 第三方产品节能环保ccc证书---服务器.docx VIP
- 一种连续酶解制备蛋白肽的系统及工艺.pdf VIP
- (高清版)B-T 40815.2-2021 电气和电子设备机械结构 符合英制系列和公制系列机柜的热管理 第2部分:强迫风冷的确定方法.pdf VIP
- 2025幼儿园园级家委会ppt全新 .pdf VIP
- PEP人教版六年级下册英语全册导学案.pdf VIP
- 鲁科版六年级上生物思维导图.pptx
- 电商运营方案电商运营方案.pptx VIP
- 计数型MSA测量系统分析报告(模板).xls VIP
- 发展低空经济课件.pptx VIP
文档评论(0)