- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
域内资源整合系统典型应用 --分布式搜索引擎建设方案 华中科技大学
域内资源整合系统典型应用 --分布式搜索引擎建设方案 华中科技大学图书馆 数字化研究与应用开发部 一、现有整合系统缺点 由于网络结构的分布式与资源利用方式集中式之间的矛盾,资源覆盖面宽但覆盖率不高,比如网页资源搜索引擎; 由于数据量庞大,更新困难; 在某个域内的查找显得相对力不从心,准确度不高; 二、解决方案及解决方法 1、系统方案要求 结合DRIS系统理论,提出清晰的网络资源利用结构图,建立一个分布式的网络资源利用方式,解决现在网络由于无结构性造成的信息资源繁多但利用起来容易出现的信息孤岛现象、查找有用资源相对困难并且效率低下现象 可以整合网络上的所有资源,比如网页资源,图书资源,多媒体资源等等 由于采用分布式,数据的采集容易实现更加全面,更新也更加方便; 2、系统方案的实现 基于DRIS系统理论,我们实现了最低层的网页资源和其他资源的整合及搜索: 底层网页资源的整合实现 网页资源是互联网上最重要的资源,因此、要实现对互联网资源整合自然的第一步便是如何整合网页资源,所以DRIS要率先实现的便是域内网页资源的整合系统 底层其它资源的共享实现 结合图书馆的优势,实现图书资源整合,实现 DRIS系统对另一种资源的整合 三、底层资源整合系统的设计 为了实现DRIS系统,实现底层资源的整合,针对网页资源和图书资源,我们设计了校园网的资源整合系统,设计结果如下: 能够自动搜集网页等多种资源,自动更新。 能够索引多种资源,能够存储索引数据库。数据库可以添加资源索引,减少资源索引,实现部分资源比如网页资源的快照功能。 实现网页搜索,能够按照一定的次序排序。 能够适用以后可能出现的多种资源 四、网页资源整合具体设计 主要工作分析: 网络资源的搜集,即网络爬虫(Web Spider)的设计 1、使用分块下载(利于更新) 2、多线程下载以及多线程之间的协作 3、下载时的错误处理 4、与更新之间的配合处理 研究索引,切词 1、熟练掌握双字切词和单字切词等多种切词方法 2、重点研究字典切词方法,并予以编程实现 设计网页输出方案 网页的输出方案: 在Windows和.NET环境下实现网页设计 对时间参数有相对比较,达到一定的要求 分页及排序很好的予以实现 底层资源整合系统工作流程 根据双天单天确定索引库 搜索匹配内容 计算权值,根据权值排序 加亮显示搜索词,按要求显示网页 总体流程示意图 简单流程: 资源搜集工作流程示意图 流程: N 结论: 分布式的资源整合方式有其自身系统结构所带来的必然优势 域内的资源可以做到具体、全面的收集 对于域内的资源搜索利用有不可比拟的优势,全面而快速,增加了结果的准确性 五、底层图书资源的整合 对电子图书、馆藏图书、中文期刊,外文期刊、学位论文等资源实现了与网页资源的同步检索 优化了检索结果,排序算法更加合理 同一窗口检索,使用更加方便,提供的有用资源更多 六、上下层之间的协作 底层整合系统的要求: 通过对索引目录的有效管理,可以实现各个域对上层域主机的上传 索引数据库可以实现内容的增加,删减 根据要求可以在指定的域内实现搜索 具体设计方案如图: 七、结束语 至此,基于DRIS的底层设计已经基本实现完成,高层的设计及底层的完善还在进一步的研究和加强之中。 谢谢大家 * * 数字图书馆应用技术研讨会 域内资源收集 解析资源 索引入库,备份数据 用户检索请求 爬虫开始 选择一个院系 有无更新 下载资源 索引 添加到索引库 更新备份库
文档评论(0)