实验报告(曹燕玲).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验报告(曹燕玲)

实验报告( ) 班级: 信管0301 姓名: 曹燕玲 学号: 实验日期: 2005.11 实验项目: 元搜索引擎设计与实现 一、实验目的与要求: 1、实验目的:实现一个元搜索引擎系统 2、实验要求: (1)调用google、baidu、sohu、sina等国内外著名专业搜索引擎; (2)分析返回结果的源文件,抓取url、title、abstract等信息,并存入临时表; (3)依据“投票”权值进行排序输出、显示给用户。 二、实验内容 元搜索引擎原理 元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返回给用户。 一般元搜索引擎主要有以下三部分构成: 检索请求预处理部分:实现用户的个性化检索设置的要求、成员搜索引擎的调度方案、检索时间的限制、返回结果量的限制等; 检索接口代理部分:实现将用户的个性化查询请求转化为可被成员搜索引擎识别的固定格式; 检索结果处理部分:实现把调用的成员搜索引擎检索到的结果去重、合并、排序和按一定的格式返回给用户。 数据字典 查询表达式表(website) 记录各个成员搜索引擎特定的查询表达式,其字段结构如下: 字段名 类型 功能 ID 长整型 记录的id号,该记录的唯一标识 website 文本 www形式表示的成员搜索引擎地址信息 weight 数字 成员搜索引擎结果初始权值 model 文本 成员搜索引擎查询表达式模型 结果记录表(webaddress) 各个成员搜索引擎返回的结果,如标题、链接等信息都存储到这个表中,字段结构如下: 字段名 类型 功能 ID 长整型 记录的id号,该记录的唯一标识 ipaddress 文本 www形式表示的搜索结果链接地址 zt 备注 搜索结果的标题信息 weight 数字 每个搜索结果的权值 检索请求预处理 元搜索引擎提供了统一的检索界面,而不同的搜索引擎有不同的检索语法和操作符使用技巧。因此,需要根据不同的搜索引擎将用户的查询要求分别转换成可以进行检索的查询表达式。 下面给出一个具体例子,如用户在百度查询“计算机”,通过检索页面输入查询词,并提交给搜索引擎,本次查询的URL为: /s?wd=%BC%C6%CB%E3%BB%FAcl=3 应用写字板打开查询的html的网页,分析查询表单,可以看出wd为查询关键字,cl是查询类别。对于各个成员搜索引擎,系统需要将各个成员搜索引擎的查询表单进行分析,并找出相应查询字段的含义,以便写出各个成员搜索引擎可识别的调用格式。 因此,我们可将上面URL中的wd部分直接改为查询关键字,如: /s?wd=计算机cl=3 元搜索引擎在接受用户的查询请求后,形成以上的CGI格式,直接发送到Baidu服务器中,同时等待HTTP响应,若响应的格式有多页,还必须接受以下HTTP响应: /s?lm=0si=rn=10ie=gb2312ct=0wd=%BC%C6%CB%E3%BB%FApn=10cl=3(第二页) /s?lm=0si=rn=10ie=gb2312ct=0wd=%BC%C6%CB%E3%BB%FApn=20cl=3(第三页) 经对比,不难发现pn为页数,第一页也可以这种格式来反映,只要将pn改为00就行 /s?lm=0si=rn=10ie=gb2312ct=0wd=%BC%C6%CB%E3%BB%FApn=00cl=3 代码: Private Sub Command1_Click() Dim str As String 首先进行初始化 If Data1.Recordset.RecordCount = 1 Then Data1.Recordset.MoveFirst Do While (Not Data1.Recordset.EOF) Data1.Recordset.Delete Data1.Recordset.MoveNext Loop End If Dim result As String, weight As

文档评论(0)

qwd513620855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档