一种具有属性集成融合能力搜索策略.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种具有属性集成融合能力搜索策略

一种具有属性集成融合能力的搜索策略   摘要:针对搜索结果数量过多、各信息源――网页的属性值不一致的特点,提出一种具有属性融合/集成能力的搜索策略,拟建立自动搜索生成系统取代人工分拣。通过对检索出来的网页作信息抽取、对比、统计,进行集成/融合,最终提交给用户统一的信息视图,保证了信息完备性与权威性。用该方法建立的微机性能/报价检索示范系统的试运行与测试数据表明,该系统基本能够从繁重的人工检索中解脱出来,提高了自动化程度。??   关键词:检索;搜索引擎;Web信息抽取;数据集成/融合??   中图分类号:TP391文献标志码:A   文章编号:1001-3695(2008)01-0087-03      搜索引擎是Web信息检索的重要方法和手段。目前,以Google、Baidu为代表的基于关键字查询的搜索引擎,搜索出来的结果存在以下特点:a)相关网页数量庞大,容易导致信息过载[1,2]。一方面逐一查看和比对所有搜索结果的工作量过大,超出了人工分拣的能力;另一方面倘若随机任意选取部分结果查看,则获得的信息存在片面性,不能完全包含用户所需信息。b)一致性问题。虽然网页信息内容能够重组,但不同的信息源提供的信息存在冲突,主要体现在不同网页中相同属性项的值不一致。面对这些信息,用户会茫然而无从选择。基于上述局限性,使得用户不易有效地利用海量检索结果。为此,研究一种能够自动生成完备信息视图的方法,将用户从繁重的人工检索中解脱出来,成为目前检索的关键。??   本文针对检索结果的特点,为了有效地提高人工分拣的查准率[3~5]和信息的综合利用率,构建了具有属性融合/集成能力的搜索策略模型。该模型能够自动对搜索出的网页进行属性提取和融合――加权计算,最终提交给用户的是检索得到的信息整体情况和集成/融合后属性项的信息,提供了权威的信息参考。该模型取代了大量的人工查看和比对,提高了自动化程度。??      1搜索模型??      该模型借助于搜索引擎技术,对搜索的中间结果进行信息抽取,抽取成特定的数据集,并将这些数据集进行集成/融合;最后将集成/融合后的结果提交给用户,以适应用户的需要。设计的模型如图1所示。??   Web信息抽取是该模型的基础,搜索得到的页面经过信息抽取,得到特定的数据集合和文本集合;同时可以将相关的信息定义在相应的数据集合中。??   数据集成/融合是该模型的实现核心。数据集成/融合的好坏直接关系到用户得到集成/融合后视图的好坏。数据集合中的数据经过对比/统计,融合两个步骤,最后将融合后的数据提交给用户。??   历史记录是该模型的一个优势补充。用户使用关键字进行商品搜索,在首次搜索时,需要进行信息抽取和数据集成/融合。如果在数据库还未更新前,用户搜索的内容以前搜索过(历史记录集中有记录),可以直接从历史记录集中检索出相应的项,提交给用户。??      2集成/融合策略??      2.2Web信息抽取策略??   得到搜索的中间结果网页时,需要对网页进行信息抽取。信息抽取的结构如图2所示。??   Web信息抽取技术分多种分类方式[7],如根据自动化程度就可以分为人工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取三大类。根据各种工具所采用的原理将现有的工具分为五类[8,9]:包装器归纳方式的信息抽取、基于HTML结构的信息抽取、基于自然语言处理方式的信息抽取、基于ontology方式的信息抽取和基于Web查询的信息抽取。考虑到抽取商品购物网页的特点是基本上趋于结构化的。例如,搜索笔记本电脑价格,一般是这样的结构:笔记本品牌、型号、CPU、内存、硬盘、显示屏等。考虑到上述特点及HTML文档的特征(HTML文档由标题?Qhead?R和主体?Qbody?R两部分组成,并且都有相对应的结束符?Q/head?R和?Q/body?R)。因此,采用基于HTML结构的信息抽取方法。??   信息抽取过程如下:??   a)构建模式库。模式库包含待抽取信息的表述、特征项等。比如商品的属性、价格等。??      通过信息抽取,过滤了检索结果中不满足条件的信息源――网页,最后得到所需要的两个集合F、S。??   2.3属性集成/融合策略??   属性集成/融合是将抽取得到的数据集合进行集成/融合处理,提交给用户的是完备的信息视图。属性集成/融合的结构如图3所示。??   属性集成/融合主要分为以下两部分:??   a)对比/统计,是属性集成/融合的基础。在进行数据集成/融合之前,需要对数据集合中的数据进行对比,同时对相同数据的数目进行统计。??   b)集成/融合,是属性集成/融合的核心。数据集合经过对比/统计后,根据数据的可信度对集合中的数据进行融合,得到融合后

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档