神经网络技术在信息检索中应用.pdfVIP

  • 4
  • 0
  • 约 6页
  • 2016-03-01 发布于安徽
  • 举报
神经网络技术在信息检索中的应用 白宁,张谢谊 辽宁工程技术大学理学院,辽宁阜新 (123000) E-mail ::baining97@163.com 摘 要:21世纪随着网络信息技术的飞速发展,网络已成为人们日常工作和生活必不可少的信 息来源渠道。为了方便人们在大量繁杂的网页中找寻自己需要的信息,检索工具发展的很快, 但是由于网络信息的复杂性和网络检索技术的限制,普通检索工具也有着明显的不足。本文 主要介绍了人工神经网络和时间联想存储器的相关概念,讨论了在信息检索中利用时间联想 存储器网络模型进行信息检索的实现过程。同时详细描述了模型算法的算法,并进行了算法 分析和总结了算法的优缺点。 关键词:神经网络,联想存储,分布式,检索 1.引言 随着Internet 的普及和迅猛发展,数据共享和远程服务已经成为必不可少的资源提供方 式。而当前大多数的搜索引擎的性能都是不尽人意的。我们在下面列出目前这些搜索引擎的 一些主要的弊端: 一、结果精确度差 现在早已不是谁搜索出来的结果多谁就是好搜索引擎的时代了,海量搜索的背后用户更 加关注的是搜索结果的精确度,给出一万个不相干结果还不如给出一个用户满意的结果。可 现在的搜索不但精确度低,还存在大量的死链接和重复链接,让用户浪费了大量的时间在查 找有用的结果上。这些搜索引擎根据查询关键字在文档中出现的频率来决定文档内容和查询 条件之间的相似性。然而,关键字的频率只能粗糙的反映网页的内容。高频率的关键字不一 定地意味着这个网页的相关度很高。同样,标准搜索引擎只关心如何快速的处理查询,他们 倾向于应用相关的简单快速的等级排列方案。所有这些导致了搜索引擎对给搜索结果的等级 排列的无效。研究指出,大概有75%搜索结果可能是和查询条件无关的。 二、更新维护困难 据 Google 公布的数据,目前,Google 已经收录了80 亿个网站,而更新这些索引也是 相当费时间的,一般更新的周期大约一个月左右,所以, 对于一个新网站来说,Google 的 蜘蛛程序可能已经爬行了你的网站,但没有列入索引中,而第一次被列入的也是基本索引, 还未被列入其主索引中,只有当 Google 下次更新索引时才会被列入主索引,在这期间, Google 会对网站有一个相应的评估,会临时出现一个较好的排名,但此时的排名不是真正 的排名,只有等到Google 下次更新时,才会转化为真正的排名[1] 。 由于各种搜索引擎在收集和索引网页上应用了不同的技术,对于同一个查询条件这些搜 索引擎会产生不同的结果。显然如果这些标准的搜索引擎的能力可以被联合起来并加以强化 的话,网页的覆盖范围将被明显的改善。这就是智能检索代理系统的基本出发点。 “联想”可以理解为从一种事物联系到与其相关事物的过程。在日常生活中,人们从一种 事物出发,自然地会联想到与该事物密切相关或者有因果联系的种种事物。异联想记忆是人 脑中对给出一种事物得出其对应事物的途径的一种形式,可以按时间顺序对相关事物进行思 考,也可以通过事物本质特征的对比来确认事物的属性,从提示信息或局部信息对事物进行 回忆或确认。这种“联想”的基本形式抽象成计算机技术中按地址寻找和按内容寻找两种探索 方法。按内容寻找是基于事物全部或部分特征来找出目标事物。寻找过程就是这些事物间特 - 1 - 征的对比,而不必知道这些事物的具体存储地址。从匹配的过程来看,不需要地址的管理及 变换,有利于提高查询速度。从观念上来看,这也正符合人的思维方法,在人的思维决策过 程中,绝大部分是基于事物间的联系,也就是联想过程。人工神经元网络能提供一种较好的 实现方案。本文利用时间联想存储器的网络来解决分布式系统信息检索问题,建立更好的模 型。 2 .涉及知识 2.1 基本联想存储器模型 联想存储器(Associative Memory )简称AM ,是一类专门用来模拟联想记忆的神经网 络。它由两组单元A 和B 构成。每个神经元与另外一组中所有神经元均有突触联系,而不 与本组内任何神经元发生联系,其结构如图一所示。神经元间的连接权重随

文档评论(0)

1亿VIP精品文档

相关文档