- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于神经网络的搜索引擎应用..doc
基于神经网络的搜索引擎应用
一、绪论
1.本课题研究的背景
搜索是人们学习生活中不可或缺的一个重要环节,它是 人们获取所需信息的一个捷径。当用户用关键词查询信息的 时候,搜索引擎将在数据库中查询,假如找到和用户要求内 容相似度很高的网站,将基于关键词的匹配程度,它们出现 的位置,信息和网页连接质量的频率,计算每个网页的相关 性及排名回馈给搜索用户。信息检索是当今最热门的网络技 术,基于神经网络的搜索引擎是一种信息检索的新方法。[1]
搜索引擎是按照特定的算法,加上运行计算机搜索程序 搜索网络上的资源,经过一系列的组织和处理之后,向用户 提供搜索功能,将用户检索的相应信息展现给用户的系统。 而搜索引擎的算法决定了它的性能和易用性。好的搜索引擎 如百度、谷歌,可以在用户几次查询行为之后,自动为用户 选择呈现顺序,准确率也可以保持在一个很高的程度。
人工神经网络是在模拟人类的思维。信息采用分布式存 储和并行协同处理。网络学习的核心在于:如果网络给出了 错误的决定,通过网络自身的学习,应该做到降低下次犯同 样错误的几率。神经网络是一种运算模型,是大量神经元和 之间相互链接构成的。每个节点是一个输出函数,每两个节 点间连接代表权重。通过总结归纳输出函数求出的值来判断 是否激活神经元。并且对输入层、输出层和隐藏层的权重进 行校正,这个就是自学习过程。通常是利用反向传播算法来 建立模型。[2]
基于以上原因,本文构建一个人工神经网络,并向这个 网络提供:查询条件中的关键词,返回给用户的搜索结果, 用户的点击选择,然后再训练这个神经网络。当网络通过了 许多次不同的查询训练之后,利用它我们可以改进搜索结果 的次序,这样可以更好地反映用户在之前一段时间里的真实 点击情况。[3]本
本文的创新性和特点
现有许多种不同类型的神经网络,但大都以一组神经元 构成。而我将用一个名为多层感知机网络。这种网络是由多 层神经元构成,第一层的神经元是负责接受输入__用户输 入的单词。最后一层神经元负责输出__包括被返回的不同 URL的权重表。中间层可以包含多个神经元,但为了简化运 行的过程,只采用一层中间层,叫做隐藏层__负责对输入 进行排列组合。这样可以直接很直观的验正反向传播算法的 可实用性。本文将用pyth on构建一个人工神经网络,并向 这个网络提供:查询条件中的关键词,返回给用户的搜索结 果,用户的点击选择,然后再训练这个神经网络。当网络通 过了许多次不同的查询训练之后,利用它我们可以改进搜索 结果的次序,这样可以更好地反映用户在之前一段时间里的
真实点击情况。[4]
二、的分析与设计
大多数情况下,当人们在构建神经网络的时候,网络中 的全部节点都是预先用网络爬虫建好的,可以预先建立一个 包含上百节点的隐藏层,并且让链接已就绪,但是我们将在 需要的时候建立新的隐藏节点,这样可以让效率更高,也相 对简单。[5]
点击跟踪神经网络的设计分析
为了让我们建立的神经网络取得查询的最佳结果,设置 对应于查询条件中出现的单词的输入节点值为1.当这些输 入节点的输出端要输出时会尝拭激活中间的隐藏层。当隐藏 层中的某个节点得到了一个输入,就能被激活输出端,再激 活输出层的节点。因为输出层中的节点经过不同的刺激将在 处于不同程度上的活跃状态,我们就能利用输出节点的活跃 程度,来判断一个URL与最开始查询中的关键单词联系上的 紧密程度。图中的实线表示强连接,虚线表示弱链接,标粗 文字代表这个节点已经变得很活跃,如图2-1所示:
2_1神经网络对“;worldbank”;做的反应当然一次 的结果并不能说明问题,最终的结果还要被逐渐纠正,通过 纠正连接强度。这样,当用户执行搜索的时候,激活输入端, 并从结果中选择所需要的链接,我们就能对网络进行训练。
在图2-1所示的网络中,已经有很多人进行过搜索“;w
orldbank”;,并且点击过Wo rldBank的相应的结果,通过这 一步,可以加强单词与URL之间的关联。[6]
数据流程分析基于以上对点击神经网络跟踪过程的分 析,得到神经网络的简化数据流程图如图2-2所示。神经网 络从用户输入查询的关键词开始,首先把用户查询的单词与 数据库已存在的数据做对比,看是否已经存在,若存在则把 关键字和输出的URL之间的连接加强,即增加权重。如果之 前不存在这个关键词,则在数据库中插入该数据并记录这次
对应的查询输出结果2-2
对应的查询输出结果
2-2系统数据流程
数据库的设计神经网络的核心在于通过当用户查询时 不断选择来训练网络,所以我们需要在数据库中存储能够反 映网络现状的信息。基于前面的分析,建立了以下一些数据 库表。具体见表2-1。表2-1各数据库表字段说明1、单词 表 word idsWORDID 单词 IDNAME 单词名
您可能关注的文档
最近下载
- 2024-2025学年湖南省金太阳高三上学期10月检测数学试题及答案.pdf VIP
- 1FC5同步发电机励磁系统解析.doc VIP
- 生物化学说课讲义省公共课一等奖全国赛课获奖课件.pptx VIP
- 全力以赴 冲刺高考——高三家长会(课件).pptx VIP
- 团队建设(PPT106页)学习课件.pptx VIP
- 广西科技大学2025年809信号与系统考研真题.pdf
- 补全对话(专项训练)-人教PEP版(2024版新教材)英语三年级上册含答案.pdf VIP
- 25新二上语文同步部首查字法专项练习15页(1).pdf VIP
- 宾馆餐厅消防安全培训课件.pptx VIP
- 《顶板堆载施工方案》.doc VIP
文档评论(0)