- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎语义排序的设计与实现论文大学毕业论文
目录
1 引言 1
2 课题背景 2
2.1搜索引擎的概念 2
2.2搜索引擎的发展历史 3
2.2.1搜索引擎的起源 3
2.2.2第一代搜索引擎 3
2.2.3第二代搜索引擎 3
2.2.4当前著名的搜索引擎简介 4
2.3搜索引擎的分类 5
2.3.1全文索引 5
2.3.2目录索引 5
2.3.3元搜索引擎 6
2.3.4垂直搜索引擎 6
2.3.5其他非主流搜索引擎形式 6
3 系统需求分析 7
3.1搜索引擎的工作原理 7
3.2系统功能需求 7
3.3系统性能需求 8
4 系统总体设计 9
4.1“飞梦”搜索引擎系统总体介绍 9
4.1.1 “飞梦”搜索引擎系统工作机制 9
4.1.2 几种常见的语义WEB排序技术 9
4.1.3 语义本体概念 10
4.1.4 语义搜索 10
4.1.5 基于本体的语义排序 11
4.2系统逻辑设计 13
4.2.1系统时序图 13
4.2.2系统流程图 14
4.2.3系统数据流程图 15
4.3系统模块介绍 16
4.3.1 模块功能介绍 16
5 系统详细设计 21
5.1模块总体介绍 21
5.2抓取子模块 22
5.2.1运行Heritrix子模块 22
5.2.2分析网页子模块 27
5.3信息检索子模块 30
5.3.1解析网页子模块 30
5.3.2创建词库子模块 31
5.3.3生成持久化类子模块 31
5.3.4创建Document子模块 32
5.3.5存储数据子模块 33
5.4语义排序模块 33
5.4.1概念定义 33
5.4.2算法实现原理 34
5.4.3 语义排序部分代码 35
5.5用户子模块 38
5.5.1搜索页面 38
5.5.2详细信息页面 38
5.5.3后台信息管理 39
6 结论 40
参 考 文 献 41
致 谢 43
1 引言随着互联网的不断发展和日益普及,信息技术的不断发展,网上的信息量在爆炸性增长,已经深入到了人们生活的各个方面,改变了人们生活方式和思维方式全球Web页面的数目已经超过0亿,中国的网页数估计也超过了亿。在如此浩瀚的海洋里寻找信息,就像“大海捞针”一样,一种工具使我们可以迅速找到我们想要的内容这就是搜索引擎。著名的因特网搜索引擎包括aidu、Google、ohu等。
它包括信息搜集、信息整理和用户查询三部分。“飞梦” 搜索引擎系统将eb上的海量网页抓取解析网页,提取其中的有用内容为网页建立词库对解析网页生成的信息文件进行分词,并建立索引将索引存入数据库中“飞梦” 搜索引擎系统用户,用户通过此完成与系统的交互。当用户在查询界面上输入要检索的信息后,系统将在可以接受的时间内,返回用户所需的结果集。本系统实现了搜索引擎的基本功能
2 课题背景由于网络信息的飞速增长,我们不得不面对浩瀚的网络资源,这极大地改变了人们获取信息的方式, 面对浩如烟海的网络信息, 如何才能迅速、方便地获取有效信息, 日益成为人们关心的问题, 搜索引擎的出现极大地缓解了这一矛盾。它为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。
搜索引擎是一种应用在Web上的,为用户提供检索服务的软件系统, 它以一定的策略在Web上搜集和发现信息, 并对信息进行分析、提取、组织等处理后形成供检索用的数据库。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这个与用户输入内容相关的信息列表(常常会是很长一个列表,例如包含1万个条目)。这个列表中的每一条目代表一篇网页,至少有3个元素: (1)标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的TITLE/TITLE标签中提取的内容。(尽管在一些情况下并不真正反映网页的内容)。
(2)URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元素对网页内容的权威性进行判断,例如上面的内容通常就比(某个假想的个人网站)上的要更权威些(不排除后者上的内容更有趣些)。
(3)摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节(例如512)截取下来作为摘要。
通过浏览这些元素,用户对相应的网页是否真正包含他所需的信息进行判断。比较肯定的话则可以点击上述URL,从而得到该网页的全文。搜索引擎提供信息查询服务的时候,它面对的只是查询词。而有不同背景的人可能提交相同的查询词,关心的是
您可能关注的文档
- 本科毕业设计论文基于51单片机的密码锁设计.doc
- 本科毕业设计论文基于51单片机的排队机叫号系统设计论文.doc
- 本科毕业设计论文基于51单片机的led点阵显示屏系统的设计论文与实现.doc
- 本科毕业设计论文基于51单片机的四路定时控制器设计报告.doc
- 本科毕业设计论文基于51单片机录音笔设计论文(设计论文).doc
- 本科毕业设计论文基于51单片机的语音投篮玩具设计论文.doc
- 本科毕业设计论文基于89c51rc自动控制浇花系统任务书.doc
- 本科毕业设计论文基于51单片机设计的音乐跑马灯.doc
- 本科毕业设计论文基于89c51的自动断电保护系统单片机.doc
- 本科毕业设计论文基于89c52的液体点滴速度监控设计论文课程设计.doc
文档评论(0)