- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向中等职业教育的垂直搜索引擎的分析与研究
面向中等职业教育的垂直搜索引擎的分析与研究
面向中等职业教育的垂直搜索引擎的分析与研究
1 绪论
概述
目前我们的社会已经进入高度信息化时代,人们对获取信息的方式发生了根本性的变化,我们学习的途径不再局限于课堂和书籍,而是越来越多地通过互联网来找到我们所需要的信息。那么为了能够更快更好地获取互联网上的资源,那么搜索引擎技术就应运而生了,搜索引擎能够使人们快速地搜索网络上我们需要的相关信息。但是,获得的信息也是非常庞大和分散的,而且其中包含了许多与我们查询主题无关的内容,需要浪费用户大量的时间和精力来加以区别。垂直搜索引擎技术的产生就是为了解决通用搜索引擎专业性不够、集中度不高的问题,大大地提高了搜索的速度和精确度。而随着我国执行大力发展中等职业教育的政策,教育资源不足严重地制约着中等职业教育质量的提高[1]。目前面向普通教育资源的垂直搜索引擎发展的也很迅速,但是对于专门面向中等职业教育的垂直搜索引擎仍然严重不足。目前我们国家对于中等职业教育非常重视,投入的力度也很大,对于计算机和网络的硬件条件已经完全具备在中等职业学校建立辅助教学的信息检索平台。
1.国内外研究现状分析
通用搜索引擎从诞生到现在已经经历了十余年的发展,目前已经广泛应用于互联网,成为人们搜索互联网资源必不可少的工具,实际上,搜索引擎的出现是个必然,因为随着网络资源的几何级别的增长,同时网络传播的速度大大超出了人们的想象,互联网行业的应用已经渗透到人类生活的方方面面。搜索引擎就像茫茫大海中灯塔一样指引着人们在互联网中遨游。
搜索引擎的发展经历了几个重要的历史时期:最开始出现的搜索引擎只是检索FTP上边的文件;随后的搜索引擎开始收录网络地址;搜索引擎开始收录标题;目前的搜索引擎,已经开始抓取网页全文了。
1.面向教育的搜索引擎的发展现状
目前流行的通用搜索引擎其工作原理及核心代码是不对外公开的,其产生查询结果的排序方法也被视为商业机密。甚至有人质疑由于商业利益的关系对查询结果的排序造成了扭曲。面向教育的垂直搜索引擎的研究有很多的文章,但未对教育搜索引擎框架和核心给出详细的描述。这使得开发教育搜索引擎成为教育技术领域一项困难的任务。为此该文结合教育领域特征和搜索需求的多样化研究对面向教育的垂直搜索引擎框架及其关键技术进行了深入地探讨和研究。
1.面向中等职业教育的垂直搜索引擎发展现状
面向中等职业学校的垂直搜索引擎的研究目前严重不足。对于垂直搜索引擎来说专业性越强其搜索的效果越好,由于我国的经济形势的发展,各种产业不断升级,社会需要大量具有合格工作技能的专业人才,国家对于中等职业教育越来越重视,投入也越来越大,甚至达到了职业教育与义务教育同等重要的地位。
垂直搜索引擎技术分析
垂直搜索引擎系统由4部分组成:信息采集、分析、索引和查询。信息采集模块负责在互联网上查找网页信息,并对所采集的网页内容进行解析、过滤、分词处理;索引模块对采集到的信息分析之后进行倒排序的方式存放到索引数据库中;查询模块根据用户输入的关键词,从索引数据库中找到相关的网页,并根据相关度排序将网址和网页摘要反馈给用户。
信息采集模块
搜索引擎采集网页通常采用网络爬虫[2]方式。通过它可以生成以用户输入的关键词为依据排序的URL及摘要的索引数据库,它的工作原理是从初始URL开始不断抓取URL。这些URL信息集成一个URL队列,一直到不满足查询条件为止。通过分析过滤掉不相关的网页链接,将有用的网页链接放到URL队列中,并在URL队列中找到后面要抓取的网页。最后将抓取的URL和摘要按相关度的顺序保存到索引数据库中,用于后面的索引和查询。
2.信息的分析模块
目前互联网上的网页数量呈几何级别的增长,如何从浩如烟海的网络中抓取用户需要的信息,过滤掉无关的网页需要建立一个判定的规则。通用搜索引擎是不进行主题相关性判定的,造成抓取的网页数量庞大且分散。由于垂直搜索具地专业特性、精确度高、深度大的特点,要对信息采集模块采集到的网页进行主题相关度的判定。使其能够尽量地抓取高度相关的网页,这样提高了搜索的精确度和搜索的速度。同时还要制定一定的策略来解决网页重复和网页内容变化的问题。
2.信息索引模块
信息采集模块抓取的网页,保存在一个结构化的数据库中,按照类型进行排列建立索引数据库以便进行快速检索。通用搜索引擎抓取的本文由论文联盟http://收集整理网页庞杂、分散,因此不能进行全文检索,垂直搜索引擎因为是针对某一特定领域或某一特定人群,因此支持进行全文检索。使其具有相比于通用搜索引擎搜索深度大的优点。
2.用户界面
用户输入和输出的接口,现在通常使用Ajax技术来设计用户使用的界面。
文档评论(0)