- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于物联网技术智慧搜索引擎设计
基于物联网技术智慧搜索引擎设计 摘要:物联网应用发展迅速,已经与互联网技术相互融合。针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展现状,根据搜索引擎系统的工作原理设计一种基于物联网技术的搜索引擎。对搜索引擎进行了相关的研究。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。结合搜索引擎发展现状分析了搜索引擎的系统功能需求,并进行了可行性论证,进而提出了基于java的技术方案,明确采用jsoup、elasticsearch、jfinal等相关开发技术;然后通过网络爬虫抓取数据下载到本地,建立索引;在系统实现环节,重点对需求分析中确定的主要功能模块进行代码编程、修改及优化;最后,设计了若干具体测试用例对系统进行了较全面的测试,验证设计效果
关键词:物联网;搜索引擎;网络爬虫;索引器;jsoup
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)02-0274-03
随着信息技术与物联网技术的不断发展和融合,越来越多的产业与行业广泛应用了物联网技术,如工农业、智能家居、快递物流、设备监控等,物联网中包含很多实体,这就意味着海量的实时数据需要传输、存储及有效展示。面对越来越多的传感器及其所产生的数据,只有结合智能的物联网搜索,才能最大限度地实现这类数据的价值
1 模块设计
本搜索引擎由四个模块组成,主要包括网页抓取模块,网页内容抽取模块,内容索引模块和内容呈现模块。系统的模块流程图1如下:
1.1 网页抓取模块
网页抓取模块主要完成对指定站点进行网页的抓取并将所抓取的网页保存到本地数据库
本系统是从凤凰、腾讯、网易、搜狐新闻网上爬取相关的网页,输入凤凰、腾讯、网易、搜狐新闻网的页面的URL作为种子URL。通过分析凤凰、腾讯、网易、搜狐新闻网的网页URL的格式,对网络爬虫抓取和分析网页的行为进行一定的控制,限定应抓取的网页的URL格式以及限定能进入待爬取的URL队列的URL的格式。提高网络爬虫爬取速度可以通过改善URL的分配策略,使网络爬虫的并发线程增多。通过限制对Robot文件的访问,也是提高爬虫爬取网页效率的一个方法。网页抓取模块的功能需求如图2所示
1.2 网页内容抽取模块
网页内容抽取模块主要负责从本地文件所存储的网页中按照某种抽取规则抽取所需信息,并将所得到的信息按照特定的格式保存到数据库中
通过对具有代表性的目标页面进行分析,制定信息抽取规则,实现对网页上各种内容的定位,抽取网页文本内容。构建网页信息词库,通过分词器解析抽取出所需网页信息内容,并将其写到指定词库文件中。将提取的网页非结构化信息转化成结构化信息存储到数据库中
网页内容抽取模块的功能需求如图3所示
1.3 内容索引模块
利用Luence索引工具对数据库中结构化信息建立索引文件,然后把创建好的索引文件保存到磁盘中,根据用户输入的查询条件在索引文件中进行查询,最终查询结果按照一定的顺序进行排序返回给用户
网页内容索引模块的功能需求如图4所示
1.4 内容呈现模块
通过jsp技术,以Web的形式展示用户界面,当用户在此界面输入关键词时,根据用户的关键词从数据库中匹配相关网页,把相关网页根据一定的排序规则返回显示在用户界面
2 详细设计
2.1 网页抓取
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要?M成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。该模块通过网络爬虫从凤凰、腾讯、搜狐、网易新闻网中的网页爬取我们想要的页面URL。爬虫开始时,我们添加种子URL到URL请求队列中,我们输入的种子URL为凤凰、腾讯、搜狐、网页新闻网的页面的URL。通过对凤凰、腾讯、搜狐、网易新闻网的页面的URL格式进行分析,当得到的URL地址满足凤凰、腾讯、搜狐、网易网页面的URL格式,则将它添加到URL请求队列中
网络爬虫
您可能关注的文档
- 基于新课改背景下小学科学实验教学课程探索.doc
- 基于新课改背景下高中化学教学探究.doc
- 基于新课标下小学语文阅读课程教学.doc
- 基于新课标理念高中物理学习方法心得体会.doc
- 基于新课程背景下初中物理浮力相关知识教学分析.doc
- 基于新课程改革小学语文教学探索.doc
- 基于新道创新创业平台公共事业管理专业实践教学探究.doc
- 基于新预算法视角下行政事业单位财务管理分析.doc
- 基于新题型―语法填空题―启发下词汇教学.doc
- 基于方法改进后中国对外贸易隐含能测算.doc
- 内蒙古赤峰冶金化工开发区巴林右旗产业园水土保持方案.docx
- 正定县均成鞋厂年产25万双EVA拖鞋改建项目环境影响报告表.docx
- 家长助考课件.pptx
- 家长培训课件资源公众号.pptx
- 专题11口语交际和综合实践-2025年五升六语文暑假专项提升(统编版)【含答案】.docx
- 专题09古诗文鉴赏-2025年三升四语文暑假专项提升(统编版)【含答案】.docx
- 比亚迪G3维修手册F3尊贵型培训课件.pdf
- 力帆大CVT资料401-SM-09-005(RDC15-FA维修手册V1.0)(第一部分).pdf
- 流形思维-用于可信推荐的动态双曲推理-计算机科学-机器学习-推荐系统.pdf
- HAPI-一种从人类偏好学习机器人面部表情的模型-计算机科学-人工智能-类人机器人.pdf
文档评论(0)