- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网个人信息垂直搜索系统的设计与实现.doc
互联网个人信息垂直搜索系统的设计与实现
摘 要:现在的互联网具有多种功能平台,已成为人们在社会上生存的重要组成部分。中文垂直搜索作为通用搜索引擎的延伸和细分,首先要对网页的中文信息进行分词处理,把已分字段的数据定向地抽取出来,最后用特定的方式反馈给用户。文章将对现在的搜索引擎进行深度分析,通过阅读相关文献,开发个人信息垂直搜索系统。系统通过网络蜘蛛获取网页内容,将其内容保存至MySQL数据库中,用户检索时将该资源库中满足条件的链接反馈给用户。该系统主要包括管理员控制面板与用户搜索界面两部分。
关键词:网络爬虫;中文分词;垂直搜索;php;MySQL
1 绪论
1.1 研究背景
因特网即Internet,始于1969年美军在ARPA制定协定下的研究试验性网络ARPANET。90年代是Internet最为迅速的增长期。2010年底全球网站总量2.55亿个,一年后增至5.55亿个,增幅为117.6%[1]。到2014年12月,我国拥有IPv6地址数量18797块/32,IPv4地址数量为3.32亿[2]。搜索系统发展势头空前繁荣,其发展存在如下特点:(1)资源检索数据库规模不断增大,商业搜索引擎保持的网页数量一般都在千万级甚至亿级[3]。(2)逐渐出现垂直搜索系统[4]。(3)评价搜索结果的相关度[5]。(4)使用自动分类技术。Internet信息技术迅猛发展,使我们被“信息迷航”所困扰,不能快速精确地定位信息。近年来国内检索技术不断提升,但在很多操作层面不如国外。另外,中文词汇组合变化,这也使中文搜索引擎的开发速度受到了限制。
1.2 文章的主要内容及研究方法
文章将用户检索时的计算网页权重的压力转移到系统搜集网页信息时,同时提出一个新的计算公式,使检索结果更加精确,效率更加快捷。本系统后台程序搜索互联网相关信息,将网页信息进行分词,存储到数据库中,进一步加工处理;根据用户输入信息,将检索结果以网页链接进行展示。文章研究方法:(1)文献研究法。(2)理论研究与实际论证相结合。(3)系统开发需用到的工具:PHP、HTML+CSS以及MySQL数据库等。
2 对垂直搜索系统的分析
2.1 搜索引擎的基本原理
搜索引擎,即对Internet中上亿个网页中的每个关键词进行索引,然后在此基础上建立索引资源数据库,在索引资源库中重新搜索排序的一种技术。用户搜索某个词的时候,索引资源数据库的所有页面中的包含了该关键词的内容,都会被搜索出来,然后再根据排序算法,以某种次序输出[6]。
2.2 系统结构与主要功能
检索系统主要由信息搜集调度模块、网页分析与存取模块、索引资源与资源检索模块、词库与日志管理模块等组成。信息搜索调度模块主要利用自然语言处理的技术,对特定范围内的网页进行优先访问[7]。向网页存取模块发送超链接,接收反馈结果并分析,将搜集到的数据保存到网页数据库。管理员根据网页数据库中超链接信息,通过网页分析与存取模块,利用http协议获取该链接对应的网络信息。索引资源数据库中保存着互联网中关键字存在的网页链接,索引资源与信息检索模块对检索库进行优化,加快结果反馈速度。用户通过调用检索模块,获得系统的检索服务[8],结果以HTML格式反馈给检索者。
2.3 控制程序的实现
垂直搜索系统的主控程序,即信息存取与分析模块。通过SOCKET接口传输HTML存取分析结果,主控程序根据pipe接口将分析结果插入到数据库中。定期对数据库URL进行期检,若数据库中存在未保存的URL则调用主进程实现对其访问。主进程实现网络爬虫过程,并将相关信息保存到数据库中。过程如图1所示。
其中主进程的处理流程如图 2所示。
3 个人信息垂直搜索系统的设计策略
3.1 初始种子URL
如果将互联网看作一张连通图,那么网页就像连通图中的节点,网页间的超链接就可以被看成该图的边。爬虫程序以初始化URL种子为入口,不断获取网络资源。开始爬行时,可能遇到评价网页的信息较少,容易获取无关网页,进而导致爬虫方向偏离主题[9]。本系统中初始化种子URL由系统管理员来完成,通过对初始化URL的访问实现网页的抓取。
3.2 网页抓取流程
网页获取过程实际上是爬虫程序在互联网这张连通图的边上爬来爬去的过程,当访问到某一节点时,将该节点的相关信息保存至网页数据库中。在搜索引擎中,爬虫把初始化的URL提取出来,首先将其放到URL工作队列,然后遍历该工作队列中的URL,下载网页的同时将新出现的URL在此放入到工作队列中。同时需要一张历史表,保存该网页是否已被遍历的信息。
爬虫程序架构:爬虫程序能够根据初始的URL来获取更深一层的网页链接,然后抓取深层网页的有效信息
您可能关注的文档
最近下载
- 新人教版高中数学必修第二册统计全套课件.pptx VIP
- 台球厅消防安全应急预案.docx VIP
- 海外代理协议合同协议.docx VIP
- 初中教科研课题:《初中语文预习方法研究》课题研究工作报告.doc VIP
- 2025至2030年中国新疆维吾尔自治区建筑市场运行态势及行业发展前景预测报告.docx
- 简述10KV 高压配电柜安装.doc VIP
- GB50148-2010 电气装置安装工程电力变压器油浸电抗器、互感器施工及验收规范.pdf VIP
- 2025航天恒星科技有限公司招聘80+人笔试历年参考题库附带答案详解.pdf
- RB∕T 174-2021 司法鉴定法庭科学机构能力专业要求.pdf
- CP-717安装指南.doc VIP
文档评论(0)