- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析AngularJS 框架的搜索引擎优化方案
浅析 框架的搜索引擎优化方案
随着互联网的飞速发展, 使用传统静态页面和技术开发一个大型网站的难度越来越高。而 推出的 则是基于传统 的一个 框架,开发者可以通过它来编写目前主流的单页面应用。它克服了在构建大型 应用上的不足,使用 作为模板,简化应用组件,利用依赖注入和数据绑定,使开发人员可以更有效地进行一些大型网站以及 的开发。为了使 开发的页面支持搜索引擎爬虫, 需要对此单页面模式进行搜索引擎优化( ,)。现有对于 单页面的 策略的研究和相关文献较少, 所以本文还结合了相关社区、论坛等一系列的网络资源。本研究对 单页面的动态数据无法被爬虫解析到的问题提出了非实时和实时静态化的两种基于 拦截器的 策略。
1 单页面静态化策略
策略一:非实时的静态化
智能识别爬虫机器人返回定期更新的缓存页面的非实时静态化 原理。具体分为:①在项目部署或者在设定的一段时间后,对页面进行后台的获取、遍历,通过配置文件设定的遍历深度开始对首页进行深度的链接获取以及转义,将各个链接对应的页面交给下一步处理,直到所有遍历结束;②对遍历的页面进行 处理, 生成或更新静态 缓存放入静态页面池,即配置文件设置的缓存路径,并在遍历结束后及时对无效链接的缓存进行清理;③网络请求首先通过拦截器(),拦截器根据 请求的请求头中包含的“-”等参数判断此请求是否为爬虫机器人的请求,如果不是则返回正常的页面用于 内部渲染显示, 反之则通过 转义查询并返回对应的 缓存页面给爬虫机器人用于抓取关键字。由于此策略是非实时的,所以它适用于较为稳定且对于搜索引擎的实时性要求不高的网站。例如政府办公网站,它每日更新的内容不多且不会频繁地修改页面内容,则可以每日对服务器的静态页面进行更新,即可满足每日更新搜索引擎词条的需求。
策略二:实时的静态化
策略一为非实时的静态化策略, 然而它不会很好地适用于需要经常更新数据且对搜索引擎实时性要求较高的大型门户网站。例如大型的新闻网站, 网站经常会发布新的文章或者是公告, 并且需要搜索引擎能够尽快地将新闻的链接和关键词加入索引,那么频繁更新缓存页面的服务器开销会很大,并且缓存文件所占的空间也会越来越大, 因此针对此种情况提出了实时的静态化策略。请求页面时即时生成定时销毁的静态页面缓存,爬虫机器人请求时, 首先查找是否存在缓存以及页面缓存是否失效,如果缓存有效则返回静态池中的静态页面,反之则生成新的静态页面或者更新静态池内的静态页面, 修改后的实时静态化策略原理..同时,此实时静态化策略也改进了页面的缓存方式,它对于不同缓存页面的关键字设置不同的清理权重(即更新频率高低,需要人工设置)。 较为稳定的页面例如首页菜单、公司信息等展示页面可以设定较小的权重值更新比较频繁的页面,例如新闻公告、发布消息的汇总页则可以设定较大的权重值。权重越小的静态页面的缓存时间越久,可以保存一天甚至是一周,这样可以大幅节省频繁生成此类缓存的资源浪费; 而权重越大的静态页面由于更新频繁,所以缓存时间越短,考虑到搜索引擎的爬虫机器人不会实时抓取信息,而是间隔一段时间(一般为四至五小时)才会重新抓取,因此可以在两到三小时或更短的时间后清理此类缓存。这里的缓存也可能会清理失败,所以在判断缓存是否存在的同时也需要检查静态页面的失效时间, 避免过时的旧页面缓存影响新发布信息的检索。策略还规定了当网站重新部署后强制清理所有缓存。
2 单页面静态化策略实现及测试
实现步骤
静态化策略的实现主要分成配置拦截器以及拦截器实现两步。首先将 的 项目加入 的 文件夹中,设置- 文件,确定外部工具路径、缓存路径、遍历深度、拦截规则等参数,下面为少量配置代码:
针对策略二的实时静态化 策略的拦截器 的实现原理拦截器首先判断请求的发送方, 如果不是爬虫机器人则直接返回正常的页面,反之则返回 实时静态化页面。针对爬虫机器人的处理流程主要为:首先进行 转义,爬虫请求分析,记录 并查询遍历深度(没有此项参数则使用配置文件中的默认值);再将 进行二次转义,查询缓存文件如果存在缓存文件并且没有失效,则直接返回 静态页面如果缓存文件不存在,或者缓存已失效并未及时销毁,则先销毁缓存,再进入 处理器; 处理器利用第三方工具,它是一个以 为基础的服务器端 的,不依赖于浏览器,全面支持各种 标准,例如页面文档对象模型( ,)处理等对动态页面进行搜索引擎优化; 最后生成缓存页面, 保存文件至缓存文件目录(缓存池),返回 静态页面。
测试与分析
测试环境的系统为 2017 2, 部署平台为 ,端口8083 为实时静态化策略实现后的网站访问入口,端口8084 则为原始的 网站的访问入口。首先使用浏览器访问网站,
您可能关注的文档
最近下载
- 医院内部控制管理手册.pdf VIP
- 2025江苏徐州云龙区翠屏山街道残疾人之家管理服务人员岗位招聘1人备考试题及答案解析.docx VIP
- 协会标准-TCECS 1113-2022给水排水工程微型顶管技术规程.pdf VIP
- 2025江苏徐州云龙区翠屏山街道残疾人之家管理服务人员岗位招聘1人笔试模拟试题及答案解析.docx VIP
- 施工HSE作业指导书.doc VIP
- 嘉兴市英语六年级小升初期末复习试卷.doc VIP
- 标准图集-08D800-7-民用电气设计与施工-室外布线.pdf VIP
- 中等职业学校三年发展规划2024-2026学年.docx VIP
- 场地租赁协议场地租赁合同.doc VIP
- 2025江苏徐州云龙区翠屏山街道残疾人之家管理服务人员岗位招聘1人笔试备考试题及答案解析.docx VIP
文档评论(0)