项目评审PPT(汇总).ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
门户官网 业务系统 数据交互 PMS(统一门户管理) CSE(云爬虫聚合引擎) 多门户数据同步、适配呈现 提供一种创新服务模式,通过降低客户成本、快捷的为终端用户提供基于实现企业官网(及BS结构信息化系统)到APP及微信公众服务号等移动门户的信息实时聚合同步,无需原有网站或信息化系统提供开发接口,只需要通过简单部署配置及可实现官网移动化平移,部署后企业无需对聚门户系统进行信息维护,只需要维护原有网站或信息化系统即可。 2.5业务流程图 最新.课件 技术(业务)流程图 * 2.5企业级-聚门户平台 数据输入 信息源抓取 文件传输 数据库导入导出 B2C 微博 微信 其他 数据源 数据采集 数据管理 实时处理 实时发布 数据查询 应用配置 高可用 版本控制 云平台 部署 配置 迁移 备份 查询 服务器 缓存 数据库存储 过滤 配置 分析 标准化 实时索引 主键查询 多级索引 统计汇总 过滤 分析 结构化 统计 标准化 统一 业务报表 商业格式 二次交互开发 OA 其他 天猫 行业情报 内部数据 互联网开放数据 其他 数据挖掘 商业建模 批量索引 用户分群 数据挖掘 第三方数据 第三方数据 第三方数据 处理流程 处理模型 论坛 京东 ERP 门户网站 O2O 最新.课件 * 2.5技术流程图 技术(原理)流程图 最新.课件 * 2.6技术路线 最新.课件 聚门户为终端用户呈现的产品模块,主要有以下三类(可以全部或独立的提供给终端用户):APP、微信公众帐号(微博即将实现)、移动WAP网站(对于连传统WEB网站也没有的新兴企业也可提供传统门户网站模板化建设)。上述产品模块与部署在企业侧或者SAAS云平台上的PMS(聚门户统一门户后台管理系统)和CSE(云爬虫信息聚合引擎)通过互联网或VPN对接,其中PMS为每一政企单位用户提供了后台的配置操作和门户管理,而CSE完成对政企单位官网及BS结构业务系统的信息聚合。 技术原理图 产品流程图 * 最新.课件 聚门户爬虫技术描述 可定制模块为用户提供了爬虫代码生成界面,并使用三种不同的模式帮助用户快速生成爬虫代码。 标准化模块完全实现了W3C制定的“XQuery Scripting Extension 1.0”(下面简称XQSX)标准并以此脚本作为爬虫定义语言,XQSX做为XML数据查询利器XQUERY的补充很好的弥补了XQUERY的不足,它在XQUERY的基础上添加了诸多语言元素,如声明,控制流以及用户自定义过程,从而使XQUERY在保持高效数据解析能力的同时成为真正意义上的结构化XML查询语言。 丰富的预定义模块,聚门户系统爬虫模块为最终用户提供了丰富的API接口供用户在生成自己爬虫程序时使用。 可扩展性模块在提供了极其丰富的内建接口的基础上,也为用户提供了二次开发接口,最终用户可以利用该接口为爬虫模块提供更多的用户定制功能,爬虫模块本身编写的过程中混合使用了C++、Java两种语言,并提供了统一的扩展接口,因此用户可以根据自己的喜好,自由的选择上述两种语言作为用户定制功能的开发语言。 支持爬虫并发:要求引擎支持不少于同时对100000个URL做实时爬虫搜索 支持关键词匹配筛选搜索 支持搜索结果按某种标准排序:时间顺序、关键词匹配程度 支持多种搜索引擎模块,不同企业客户的云爬虫可以挂接不同的引擎模块 支持一定的处理功能:去重、筛选、模板适配 2.7爬虫技术描述 * 1、本项目采用基于HADOOP云计算技术,建立分布式云计算系统的基础架构,充分利用云计算和云存储实现了分布式文件系统(Hadoop Distributed File System),简称HDFS。 基于HADOOP的集群高速运算和容错性的威力,使得廉价的PC服务器的组合性能发挥出支撑海量并发和存储的性能。构件了爬藤阅读的超大规模数据聚合和支持大并发用户的特性。 2、本项目中采用了FINGER PRINT冗余消除技术,该技术主要用来实现过滤互联网上重复数据过滤,该技术带来互联网数据业和整个存储业的革命。可以从根本上减少存储占用的空间和用户的磁盘驱动器数量,减轻人力、能源、电力资源等方面的开销,从而大幅度的节约存储成本。 另外,重复数据删除可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据复制大量节省网络带宽。 3、该项目还采用了信息采集、WEB清洗和相关反馈技术,来确保网页正文采集的准确度。 同时,聚门户产品已经经过严格的开发测试后投入试商用,具备充分的实验依据。 2.8技术实现依据(1) 最新.课件 * 2.8核心技术实现(2) 最新.课件 1、成熟及已攻克关键技术: 基于云平台的海量数据检索程序,它利用思柏瑞公司的云架构为用户提供一种高度可定制,易维护,智能化的数据获取方式。云爬

文档评论(0)

liuxiaoyu98 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档