项目评审PPT（汇总）.ppt

下载文档 降价啦

460
0
约1.12万字
约 49页
2020-11-30 发布于湖北
举报
版权申诉
保障服务

项目评审PPT（汇总）.ppt

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

门户官网业务系统数据交互 PMS(统一门户管理) CSE(云爬虫聚合引擎) 多门户数据同步、适配呈现提供一种创新服务模式，通过降低客户成本、快捷的为终端用户提供基于实现企业官网（及BS结构信息化系统）到APP及微信公众服务号等移动门户的信息实时聚合同步，无需原有网站或信息化系统提供开发接口，只需要通过简单部署配置及可实现官网移动化平移，部署后企业无需对聚门户系统进行信息维护，只需要维护原有网站或信息化系统即可。 2.5业务流程图最新.课件技术（业务）流程图 * 2.5企业级-聚门户平台数据输入信息源抓取文件传输数据库导入导出 B2C 微博微信其他数据源数据采集数据管理实时处理实时发布数据查询应用配置高可用版本控制云平台部署配置迁移备份查询服务器缓存数据库存储过滤配置分析标准化实时索引主键查询多级索引统计汇总过滤分析结构化统计标准化统一业务报表商业格式二次交互开发 OA 其他天猫行业情报内部数据互联网开放数据其他数据挖掘商业建模批量索引用户分群数据挖掘第三方数据第三方数据第三方数据处理流程处理模型论坛京东 ERP 门户网站 O2O 最新.课件 * 2.5技术流程图技术（原理）流程图最新.课件 * 2.6技术路线最新.课件聚门户为终端用户呈现的产品模块，主要有以下三类（可以全部或独立的提供给终端用户）：APP、微信公众帐号（微博即将实现）、移动WAP网站（对于连传统WEB网站也没有的新兴企业也可提供传统门户网站模板化建设）。上述产品模块与部署在企业侧或者SAAS云平台上的PMS（聚门户统一门户后台管理系统）和CSE（云爬虫信息聚合引擎）通过互联网或VPN对接，其中PMS为每一政企单位用户提供了后台的配置操作和门户管理，而CSE完成对政企单位官网及BS结构业务系统的信息聚合。技术原理图产品流程图 * 最新.课件聚门户爬虫技术描述可定制模块为用户提供了爬虫代码生成界面，并使用三种不同的模式帮助用户快速生成爬虫代码。标准化模块完全实现了W3C制定的“XQuery Scripting Extension 1.0”（下面简称XQSX）标准并以此脚本作为爬虫定义语言，XQSX做为XML数据查询利器XQUERY的补充很好的弥补了XQUERY的不足，它在XQUERY的基础上添加了诸多语言元素，如声明，控制流以及用户自定义过程，从而使XQUERY在保持高效数据解析能力的同时成为真正意义上的结构化XML查询语言。丰富的预定义模块，聚门户系统爬虫模块为最终用户提供了丰富的API接口供用户在生成自己爬虫程序时使用。可扩展性模块在提供了极其丰富的内建接口的基础上，也为用户提供了二次开发接口，最终用户可以利用该接口为爬虫模块提供更多的用户定制功能，爬虫模块本身编写的过程中混合使用了C++、Java两种语言，并提供了统一的扩展接口，因此用户可以根据自己的喜好，自由的选择上述两种语言作为用户定制功能的开发语言。支持爬虫并发：要求引擎支持不少于同时对100000个URL做实时爬虫搜索支持关键词匹配筛选搜索支持搜索结果按某种标准排序：时间顺序、关键词匹配程度支持多种搜索引擎模块，不同企业客户的云爬虫可以挂接不同的引擎模块支持一定的处理功能：去重、筛选、模板适配 2.7爬虫技术描述 * 1、本项目采用基于HADOOP云计算技术，建立分布式云计算系统的基础架构，充分利用云计算和云存储实现了分布式文件系统（Hadoop Distributed File System），简称HDFS。基于HADOOP的集群高速运算和容错性的威力，使得廉价的PC服务器的组合性能发挥出支撑海量并发和存储的性能。构件了爬藤阅读的超大规模数据聚合和支持大并发用户的特性。 2、本项目中采用了FINGER PRINT冗余消除技术，该技术主要用来实现过滤互联网上重复数据过滤，该技术带来互联网数据业和整个存储业的革命。可以从根本上减少存储占用的空间和用户的磁盘驱动器数量，减轻人力、能源、电力资源等方面的开销，从而大幅度的节约存储成本。另外，重复数据删除可以减少在网络中传输的数据量，进而降低能量消耗和网络成本，并为数据复制大量节省网络带宽。 3、该项目还采用了信息采集、WEB清洗和相关反馈技术，来确保网页正文采集的准确度。同时，聚门户产品已经经过严格的开发测试后投入试商用，具备充分的实验依据。 2.8技术实现依据（1）最新.课件 * 2.8核心技术实现（2）最新.课件 1、成熟及已攻克关键技术：基于云平台的海量数据检索程序，它利用思柏瑞公司的云架构为用户提供一种高度可定制，易维护，智能化的数据获取方式。云爬