大数据分析系统需求.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析系统需求 天津绍闻迪康科技咨询有限公司 2018/5/28 仅为需求基本框架,需要根据贵公司产品、技术路线具体面议。 目录 TOC \o 1-3 \h \z \u 一、系统定位 2 二、功能模块 3 2.1爬虫系统 3 2.1.1数据源 3 2.1.2爬虫系统功能 3 2.2数据处理、存储、计算系统 4 2.2.1数据处理模块 4 2.2.2数据存储模块 4 2.2.3数据计算模块 5 2.3数据分析、可视化系统 9 2.4对外接口 10 2.4.1会员制体系 10 2.4.2其他 10 2.5其他 11 2.5.1数据痕迹 11 2.5.2信息安全 11 2.5.3注意事项 11 1、系统定位 从数据接入到数据应用,我们需要【大数据分析系统】包括几大功能模块: (1)爬虫系统 (2)数据处理、存储、计算系统 (3)数据人工智能分析、可视化系统 (4)外部接口 其中第(3)模块是核心,需要结合我们公司业务方向建设相关的数学模型,进行人工智能的自动分析。 爬虫系统可以从指定网站自动的进行信息的抓取,对数据库中的已有词条进行更新或新建,或者从全站按照关键词抓取信息,更新数据库中词条,爬虫搜集到的数据也需要存储到系统中。 数据库系统可以将公司现有资料分库录入系统,生成词条,词条之间相互关联,可以实现跳转,可视化查看;存储爬虫得到的数据。数据库中的词条或者数据源大多是国外的,例如美国,日本等,涉及到的人物或者其它词条会有多种语言的表达。 系统可以结合爬虫的数据、库中本来的数据按照一定内容生成词条自身的时间轴,多库之间词条的的关系图。系统需要与外部互联的接口,包括微信平台,天蝎系统,邮件营销平台,调查问卷分析平台。 2、功能模块 2.1爬虫系统 2.1.1数据源 网站,可能是信息变化不大的静态网站,也可能是信息在实时更新的动态网站,例如博客或者论坛。网站库不定时更新。 数据库,需要模拟登陆,从一些数据库中抓取数据,例如论文或者专利数据库等,可能是从国内或者国外的数据库网站中。 自媒体,例如Facebook,twitter等,需要从中抓取一些个人信息,例如一个人的邮箱,可能需要与公司已有的天蝎系统结合,从天蝎系统已经分析出的个人信息Excel中抓取所需信息。(可具体商议) 2.1.2爬虫系统功能 爬虫系统需要从指定数据源网站中实时抓取信息,通过实体抽取,和数据库中的词条进行关联,自动更新数据库中已有的词条。 可以设定关键词,从全站以及所有数据源中抓取信息,进行数据处理后,按照词条准确匹配,存入数据库; 可以按照用户指定的关键词在指定的网站中抓取信息,生成结果。 爬虫得到的信息生成的报告等可以进行导出。 数据处理在更新或增加词条时需要将抓取到的信息与词条中的属性进行匹配,将对应的信息录入。可以是实时更新,自动匹配更新;可以是非实时的,有一定的人工干预。由于库中数据有一大部分是国外的,有一些属性的显示方式并不唯一,需要有一定的匹配规则。 2.2数据处理、存储、计算系统 2.2.1数据处理模块 系统需要可以对导入系统的文档等数据和爬虫得到的数据进行数据的预处理,进行分词切词,实体抽取(可能为中英日文)。 需要可以自动增加新词条,对比现有词条实现词条的实时更新;或者也可以非实时更新可以有一定的人工干预,进行词条的半自动化增长。处理过程需要考虑处理的规则和词条匹配的规则。 2.2.2数据存储模块 存储在数据库中的数据分为几部分: 结构化数据 分词条存储在数据库中,词条分为:调研人物库,专家库,论文库,专利库,领域库,专题库,快讯库。还需要存储词条的一些非业务属性:词条的负责人,参与人,时间周期,存储词条本身的时间轴,上传的联系痕迹等。 非结构化存储 爬虫来的网页,文档(PDF、Word、Excel、PPT、图片、视频)图片,视频。 2.2.3数据计算模块 数据库系统含有以下词条库: (1)调研人物库:生成人物简历,信息包括: 照片,姓名。 基本信息:单位,语言,国别,生日,所在地,曾住地。 联系方式:电话 传真 邮箱 即时通讯方式 教育经历:时间 学习单位 专业 学历/学位 工作经历:时间 工作单位 职位 备注 官方网站:官方人物数据库 社会人物数据库 学术情况:研究领域 论文情况:包括引用次数的表格和具体论文。 专利情况 编写书籍 参与会议表格 所受奖励表格 合作项目:次数 跨度 涉及单位 具体合作事件 社会活动:媒体采访 政治活动 来华交流 国内外自媒体:在国外社交网站上的交友列表 人脉关系:总结(共多少人等) 姓名、职位的表格 家庭情况 调研总结及合作建议:调研总结 合作建议 原始信息来源网站 原始文档 (2)专家库

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档