一种基于海量数据的信息云系统及其关键技术研究.pdfVIP

下载本文档

15
0
约7.19千字
约 7页
2017-09-12 发布于重庆
举报
版权申诉

一种基于海量数据的信息云系统及其关键技术研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

醺；j毒舞袋统，其主要通过采集互联网信息，并对信息进行聚合、分交网等：接人企业内部的结构化数据，如用户数据等。数据析，最终根据用户的需求完成个性化的信息推送和呈现．采集层根据用户的订阅信息进行定向采集．并将采集到的为用户或企业提供决策支持．使得散乱、公开的信息管理数据上传到分布式文件系统。更加智能化、标准化、精细化和可视化。智能分析层主要完成对采集的数据的处理、分析、挖 2．1 智能信息云系统的核心服务掘等数据分析功能，包含数据加工、文本挖掘、社交网络分智能信息云系统是离线的非实时系统，其核心业务过析、个性化推荐4个模块。智能分析层根据采集的数据以程包含信息获取、信息训练和信息博弈3个部分。及用户的订阅需求对数据进行加工处理．完成数据到知识 (1)信息获取的处理过程。信息获取主要是识别出用户输入的信息，并根据用户 (2)智能处理引擎在本系统的历史行为．将用户输入信息转换为对信息源的智能处理引擎提供语义分析、图分析、逻辑推理、专订阅指令，系统根据获取的订阅指令自动到互联网上定向家知识库等功能，采用人工智能相关算法完成。根据用户爬取相关的内容。输入的信息，结合专家知识库、用户画像库，完成对用户以 (2)信息训练及用户需要的信息的准确定位。信息训练的过程就是对信息进行聚合和加工的过程， (3)人机交互涉及数据净化、数据去重、主题发现等，经过系统处理后的人机交互主要完成用户和信息之间的友好交互过程，数据基本是符合用户要求的结构化和可视化的数据，但是本系统提供自动化的推送服务，对于一次订阅进行增量推这些信息不一定能完全符合用户的期望，为了校正训练信送，只要存在用户感兴趣的信息即推送，推送方式支持邮息的期望度，系统自动监测用户对信息的使用行为，并根件、微博、页面查询等方式。同时，对于企业用户，本系统提据用户的使用行为对信息进行回归处理。整个过程是一个供统计报表、KP1分析、趋势预测等可视化功能，能很好地自学习的过程．通过大量的数据构建自反馈的训练集，就完成支撑企业对信息的掌控。能识别出用户关心的、期望度最高的信息。 3 智能信息云的关键技术 (3)信息博弈系统根据用户订阅策略会爬取海量的数据，希望将有 3．1 网络爬虫价值的信息提供给用户，并不是将海量的信息充斥用户的网络爬虫是一种按照一定规则，将分布在不同服务器屏幕．让用户自己再花大量的时间进行处理。系统需要提和数据中心的网页爬取下来．存储在本地供本地程序使供多层次的信息过滤手段，信息与信息之间是需要博弈用。目前，主流的搜索引擎会采用网络爬虫的模式，扩展自的．通过不停的训练，会对信息进行打分，将高价值的信息己的网页库和索引库。网络爬虫的工作原理：从一个初始推送给相应的用户。的种子URL集合出发，从中获取一个URL，下载网页，从 2．2 智能信息云系统的总体架构此网页中抽取所有的URL，并将新的URL添加到URL集智能信息云系统采用分层、分系统的设计思路和组件合中；然后，爬虫从URL集中获取另一个URL重复以上化的设计理念。总体架构如图1所示，智能信息云系统主的过程，直到爬虫达到某种停止标准为止l31。要南信息分析引擎、智能处理引擎、人机交互3部分组成。网络爬虫的