- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
醺 ;j毒舞袋
统,其主要通过采集互联网信息,并对信息进行聚合、分 交网等:接人企业内部的结构化数据,如用户数据等。数据
析,最终根据用户的需求完成个性化的信息推送和呈现. 采集层根据用户的订阅信息进行定向采集.并将采集到的
为用户或企业提供决策支持.使得散乱、公开的信息管理 数据上传到分布式文件系统。
更加智能化、标准化、精细化和可视化。 智能分析层主要完成对采集的数据的处理、分析、挖
2.1 智能信息云系统的核心服务 掘等数据分析功能,包含数据加工、文本挖掘、社交网络分
智能信息云系统是离线的非实时系统,其核心业务过 析、个性化推荐4个模块。智能分析层根据采集的数据以
程包含信息获取、信息训练和信息博弈3个部分。 及用户的订阅需求对数据进行加工处理.完成数据到知识
(1)信息获取 的处理过程。
信息获取主要是识别出用户输入的信息,并根据用户 (2)智能处理引擎
在本系统的历史行为.将用户输入信息转换为对信息源的 智能处理引擎提供语义分析、图分析、逻辑推理、专
订阅指令,系统根据获取的订阅指令 自动到互联网上定向 家知识库等功能,采用人工智能相关算法完成。根据用户
爬取相关的内容。 输入的信息,结合专家知识库、用户画像库,完成对用户以
(2)信息训练 及用户需要的信息的准确定位。
信息训练的过程就是对信息进行聚合和加工的过程, (3)人机交互
涉及数据净化、数据去重、主题发现等,经过系统处理后的 人机交互主要完成用户和信息之间的友好交互过程,
数据基本是符合用户要求的结构化和可视化的数据,但是 本系统提供 自动化的推送服务,对于一次订阅进行增量推
这些信息不一定能完全符合用户的期望,为了校正训练信 送,只要存在用户感兴趣的信息即推送,推送方式支持邮
息的期望度,系统自动监测用户对信息的使用行为,并根 件、微博、页面查询等方式。同时,对于企业用户,本系统提
据用户的使用行为对信息进行回归处理。整个过程是一个 供统计报表、KP1分析、趋势预测等可视化功能,能很好地
自学习的过程.通过大量的数据构建自反馈的训练集,就 完成支撑企业对信息的掌控。
能识别出用户关心的、期望度最高的信息。
3 智能信息云的关键技术
(3)信息博弈
系统根据用户订阅策略会爬取海量的数据,希望将有 3.1 网络爬虫
价值的信息提供给用户,并不是将海量的信息充斥用户的 网络爬虫是一种按照一定规则,将分布在不同服务器
屏幕.让用户 自己再花大量的时间进行处理。系统需要提 和数据中心的网页爬取下来.存储在本地供本地程序使
供多层次的信息过滤手段,信息与信息之间是需要博弈 用。目前,主流的搜索引擎会采用网络爬虫的模式,扩展自
的.通过不停的训练,会对信息进行打分,将高价值的信息 己的网页库和索引库。网络爬虫的工作原理:从一个初始
推送给相应的用户。 的种子URL集合出发,从中获取一个URL,下载网页,从
2.2 智能信息云系统的总体架构 此网页中抽取所有的URL,并将新的URL添加到URL集
智能信息云系统采用分层、分系统的设计思路和组件 合中;然后,爬虫从URL集中获取另一个URL重复以上
化的设计理念。总体架构如图1所示,智能信息云系统主 的过程,直到爬虫达到某种停止标准为止l31。
要南信息分析引擎、智能处理引擎、人机交互3部分组成。 网络爬虫的
原创力文档


文档评论(0)