- 52
- 0
- 约小于1千字
- 约 10页
- 2017-06-02 发布于湖北
- 举报
大数据的来源 社交媒体 如微博、微信、人人网、facebook等,通过这些大众常用的社交平台,可以分析用户平时在这些社交媒体上的行为动向,归纳出用户的喜好或关注点,这些能够为企业挖掘用户需求提供重要依据。 越来越多的机器配备了连续测量和报告运行情况的装置。这些机器传感数据也属于大数据的范围。 一些视频、音频设备等产生的数据 如一些大型超市,通过监控器观察消费者在超市购物的整个流程,从而对商品进行合理摆放,促进对某些商品的间接促销。 企业内部本身的一些行业数据等等。 大数据的数据采集方法 系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。 网络数据采集方法:对非结构化数据的采集 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。 其他数据采集方法 对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。 * * * * * * * *
您可能关注的文档
- 城市轨道交通第2章轨道交通类型和形式.ppt
- 城市污水处理厂中全氟化合物的存在与去除效果研究.pdf
- 埕岛油田地质灾害与其对海底管线的影响.ppt
- 厨师烘焙面包炉及烘烤炉价格.docx
- 处事和说话技巧.doc
- 垂直搜索引擎系统的设计和实现.pdf
- 大工12春《单片机原理与应用》在线作业三.pdf
- 大工14秋《土力学和地基基础》在线作业3作业和答案.doc
- 大花蕙兰的养殖方法及注意事项.docx
- 大连港湾壹号信及居公寓.ppt
- 2025年北京市门头沟区中考一模英语试题.docx
- 2025年北京市门头沟区中考二模英语试题.docx
- 2025年北京市丰台区中考二模英语试题.docx
- 2025年中考英语考前冲刺模拟卷 (北京专用) 解析卷.docx
- 2025年中考英语考前冲刺模拟卷 (北京专用) 原卷.docx
- 2025年肩颈按摩仪行业社媒趋势数据分析.docx
- 2025年人身险行业信用回顾与2026年展望.docx
- 合同法买卖合同培训课件.ppt
- 2025年全球食物系统与SDG研究报告-食物供给、食者健康、生态平衡的整体治理.docx
- 2025下半年四川乐山市川投峨眉铁合金(集团)有限责任公司对考前自测高频考点模拟试题最新.docx
原创力文档

文档评论(0)