- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电信科学2I){.刚 ≤套
智能数据分析的方向发展,并已成为智能数据分析技术的 (4)计算时问的限制
一 个重要源泉。另外,在大数据时代.随着数据产生速度的 很多应用,如自动导航或智能推荐等,都需要进行实
持续加快.数据的体量有了前所未有的增长,而需要分析 时预测。在这些情形下由于推理速度的限制,需要推理算
的新的数据种类也在不断涌现,如文本的理解、文本情感 法的并行化。决定系统计算时间的因素一般有两个:一是
的分析、图像的检索和理解、图形和网络数据的分析等,机 单任务的处理时间,该情况下计算时间的缩短可以通过提
器学习研究领域涌现了很多新的研究方向.很多新的机器 高系统单机的处理能力和吞吐量来解决:另一个因素是时
学习方法被提出并得到了广泛应用。比如,考虑如何利用 延,在绝大多数应用场合,任务由多个相互关联的进程组
未标识数据的半监督学习 (semi.supervisedlearning)I2l3】,有 成,不同进程的处理时间长短不一,任务整体的处理实际
效解决训练数据质量问题;提高学习结果的泛化能力的集 有待于各个进程的结果.如某一进程处理时间延长会造成
成学习(integratedlearning)4[1;在不同的领域进行知识迁 时延.整个任务的处理速度会随着时延的增加快速下降。例
移的迁移学习(transferlearning)等,吸引了广泛的研究和 如,自动导航需要基于多个传感器做出路径规划的决策;智
兴趣。 能推荐需要综合用户的特征分析、历史记录等。处理能力、
机器学习要成为大数据时代的有效分析方法.还应特别 吞吐量和时延的限制并不总是兼容,但对于两者来说,采用
解决可扩展性问题.即如何处理大规模数据的问题.这时需 高度并行化的硬件(如GPU或者FPGA等)十分有效。
要考虑采用并行化的方法。大数据时代的特点及要求如下。 f5)预测级联
(1)大量的数据实例 有些应用要求顺序、互相依赖的预测,这些应用具有高
在很多领域,如互联网和金融领域,训练实例的数量 度复杂的联合输出空间,并行化在这种情形下可以大大提高
是非常大的,每天汇合几十亿事件的数据集是很常见的。 推理的速度。很多现实中的问题如物体追踪、话音识别以及
另外,越来越多的设备包括传感器,持续记录观察的数据 机器翻译.都要求执行一系列互相依赖的预测,形成预测级
可以作为训练数据,这样的数据集可以轻易地达到几百 联。如果一个级联作为一个推理任务,就会有一个很大的联
TB。有效处理大数据集的比较好的方式是组合服务器群的 合输出空间,因为计算复杂性的增加,通常会导致非常高的
存储和带宽。最近提出的几个计算框架如MapReduce和 计算成本。在预测任务之间的互相依赖性通常是通过对单个
DryadLINQ,让大数据集的计算变得更加容易。这些框架通 任务进行阶梯式的并行化以及自适应的任务管理来实现的。
过简单的、天然可并行化的语言原语将编程框架和使用高 (6)模型选择和参数扫描
容量存储及执行平台的能力有效地组合在一起。 调整学习算法的超参数以及统计重要性评估要求多
(2)输人数据的高维度 次执行学习和推理,这些过程属于所谓的可并行化应用,
机器学习的应用包括 自然语言、图形或者视频.这些 本身就非常适合并发执行。在参数扫描中,学习算法在配
应用中的数据实例是由很多数量的特征来表示的.远远超 置不同的同一个数据集上运行多次,然后在一个验证集上
过了目前常见的能够轻松处理的特征量级别。在特征空间 进行评估:在统计重要性测试过程中如交叉验证或者
进行并行计算是可以将计算扩展得更丰富的表示方法.还
原创力文档


文档评论(0)