- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算技术及其应用 - 云计算论坛
妩媚人生 / 大规模数据并行算法 海量数据挖掘算法研究发现: 大数据隐含着更准确的事实 信息检索、自然语言理解和机器学习的三个要素: 数据,特征,与算法 2001, Banko and Brill 发表了一篇自然语言领域的经典研究论文,探讨训练数据集大小对分类精度的影响,发现数据越大,精度越高;更有趣的发现是,他们发现当数据不断增长时,不同算法的分类精度趋向于相同,使得小数据集时不同算法在精度上的差别基本消失! 结论引起争论:算法不再要紧,数据更重要!不再需要研究复杂算法,找更多数据就行了! 大规模数据并行算法 海量数据隐含着更准确的事实 2001年,一个基于事实的简短问答研究, 如提问:Who shot Abraham Lincoln?在很大的数据集时,只要使用简单的模式匹配方法,找到在“shot Abraham Lincoln”前面的部分即可快速得到准确答案:John Wilkes Booth 2007, Brants et al. 描述了一个基于2万亿个单词训练数据集的语言模型,比较了当时最先进的Kneser-Ney smoothing 算法与他们称之为“stupid backoff “ (简单退避)的简单算法,最后发现,后者在小数据集时效果不佳,但在大数据集时,该算法最终居然产生了更好的语言模型! 结论:大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果! 大规模数据并行算法 中科院计算所智能信息重点实验室何清教授进行了基于MapReduce的K-Means聚类、分类、和关联规则挖掘等海量数据挖掘并行算法、以及常用的数据统计分析算法的研究;并基于这些算法开发了一个并行分布式数据挖掘工具平台PDMiner,其中大规模数据存储在HDFS上,且通过MapReduce实现各种并行数据预处理和数据挖掘算法。 Parallel K-means clustering based on MapReduceZhao, Weizhong (Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, China); Ma, Huifang; He, Qing Source: Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 5931 LNCS, p 674-679, 2009, Cloud Computing - First International Conference, CloudCom 2009, Proceedings Parallel implementation of classification algorithms based on mapreduceHe, Qing (Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China); Zhuang, Fuzhen; Li, Jincheng; Shi, Zhongzhi Source: Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 6401 LNAI, p 655-662, 2010, Rough Set and Knowledge Technology - 5th International Conference, RSKT 2010, Proceedings The high-activity parallel implementation of data preprocessing based on mapreduceHe, Qing (Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100
您可能关注的文档
- 中国古代女性同性恋 - 树德科技大学应用社会学院.pdf
- 中国制造业省际间资源配置效率演化: .pdf
- 中国主要河流年径流序列随机变化基本规律的初步研究 - 水科学进展.pdf
- 中国传统文化对德育工作的影响 2 - 富顺二中.ppt
- 中国国有企业改革的实践进程( 1979 ) 2003 年).pdf
- 中国国有企业的性质与改革逻辑 - 经济研究.pdf
- 中国国有企业及并购条例.pdf
- 中国城市贫困情况介绍 - 中国国际扶贫中心.ppt
- 中国国有企业员工关系的困境 - 华东经济管理.pdf
- 中国城市的阶层结构与中产阶层的定位 - 登录-社会学研究.pdf
- 大学物理 1有关事项,质点运动学学习资料.ppt
- 西方文论 第十讲-康德的《判断力批判》学习资料.ppt
- 中国现代文学史 朱栋霖 课件 第十七章 40年代文学思潮学习资料.pptx
- 中国现代文学史 朱栋霖 课件 第三十四章 90年代小说述评学习资料.pptx
- 西方文论 第九讲 德国启蒙主义学习资料.ppt
- 中国现代文学史 朱栋霖 课件 第三章 20年代小说 (二)学习资料.pptx
- 现代汉语课件 2 第五章第二节词类(上)(划分词类的依据)学习资料.ppt
- 2024-2025学年高二上学期英语期末模拟卷一(新高考地区)含答案解析.pdf
- 专题17 5重点和7句话+61句能为作文增色的精彩诗文-2023年中考语文热点作文素材解读及运用.docx
- 专题16 九上Units 7-8(知识梳理+常考易错点归纳+强化提升练)(原卷版)- 备战2024年中考英语一轮复习考点帮(江苏专用).docx
文档评论(0)