- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
导读你想象中、期望中的数据挖掘是什么样子的?什么是数据挖掘?学习数据挖掘需要哪些基础?数据挖掘课程的内容结构是怎样的?SAS简介孙增辉
你想象中、期望中的数据挖掘是什么样子的?
数据挖掘?
揭示了部分外在表象特征。但是如果认为只是这样,tooyoung,toosimple…
什么是数据挖掘?数据挖掘(Datamining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。
文本日志文章网页数据库社交网站数据挖掘新价值
增长
学习数据挖掘需要哪些基础?在学习数据挖掘之前应该明白几点:
数据挖掘目前在中国的尚未流行开,犹如屠龙之技。
数据初期的准备通常占整个数据挖掘项目工作量的80%左右。
数据挖掘本身融合了统计学、数据库、机器学习等学科,并不是新的技术。
数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。
数据挖掘项目通常需要重复一些毫无技术含量的工作。
一、目前国内的数据挖掘人员工作领域大致可分为三类。
1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。3)科学研究方向:在高校、科研单位、医药企业研究院等高大上科研机构研究新算法效率改进及未来应用。二、说说各工作领域需要掌握的技能。
(1).数据分析师
需要有深厚的数理统计基础,但是对程序开发能力不做要求。需要熟练使用主流的数据挖掘(或统计分析)工具如BusinessAnalyticsandBusinessIntelligenceSoftware(SAS)、SPSS、EXCEL等。需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。行业常识的精通,能让你避免落入纯粹数学计算的误区。数据挖掘的最终目标是商业价值,纯粹的数学变换,会让整个数据挖掘工作变得没有商业意义。经典图书推荐:《概率论与数理统计》、《统计学》推荐DavidFreedman版数据分析的理论基础,必须。《业务建模与数据挖掘》、《数据挖掘导论》,成熟的数据挖掘方法论产品,描述了做数据挖掘的路径。《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用》、《Excel2007VBA参考大全》、《IBMSPSSStatistics19StatisticalProceduresCompanion》等。工具书。
(2).数据挖掘工程师
需要理解主流机器学习算法的原理和应用。需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。数据库是非常重要的数据源,你至少能把数据读取出来。经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《Python标准库》、《thinkinginJava》、《ThinkinginC++》、《数据结构》等。读了这些书不一定能让你会做数据挖掘,但是不读就会像凭空画老虎。
(3).科学研究方向
需要深入学习数据挖掘的理论基础,包括关联规则挖掘(Apriori和FPTree)、分类算法(C4.5、KNN、LogisticRegression、SVM等)、聚类算法(Kmeans、SpectralClustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
相对SAS、SPSS来说R语言更适合科研人员TheRProjectforStatisticalComputing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web工程调用hadoop集群。
需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,AssociationfortheAdvancementofArtificialIntelligence,ICDM等等;还有数据挖掘相关领域期刊:ACMTransactionsonKnowledgeDiscoveryfromData,IEEETransactionsonKnowledgeandDataEngineering,JournalofMachineLearnin
您可能关注的文档
最近下载
- 初中综合实践活动教学设计 种植花生.docx VIP
- 医疗废物分类管理.pptx VIP
- 塔吊信号工试题及答案.docx VIP
- 2025《某大学10KV变电所供配电系统电气设计报告》19000字.docx VIP
- DZT 0295-2016 土地质量地球化学评价规范.pdf VIP
- 运输过程中出现损坏的处理措施.doc VIP
- 《铁血丹心》完美演奏版简谱钢琴谱 简谱双手数字完整版原版.pdf VIP
- 2025年高中数学_数列通项公式的求法教学设计学情分析教材分析课后反思.pdf VIP
- 海南省公安厅辅警真题.pdf
- 新人教版高中数学必修第一册第四章指数函数与对数函数全套PPT课件教案讲义.pptx
文档评论(0)