关于研究与数据库研究概要.ppt

下载文档 降价啦

1
0
约4.87千字
约 54页
2017-03-08 发布于湖北
举报
版权申诉
保障服务

关于研究与数据库研究概要.ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于研究与数据库研究概要

大数据研究什么？从数据库的视角分布式数据存储模型（包括索引）与查询引擎分布式事务从数据挖掘的角度 * 关于大数据研究大数据还能研究什么? 以用户数据为核心的研究：必须保护用户隐私（隐私保护）大数据的获取与质量保证大数据评测基准内存数据库概率数据库图模型数据库 * 更多的新名词主动查询自适应查询迁移学习 * 本科生硕士研究生博士研究生关于研究关于大数据研究如何进行我们的研究我们的工作 1 2 3 4 关于如何开展研究技术大牛：对研究领域发生的重大事情和经典方法有一个全面的掌握，即给你一篇领域内文章，你能区分它的内容有创新性与否技术的革新者和理论的创新者 * 关于如何开展研究：研究工作实例工作二工作三工作一监督的论坛数据抽取采用逻辑表达式描述抽取规则高的抽取准确率和召回率非监督的论坛数据抽取论坛页面结构特征和论坛页面间关系特征提高抽取自动化程度非监督的论坛数据抽取论坛页面结构特征和论坛页面内容特征提升了抽取方法对不同论坛的适应能力关于如何开展研究：起步从Survey做起（做一个长远的打算）从熟悉一个开源系统开始（做具体实际的事情） Hadoop Spark Redis LedisDB Cassandra Berkeley XML DB * 更多的开源系统：/ 研究资源学会使用研究资源中国计算机学会推荐国际刊物会议列表 /sites/ccf/biaodan.jsp?contentId=2567518742937 DBLP rmatik.uni-trier.de/~ley/db/ Microsoft Academic Search / Google ScholarShip / * 数据库的三大会议： SIGMOD VLDB ICDE 研究资源 Foundations and Trends in Databases 提供了计算机各领域的综述报告数据库领域的杰出研究组 / /? / / /en-us/groups/db/ * 研究资源 A good tutorial Jeffrey D. Ullman. Mining of Massive Datasets. /~ullman/mmds.html * 关于如何开展研究 Start from a survey How to do a survey? Where are your interests? Who are in the fields? What are they doing? Giving a full report on the above things. Refining your tasks. Finding new viewpoints. * * 关于如何开展研究质疑：在思想和方法要具有怀疑一切的精神，辩证接受创新：找到自己的突破点，科研的核心不仅仅是解决问题，更重要的是能发现问题对比分析：为你的怀疑找到充分的证据，学会站在巨人的肩膀上好奇质疑对比分析创新研究基础入门基础关系数据库基本理论：关系模型、关系规范化理论数据结构：树型结构（B树等）、图型结构、散列技术离散数学：一阶逻辑、集合论、代数、图论概率与统计：条件概率、期望与方差、基本的概率分布熟悉一门程序设计语言 * 研究基础专门知识半结构化数据：XML数据管理高级数据结构：R树、VA-File、TF/IDF、等分布式数据管理开源系统：Hadoop、Map/Reduce、Cassandra等逻辑与数学基础：Bayesian规则、Chebyshev不等式、Markov不等式等基础的数据挖掘和机器学习算法：SVM、K-means等 * 我们的工作 Web数据抽取与物化基于用户生成内容的用户建模与评价移动数据存储与查询管理（查询角度的多维度数据）面向新型体系结构的数据管理（NUMA架构的CPU）分布式的内存计算与内存数据库分布式数据管理与计算架构（存储、索引、查询优化）高并发度的用户访问解决方案（12306.cn, ） * 我们的工作移动数据管理 Range Query Top-k Query Reverse top-k Query Nearest Neighbor Query Skyline Query kNN Query * 我们的工作基于新型体系结构的数据管理 CPU的体系结构发生了变化：多核、大cache 并发操作时数据库提高操作性能的有效手段 * 我们的工作 * 我们的目标 2012-5-28 新疆 * 关于研究环境 32节点分布式计算环境单节点配置 CPU：E5 * 2 内存：64GB 外存： 2TB 中心存储阵列高低