- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于研究与数据库研究概要
大数据研究什么? 从数据库的视角 分布式数据存储模型(包括索引)与查询引擎 分布式事务 从数据挖掘的角度 * 关于大数据研究 大数据还能研究什么? 以用户数据为核心的研究:必须保护用户隐私(隐私保护) 大数据的获取与质量保证 大数据评测基准 内存数据库 概率数据库 图模型数据库 * 更多的新名词 主动查询 自适应查询 迁移学习 * 本科生 硕士研究生 博士研究生 关于研究 关于大数据研究 如何进行我们的研究 我们的工作 1 2 3 4 关于如何开展研究 技术大牛:对研究领域发生的重大事情和经典方法有一个全面的掌握,即给你一篇领域内文章,你能区分它的内容有创新性与否 技术的革新者和理论的创新者 * 关于如何开展研究:研究工作实例 工作二 工作三 工作一 监督的论坛数据抽取 采用逻辑表达式描述抽取规则 高的抽取准确率和召回率 非监督的论坛数据抽取 论坛页面结构特征和论坛页面间关系特征 提高抽取自动化程度 非监督的论坛数据抽取 论坛页面结构特征和论坛页面内容特征 提升了抽取方法对不同论坛的适应能力 关于如何开展研究:起步 从Survey做起(做一个长远的打算) 从熟悉一个开源系统开始(做具体实际的事情) Hadoop Spark Redis LedisDB Cassandra Berkeley XML DB * 更多的开源系统:/ 研究资源 学会使用研究资源 中国计算机学会推荐国际刊物会议列表 /sites/ccf/biaodan.jsp?contentId=2567518742937 DBLP rmatik.uni-trier.de/~ley/db/ Microsoft Academic Search / Google ScholarShip / * 数据库的三大会议: SIGMOD VLDB ICDE 研究资源 Foundations and Trends in Databases 提供了计算机各领域的综述报告 数据库领域的杰出研究组 / /? / / /en-us/groups/db/ * 研究资源 A good tutorial Jeffrey D. Ullman. Mining of Massive Datasets. /~ullman/mmds.html * 关于如何开展研究 Start from a survey How to do a survey? Where are your interests? Who are in the fields? What are they doing? Giving a full report on the above things. Refining your tasks. Finding new viewpoints. * * 关于如何开展研究 质疑:在思想和方法要具有怀疑一切的精神 ,辩证接受 创新:找到自己的突破点,科研的核心不仅仅是解决问题,更重要的是能发现问题 对比分析:为你的怀疑找到充分的证据,学会站在巨人的肩膀上 好奇 质疑 对比 分析 创新 研究基础 入门基础 关系数据库基本理论:关系模型、关系规范化理论 数据结构:树型结构(B树等)、图型结构、散列技术 离散数学:一阶逻辑、集合论、代数、图论 概率与统计:条件概率、期望与方差、基本的概率分布 熟悉一门程序设计语言 * 研究基础 专门知识 半结构化数据:XML数据管理 高级数据结构:R树、VA-File、TF/IDF、等 分布式数据管理开源系统:Hadoop、Map/Reduce、Cassandra等 逻辑与数学基础:Bayesian规则、Chebyshev不等式、Markov不等式等 基础的数据挖掘和机器学习算法:SVM、K-means等 * 我们的工作 Web数据抽取与物化 基于用户生成内容的用户建模与评价 移动数据存储与查询管理(查询角度的多维度数据) 面向新型体系结构的数据管理(NUMA架构的CPU) 分布式的内存计算与内存数据库 分布式数据管理与计算架构(存储、索引、查询优化) 高并发度的用户访问解决方案(12306.cn, ) * 我们的工作 移动数据管理 Range Query Top-k Query Reverse top-k Query Nearest Neighbor Query Skyline Query kNN Query * 我们的工作 基于新型体系结构的数据管理 CPU的体系结构发生了变化:多核、大cache 并发操作时数据库提高操作性能的有效手段 * 我们的工作 * 我们的目标 2012-5-28 新疆 * 关于研究环境 32节点分布式计算环境 单节点配置 CPU:E5 * 2 内存:64GB 外存: 2TB 中心存储阵列 高低
文档评论(0)