- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据库研究进展*周傲英 若干数据库前沿技术的理解和思考 周傲英 复旦大学 提纲 当前数据库研究重点的变化 三个重要的数据库研究问题 对等计算环境下的数据管理 流数据管理和挖掘 XML 数据管理和 Web 服务 我们正在进行的工作 当前数据库研究的重点 静止的查询和变化的数据 连续查询(continuous query) 流数据管理和挖掘 受限制的节点处理能力和不受限制的系统动态性 传感器网络上的查询处理、传感器网络数据分析 对等计算环境下的数据管理 数据模式的复杂化和元数据管理的标准化 XML数据管理和交换 Web服务 提纲 当前数据库研究重点的变化 三个重要的数据库研究问题 对等计算环境下的数据管理 流数据管理和挖掘 XML 数据管理和 Web 服务 我们正在进行的工作 P2P 数据管理 – 应用背景 从简单的文件共享向复杂的查询处理功能变化 信息检索:pSearch, PlanetP, PeerIS 数据库查询:PIER, PIAZZA, PeerDB, Hyperion, … 连续查询:PeerCQ, Buddy-CQ, Aurora*/Medusa 从消息传递向内容路由变化 基于 XML 的内容路由 应用场景: 金融、科学计算和数据管理、医疗、… 其它松散耦合的虚拟组织 一些紧耦合,但在地理上分布的数据管理任务 P2P 数据管理 – 主要技术(1) 从数据访问和索引角度看 散列 ? 分布式散列表(Distributed Hash Table, DHT) Chord, CAN, Pastry, Tapestry, Viceroy, … DHT上的区域查询(range query) 基于 LSH 和 Chord 的技术、基于 CAN 的区域查询缓存、… DHT上的关系运算算子的实现 PIER(Berkeley)实现了四种不同的连接算法 树型索引 ? P-tree 可以被用来进行区域查询 P2P 数据管理 – 主要技术(2) 从数据库模式集成和查询语义看 基于视图的数据集成 PIAZZA:模式映射、查询改写和优化 P2P数据库查询的语义 局部关系模型(LRM) 映射表的逻辑语义和实现(Hyperion) 加宽可达快照(dilated-reachable snapshot)语义(PIER) P2P 数据管理 – 主要技术(3) 从元数据管理看 基于标准协议的方式(PIER) 多索引/目录服务器方式 全自治的方式(PeerDB, PIAZZA) 从分布式数据库和分布式查询处理角度看 查询传递(query shipping)、代码传递(code shipping)和代理传递(agent shipping)(PeerDB) 基于DHT的查询处理(PIER, PeerCQ) 突变查询处理(mutant query processing) 提纲 当前数据库研究重点的变化 三个重要的数据库研究问题 对等计算环境下的数据管理 流数据管理和挖掘 XML 数据管理和 Web 服务 我们正在进行的工作 流数据管理和挖掘 – 应用背景 (相对)静态的查询、动态的数据 挑战 和数据量呈线性的时间复杂度 固定大小的内存 单遍扫描数据集 在任意时刻输出是准确、可靠的 模型在任意时间都可以输出 应用场景: 网络监控和交通工程 电信记录管理和分析 商业交易管理和分析 金融信息监控 制造业和供应链工程和工业过程控制 传感器信息监控 Web日志分析 海量数据处理 … 流数据管理和挖掘 – 研究角度 理论分析 一般采用随机算法(randomized algorithms),研究重点是算法的界 联机算法设计 重点是算法在实际数据集上的效率 模型的变化 滑动窗口模型 挖掘模型的变化 研究的重点是及时的模型改变 流数据管理和挖掘 – 主要技术(1) 连续查询处理 系统设计和开发 TriggerMan OpenCQ (Georgia Tech.) Niagara-CQ (Wisconsin Madison) CACQ Aurora (MIT/Brown/Brandies) AdaptiveCQ TelegraphCQ (U.C. Berkeley) STREAM (Stanford) 流数据管理和挖掘 – 主要技术(2) 连续查询算子的实现 各种流水线联接算法的实现 基本数据结构的研究 Sketch 方法(基于散列的技术) 指数直方图(exponential histogram, EH)方法 抽样方法 频繁项/频繁项集挖掘 Sticky sampling/lossy counting 带删除的频繁项集挖掘 Counting Bloom filter方法 考虑 false positive 的方法 流数据管理和挖掘 – 主要技术(3) 流数据聚类
您可能关注的文档
最近下载
- 创业管理(第5版)张玉利_课后习题答案.pdf
- 平面国----优质课件可编辑.pptx VIP
- IPC9151C2010印制板工艺产量质量和相关可靠性PCQR2基准测试标准和数据库.docx VIP
- 大学生城市轨道交通机电职业规划.pptx VIP
- 第三代核电技术AP1000 - 孙汉虹.pdf
- 福建省福州市乌山小学五年级上册语文阅读训练及答案版.pdf VIP
- 广西壮族自治区贵港市覃塘区2023-2024学年九年级上学期期中考试英语试题(含听力).docx VIP
- AP1000失去主给水事故模拟.docx
- 轨道交通供电系统安装监理组织方案.docx VIP
- GB 4706.1标准解读_从模块上分析标准结构 - 爬电距离和电气间隙系统.xlsx
原创力文档


文档评论(0)