对应用程序并行数据库技术大型文档管理系统.docVIP

对应用程序并行数据库技术大型文档管理系统.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对应用程序并行数据库技术大型文档管理系统

对应用程序的并行数据库技术大型文档管理系统 摘要 导言 图 1 OMNIS 文档管理系统的体系结构 2.2 应用程序 ODS 应用程序最由它的大多数描述特征库应用程序。 表 1 显示了五个面向非常不同种类的库的应用程序由不同类型的文档。 该大学库组成书目的几个数据几十万个存档从 MAB 文档格式 (德语标准的交换书目数据)。 在我们的部门库文档已被存档使用 ODS 存档服务。 在另一个项目中 [ 3 ] ODS 已被用于注册、 扫描和管理所有的 17 世纪打印在中说区域德语发布。 此系统不是只包含这些而不是完整的书目目录历史打印但将更高版本还包括大约 1 Mio 颜色扫描的页的像素的图像。 新闻库包含选定的项目从新闻组为电子文档,和专利库包含日语专利文档。 它是难比较日文数据库统计信息与其他数据库的大多数单词是非常由于短不同的语言。 正如可以是看到表 1 中,这些库不同方面的总体数据卷、 数量和大小存储的文档,和文档特性,以及文档功能。 为可以看到已从数据卷的这些真实的应用程序,高性能的文档管理是需要Advocating 并行数据库技术。 2.3.全文处理 ODS 提供了一个布尔值检索模型基于全文索引。 根据该模型回答对查询上存在单词部分、 单词、 短语和布尔值在文档中的这些表达式可以被应答。 我们定义一个术语为一个单词或单词图案。 术语连接按距离运算符构成短语。 此简单的模型定义在检索服务与其语法的基础,语义可非正式文体描述如下所示:word 精确匹配的 word%可用在一个 word,通配符字符允许指定简单的模式匹配距离运算符,用于组合术语短语和 Boolean 类型的值和的短语我 Boolean 类型的值或的短语。例如,短语 “ 对象。 数据库 %” 要求所有文档中没有一个出现的单词对象一起单词开头字符串数据库并让最多一个其他任意单词中如所示距离运算符之间。 查询范围是从一个简单的查找 (可能是一本书的位置上库架销售) 到复杂、 数据密集型全文检索将是示第 3和 4部分。 表 1。 几个 ODS 应用程序的特征 全文本索引有效地包括所有活动管理 (所有相关) 中的单词的发生一个文档。 应用于 ODs,它指的是纯关系表用来保存此信息。 表和其内容被组织以某种方式的文档存档和特别是文档检索可以完成非常有效。 上述情况下引入 ODS检索模型,数据访问用于全文检索是保留在两个表,一个表 WORDS (单词,Word 的 ID),该将映射中至少有一个文档以显示在每个单词Word 的 ID,一个单词数字和一个表文档 (单词-ID。 Doc-。 POS) 的映射 Word 编号,以文档数字 Doc-ID 和位置编号位置具体情况取决于其中,单词文档中出现。 第一个表中主键是单词,并在第二个主服务器键由组成的所有属性 (Attribute) (这是完成为了提高效率原因为自动保留索引上的订单主键是由该 DBMS 生成的因此 DOCUMENTS可以有效地访问通过 Word 的 ID 属性)。 3.优化 Full-Text 检索 ODS 中的 给定站点,多用户方案的快速增长使用高 OLTP-rates 是增加的重要性文档管理系统,如例如数字库。支持数千个用户明确要求并行技术在高峰负载时间。 在这种情况下我们有 一个混合工作负荷查询和 (更新) 事务组成的。 查询构成主要部分的负载。事务处理支持存档的用户帐户,更新付费、 库管理等。 混合工作量喜欢此,会带来的负载平衡在每个并行问题DBMS。 我们现在将讨论如何并行处理可以是用来减少我们 ODS 全文本的响应时间检索应用程序。 在此讨论我们会将进行比较非共享和共享磁盘体系结构 w.r.t.他们的 优点和缺点为我们的应用程序和评估可能查询内并行度和相关的要求 w.r.t.的数据碎片内每个方案。 以提供我们将提供此讨论框架,正在处理的文本检索查询 ODS 中。 我们限制我们的讨论第一次以单用户模式,但在以后我们还请考虑问题在负载平衡 w.r.t.多用户模式。 3.1 处理文本检索查询 ODS 中的 如所示图 2 中查询执行计划 (QEP)一个 ODS 的查询可以被拆分成三个阶段。 在第一阶段的每个短语条款被映射到字 IDS(导致一套字 IDS 每个术语,只有一个术语包含通配符)。 这是通过一个索引的访问以实现表 WORDS 跟一个投影在 Word 的。 在第二阶段为每个术语 Word 的 IDS 被映射到包含单词匹配一词的文档。 这阶段是由一个索引的嵌套的循环-加入之间实现文档表和 Word 的 IDS 对应于一个字词 ; 结果预计 (Doc-ID,位置) 上。 在第三个结果是然后排序 Doc-ID 和位

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档