不确定性数据的建模 - GoogleCode.pptVIP

下载本文档

33
0
约2.3千字
约 32页
2018-03-26 发布于湖北
举报
版权申诉

不确定性数据的建模 - GoogleCode.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

不确定性数据的建模 - GoogleCode.ppt

不确定性数据的建模 by: 江李科指导老师：杜卿不确定性数据什么是不确定性数据相对现有的确定性数据而言假设信息是完整的假设信息的概率要么是100%，要么是0（null） …… 消除了这些假设，使之更接近实现世界中的数据。不完整的信息附加有概率属性不确定性数据的产生 i 原始数据不准确。（eg.仪器） ii 使用粗粒度数据集合。（eg.人口统计） iii 满足特殊应用目的。 eg.隐私 iv 处理缺失值。（eg.装备） v 数据集成。（eg.web）现阶段的发展情况历史确定性数据近四十年不确定性数据 20世纪80年代未（二十多年）开始成为研究的热点。从侧面来看，就是还是一个不成熟的阶段。实际应用相对较少。是研究者大展才华的大好时机不确定性数据管理的框架　模型定义定义与应用场景相匹配的数据模型是不确定性数据管理的首要任务. 不确定性数据的种类较多关系型数据半结构化数据流数据移动对象数据《不确定性数据管理技术研究综述》通过此篇论文，我得以理清自己的研究方向——不确定性数据的建模。前面的介绍多是引用此篇论文的资料。树模型的研究，也是以此篇论文为总纲，按顺序来研读相关论文的。此外，此论文对可能世界模型的说明也算是比较清晰的。可能世界模型 1、总览：不确定数据库建模的研究工作很多，可能世界模型是应用最广泛的数据模型。尽管存在许多与数据类型紧密相关的模型，但是这些模型最终都可以转化为可能世界模型。该模型从一个不确定性数据库演化出很多确定的数据库实例可能世界模型的定义：可能世界模型使用了最直接的方式来描述不确定性数据。在该模型中，各元组的任一组合均构成一个可能世界实例，实例的概率值可以通过相关元组的概率计算得到。而且，所有实例的概率之和为1. 举例子如图，优点直观地反映了现实世界。可以轻易转化为确定性数据（可能世界的实例就是确定的）。局限性可能世界实例的数量远远高于不确定性数据库的规模，甚至是后者的指数倍。（很至命@@）针对关系数据的模型相关论文 1、probabilistic ?-table 以一个独立的概率字段表示元组的概率，且各元组之间独立。一个特定的数据库实例的概率等于其所包含的元组的概率的乘积和其所不包含的元组的不发生概率的乘积。举例，如下图： 2、probabilistic or-set table 元组的属性值被描述为多个候选之间的“或”关系，可视为离散概率密度函数。举例，如下图： 3、probabilistic or-set-? table 是之前两种模型的混合体。举例，如下图：模型评介 probabilistic ?-table能够描述存在级的不确定性。 probabilistic or-set table则倾向于描述属性级的不确定性。 probabilistic or-set-? table是上面两种模型的综合体，表达能力更强。 c-table系列~~~ 1、v-table 2、c-table 3、pc-table模型比较一下下上面几中模型每一种都比前一种表达能力更强，因为引入了新的描述维度。针对半结构化数据的模型——基于xml的模型相关论文相关的中文论文先不在这里提及 1、p-document模型概念将概率值附加于文档树的边上，各节点的概率依赖于其祖先的概率，节点之间可以是互斥关系或者相互独立关系。 p-文档树，如图：举例，如下图为什么要使用xml来描述半结构化数据？概率关系数据库——半结构化数据应用中的不足之处： 1）在实际应用中，往往是属性与概率相关联，而不是元组与概率相关联。但是，当属性具有多个概率值时，在元组级别则会出现“组合爆炸”。 2）当属性可以拥有多个概率值时，关系也就不可能符合第一范式。这必然导致出现复杂的代数计算与查询操作。以上，虽然也有人提出了一些解决办法，但是同时也引入了新的问题。 xml迷人之处与嵌套的关系模型相比，Xml更为灵活，允许数据结构在更大范围中变化和能够处理更为不完整信息。 Xml数据是结构性的，而且它的结构可以在一定的范围内变化。Xml的这一特性使得不确定性数据的表达更加自然。 4.1 多重粒度性——大多数关系概率模型只能把概率关联到独立的元组上，因此元组的概率也就自然要成为关系集中的一个成员。这样容易造成数据的冗余（我的观点）。相对而言，在xml中，概率可以关联到元素上，也可以关联到属性级别上，表达能力更强了。 2、probabilistic tree 概念概率树模型是一个事件驱动的模型。它并不在各节点/ 边上附加概率值来描述不确定性,而是在各节点附加一系列事件变量, 由外部事件的