- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于属性相关度WEB数据库估算方法
基于属性相关度WEB数据库估算方法
除了在非常大的企业,数据库的大小正常小于1GB,为了允许将来发展,推荐为数据库设置至少4GB。数据库的大小依赖于存储对象的数目和对象属性。有少量用户属性的数据库比设置许多用户属性的占有的空间要小。在扩充之前,要考虑其他对象和属性严重地增大数据库的大小。
1 SQLServer估算数据库的空间需求
在创建数据库前需估算所建数据库的大小及增幅,定义一个恰当大小的数据库。计算依据为:数据库的最小大小必须等于或大于model数据库的大小。默认情况下,事务日志文件的大小是数据库文件大小的25%。在SQLServer中最基本的数据存储单元是页,每页的大小为8KB(8192字节),每页除去96字节的头部(用来存储有关的页信息,如页类型、可用空间、拥有页的对象ID等),剩下的8096字节用来存储数据。SQLServer数据库的数据文件中的8种页类型。
数据页:存储数据库数据,包含数据行中除text、ntext和image数据外的所有数据。
索引页:用于存储索引数据。
文本/图像页:用于存储text、ntext和image数据。
全局分配页:用于存储扩展盘区分配的信息。
页面剩余空间页:用于存储页剩余空间的信息。
索引分配页:用于存储页被表或索引使用的扩展盘区信息。
大容量更改映射表:有关自上次执行BACKUPLOG语句后大容量操作所修改的扩展盘区的信息。
差异更改映射表:自上次执行BACKUPDATABASE语句后更改的扩展盘区的信息。
数据页包含数据行中除text、ntext和image数据外的所有数据,text、ntext和image数据存储在单独的页中。在数据页上,数据行紧接着页首按顺序放置。在页尾有一个行偏移表。在行偏移表中,页上的每一行都有一个条目,每个条目记录那一行的第一个字节与页首的距离。行偏移表中的条目序列与页中行的序列相反。扩展盘区是一种基本单元,可将其中的空间分配给表和索引。一个扩展盘区是8个邻接的页(或64KB)。这意味着SQLServer2000数据库每1MB中有16个扩展盘区。
在设置数据库的大小时,应尽量精确估计数据库的大小。如果设置得过小,则设置数据库自动选项后,会造成数据存放得不连续,导致数据库性能下降。如果设置得过大,则会造成磁盘空间的浪费。下面是一个用来估算每个表所需页面数的估算公式:页数=表的行数/(8080/行的长度)。式中,行的长度就是指表的每一笔记录所占的字节数。例如,某一个表包含两个字段:ttl(整型,16位)、tt2(字符型,长度为5个字节),则该表的行长度为:2+5=7。找出数据库的流量:这有助于数据库的物理设计和SQL访问。为了这个目标,构建一个电子表格来估计和完成存储需求。
2 属性相关分析
在挖掘定性概念描述知识的过程中,数据仓库与OLAP工具中的多维数据分析的主要不足之处就是无法处理复杂的数据对象;第二个不足就是不能主动进行泛化操作,而需要用户明确告诉系统定性概念描述中可能包含哪些属性,以及每个属性归纳应该进行到哪一个抽象层次。实际上泛化或细化的每一步操作都必须由用户来指定。一般对用户而言,指挥一个数据挖掘系统,告诉它每个属性应如何归纳到哪一个抽象层次并不困难。例如:用户可通过设置属性泛化阈值以及指明一个特定属性应归纳到哪一层来完成相应说明。在没有明确用户指示时,也可以利用数据挖掘系统所设置的默认值来约束每个属性的泛化过程(如:需泛化到一定抽象层次,其中属性所包含的不同值可为2~8个)。若用户对当前泛化水平不满意,他还可以手动继续进行泛化或细化操作。但是对用户来讲,决定数据集定性描述应包含哪些属性是一件困难的事,因为数据集通常包含了许多属性,而用户对选择哪些属性进行有效数据挖掘知道的也不多。若用户选择较少的属性进行分析,就可能使得所挖掘出的定性概念描述知识不完全或不易理解;而若用户选择了较多的属性用于分析,就可能会影响挖掘的效率以及挖掘结果的可理解性。
3 数据库估算方法
仅用在数据库的总大小是已知的情况。要小心确定该大小是原始数据大小还是磁盘大小。原始数据大小首先,为了放置该数据到数据库的磁盘块中要添加额外的大小到原始数据大小中,有些浪费是不可避免的,例如在一个块中放置一行或多行,因此,块中剩余的一些字节就浪费了。数据库使每行的数据更紧密。如果该列被指定为100个字节,但实际存储只有25个字节,那么该数据库只使用该块的25个字节,这意指每块存储更多的行。但是,如果修改一个项,它可能变得更大,因此,不适合放在相同块中。在这种情况下,数据库使用链接的块存储较大数据项。这导致较低性能,因为在这两个块中都需要读取来查找该行。数据库允许你指定每块分配一些空
文档评论(0)