- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                
                                                                                  维普资讯  
                粕糙集理论的统计扩展及应用 
                                    范霄文 ,郭惠英 
               (1.厦门大学 经济学 院,福建 厦门 361005;2.山西财经大学 统计学院,太原 030006) 
             摘 要 :文章在对多维交叉分类数据进行粗糙集描述的基础上 ,提 出了用关联信息系数矩阵测 
         度 多维定性变量关联性的方法。研 究表 明,应用关联信息系数矩阵可以更有效地发现 多维变量 问的 
          关联结构 。 
             关键词 :交叉分类数据 :关联分析;粗糙集 
             中图分类号 :C81  文献标识码 :A         文章编号 :1002—6487(2008)13—0012—02 
                                                  XY:  2…xl(∑∑pji=1) 
0  弓I言                                                Pll  pl2 … Il J= 1i= 1 
                                                  实质上列联表提供的就是各变量 的边缘分布及变量集 
   在对可能包含成百上千变量 的海量数据进行数据挖掘                    联合分布 的频率或频数分布数据 。从粗糙集理论来看 ,高维 
时,无论是进行最简单的分析还是建立复杂的模型 ,理解数                    交叉分类数据可以用粗糙集 中的信息系统S=(U,A,V,f1的来 
据都是至关重要的一步..对于多维定性变量 的关联分析 ,目                  表示_l1。U=ful,U2,…,Un}为对象集 ,对应 n个观测个体;A={xl,x2, 
前统计学领域主要是采用对数线性模型进行分析 .但是,对                    … X}为属性集 ,对应高维列联表 中的变量集 ,如 X,表示性 
                                                 , 
于大型数据集 ,一方面数据并非随机抽取 .利用在随机分布                   别,X表示职业 ;V=UV…V是变罱x的值域 ,如对应高维列 
前提下建立的统计理论显然欠妥 。另一方面,对于出现0频 
                                               联表中变量X.的取值集合T.;f:U×A—V是一个信息函数 ,为 
数的特殊数据需要特殊 的考虑 ,而且对数线性模型选一个 
                                               每个对象 的每个属性赋予一个信息值 ,即Vx A,U∈U,ffu,x) 
 “最佳拟合”几乎是不可能的 ,通常 只能在一定的显著性水平 
                                               ∈V .即每个观测对象与每个变量取值的映射关系。 
下选出一个可接受的关联结构模 型。为此 ,本文吸收借鉴现 
                                                  在信息系统 S中,如果 B A是任一·子集 ,对于 Hi)U,U 
有研究成果,从粗糙集理论 出发 ,将多维交叉分类数据 以粗 
                                               (i≠i),如果每个属性 x∈B,有 
糙集信息表 的形式加以描述 ,并在各变量子集等价关系频率 
                                                  f(ulx)--t(u,,X) 
分布的基础上测度变量问的关联程度 .利用关联信息系数矩 
                                                  则称在 S中,u,与 u关于属性子集 B是等价 的, R 表 
阵分析多维变量的关联结构 
                                               示对象集 U由属性子集 B导出的一个等价
                 原创力文档
原创力文档 
                         
                                    

文档评论(0)