基于贝叶斯的多维数据分类模型.docVIP

下载本文档

19
0
约3.31千字
约 6页
2019-07-12 发布于北京
举报
版权申诉

基于贝叶斯的多维数据分类模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 基于贝叶斯的多维数据分类模型　　摘要：传统的数据检索模型忽略了信息之间的关联性，从海量、离散分布的数据中提取有效相关的内容不仅消耗大量的系统资源，较高的信息查找复杂度降低了系统检索性能，而且抽取结果相关度低导致无法满足用户需求。论文提出了一个基于贝叶斯的多维数据分类模型，利用数据之间存在的关联性将数据按照不同搜索维度进行分类管理。根据实验结果表明，该模型能够有效地提高数据查询效率。　　关键词：数据分类模型关联性贝叶斯　　1引言　　随着我国城镇化水平不断提高，燃气管道接入千家万户。随着用户逐步增长，传统的燃气计费及用户管理方式需要消耗大量的人力物力，已经无法满足现有状况的需求。信息技术的发展为燃气计费及用户管理提供了有效的解决方案。通过构建一个基于B/S分布式的燃气计费及用户管理系统能够提高燃气企业业务管理效率[1]。　　然而，随着用户数量以几何级数的方式增长，燃气企业所收集到的海量用户信息及业务数据信息离散的分布在系统数据库中。传统的数据查询方法仅利用用户的查询请求从海量数据中提取信息，不仅增加了查询匹配复杂度，而且消耗大量的系统资源[2][3][4]。面对复杂的用户查询请求，系统无法有效地分析用户请求信息，以至于返回的低相关度结果不能满足用户需求[5][6]。此外，企业的发展离不开业务统计信息，数据以静态方式存储，系统忽略了数据之间的关联性，使得海量一维数据无法满足企业需求，进而导致不能为企业决策提供支持。　　本文设计了一个基于贝叶斯的多维数据分类模型，利用数据之间的相关度，将数据进行分类，根据不同的数据查询维度，将数据进行多维度组织。经过仿真实验，该模型能够提高数据查询效率。　　2多维数据分类模型　　在数据库中，用户数据的存储方式依赖于关系数据库的结构化存储模型，即。其中user表示一个用户信息的存储结构；ID为系统为该用户分配的ID号，ID作为主键通常用来唯一标识用户的信息；name作为结构化信息中的一个特征项被用来表示用户的名字；address代表用户的居住地址；cost，表示用户的消费情况。　　传统的分类方法通常采用一维的方式对数据进行分类。例如，根据用户所在区域、用户消费状况、用户信誉度或用户入库时间等特征项进行分类。这种简单的分类方法无法满足用户多维的查询及统计需要。在数据分类之前，需要定义一个分类维度库，即D=（d1，d2，...，dn）。通过分层的方法将每个分类维度通过分类维度来表述，也就是说，将现有的分类维度进行抽象，生成顶层分类维度集合，若新生成的分类维度隶属于其中的某个，则将其隶属于该分类维度下，成为其子节点。从以上过程看出，该分类模型是个不断学习变换的模型，可通过树形结构进行表示。子类的创建需要通过评价函数来给出，这里我们选用贝叶斯分类方法，当一个新类别创建后，将其与顶层类别进行匹配，若属于其中某一类的概率较大，则归属于该类别。当某一新类别隶属di或di的子孙后，那么该类别可以被视为di或di子孙的一个特征，即该新类别与其他类别可以表示di或di的子孙。那么一个类别可以表示为di=（unode，dnode，f），其中unode为该di的父类别，dnode为该di的子类别集合，f为di的特征。　　贝叶斯分类模型是一个利用先验知识来构建分类树的模型。每个类别均有特征对其进行描述，也就是f在创建该类别时需要进行初始化。本文采用基于训练模型的分类构建算法。首先定义分类特征F=（f1，f2，...，fm），F为当前所有分类D的特征集合，一个分类di可以由一个或几个特征f来表示。设FB=（fb1，fb2，...，fbk）为特征训练库，根据特征fi从文本或其他信息选择具有该特征较为明显的信息进行分解，将含有或表示该特征的分解信息存储至FB中，这些信息即可表示一个fbi，也就是说，fbi中存储着表示该特征的离散的信息，若某一数据需要进行分类识别，那么可从该信息中提取若干特征与特征信息进行匹配，首先获取该数据的特征，再将其特征与fbi进行匹配，以判断其是否属于该fbi，再根据fbi所隶属的fi，从而确定该数据隶属于某一类别di。当判断该数据属于某一顶层类别后，还需进一步进行细化，以判断该数据是否属于其子类，若通过特征匹配后属于某一子类，则循环此过程，直到将该数据判定属于分类树中的叶子节点。反之，若在分类判别过程中出现无法确定该数据分类后，则可进行评估，并判定是否生成一个新的类别。因此，数据的分类判别过程也是分类树的一个不断学习进化的过程。在数据库中的任一数据均可能具有多个类别，通过确定某一分类，即可获得该类别下的数据，分类过程如图2所示。　　计算分类隶属度可通过贝叶斯分类模型来计算其隶属度的大小，根据评估结果进行排序，可分别列出所属分类。贝叶斯分类模型还可以被用来计