图模型理论及在数据发掘中的应用.pdfVIP

下载本文档

10
0
约6.57千字
约 6页
2017-08-10 发布于安徽
举报
版权申诉

图模型理论及在数据发掘中的应用.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第36卷南京大学学报(自然科学) v01．36 0F 计算机专辑 JOURNALNANJ【NGUNⅡV职SIrY C蛳p姗Iss∽ 图模型理论及其在数据发掘中的应用· 李刚童叛 (上海大学计算机科学系．上海，200072) (中国科学院软件研究所，北京，1000鲫) 纂要散据发掘，知识发现过程中妞何有效地利用先验知识是当前需要解决的关键何最之一．田模型作为一种概率型知识表示方法．特别适台于数据发掘中的知识表示与知识求精．奉文用述了救据发掘与机器学习、统计学之间的关系．介绍了图模型理论的基奉概禽和性质，提出了基于圈模型的数据发掘，知识发现框集，井分析了圈模型推理、学习算法．最后指出了图模型理论在数据发掘应用中尚需解砍的主要问腰．关蕾调田模型，有向图模型，数据发掘．机器学习 O引言随着产生和采集数据能力的迅猛增长，人们迫切需要有关的技术和工具来自动地从数据中寻找有用知识，这就是数据发掘成为一个越来越重要的研究方向的原因所在。然而，目前敷据发掘算法大多难以利用应用领域中已有的先验知识，而且内部结构与现实世界之间存在较大差异，这往往造成所发掘的知识难以理解。作为概率论与图论相结合的产物．图模型提供了将先验知识结台到数据发掘过程中的方法，并可将问压域中因果关系定性地表示为拓扑结构。统计学、模式识别、机器学习、信息论等领域中许多经典的多变量概率模型都可看作是图模型的特例¨J。其实，早在20世纪80年代有向图接型就作为一种概率型知识表示方法，在专家系统中得到了成功应用；此外，兴起于20世纪 90年代后期的图模型学习研究，致力于从大量数据中构造合适的围模型，这也为数据发掘，知识发现提供了新的思路。 I数据发掘 1．1数据发掘与机器学习、统计学数据发掘、机器学习、统计学都研究从实验数据中寻求有价值的规律、模式等，具有很大相似性。也有报多人认为数据发掘就是将机器学习用于丈数据集．但是它们之间 ‘国家自然科学基金资助课题(6驰73∞1)．第一作者简介：李刚．博士生．计算机专辑李剐等：围模型理论及其在数据发I中的应用 47 存在着一些根本不同：首先，机器学习研究通常假定数据中存在有可学习的概念或内在机制，而数据发掘的研究中，数据是占首位的主要因素，一般不能确定是否隐薯有概念、或蕴含有内在运行机制；第二，机器学习一般致力于建立现实系统内在运行机制的表示模型，而敷据发掘则更强调所发现知识的可理解性，一般要求所发掘的知识能够显示地表示为可以理解并加以利用的知识：最后，机器学习算法所处理的数据集一般规模较小．而数据发掘通常面对的是较大的数据集。在统计学中，很早就出现了同数据发掘相对应的名词：“解释性数据分析”．它也非常强调分析结果的可理解性捌．当前的数据发掘系统中经常采用统计学方法来进行建模，或利用统计分析方法进行数据预处理。将统计学、机器学习的方法和技术结合到数据发掘过程中来．可利用统计方法对数据集进行预处理．再通过启发式方法来确定最有希望的模型，从而有希望取得最佳的数据发掘效果。 1．2数据发曩面临的问置目前在不同的应用领域中出现了许多较为成功的数据发掘系统．甚至还出现了若干数据发掘工具，但是数据发掘要取得突破性进展，获得更大的社会、经济效益，还需要解决如F问题： (” 高维数据问题：随着数据集中属性豹增加，数据发掘算法的搜索空间也随之呈指数级增加．此外．高维数据的存在，也增加了所发现知识中存在冗余的概率。因此，减少数据发掘算法所处理的数据维数，或研究对维数不敏感的算法，这对拓宽数据发掘的实际应用极为重要． ’ (2)先验知识的利用：当前大多数数据发掘方法难以将问趣域中先验知识结合到数据发掘过程中，利用先验知识将可避免发现冗塞知识，并可提高数据发掘效率