基于ＰＭＭＬ标准的数据挖掘本体构建.docVIP

下载本文档

11
0
约5.69千字
约 9页
2018-03-16 发布于北京
举报
版权申诉

基于ＰＭＭＬ标准的数据挖掘本体构建.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于ＰＭＭＬ标准的数据挖掘本体构建　　摘要：针对实际问题选择数据挖掘方法是一个困难的工作，使用本体对数据挖掘方法进行建模并为用户推荐适合的方法是一个可行的解决方案。PMML是一种应用广泛的数据挖掘国际标准，提出了一种基于PMML标准构建数据挖掘本体的方法并用Protégé构建了一个本体，为利用本体推理为用户推荐挖掘算法奠定了基础。　　关键词：本体；数据挖掘；PMML；　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)36-2563-03 　　　　Constructing Data Mining Ontology Based on PMML Standard 　　LIANG Zhu, ZHANG Hui, ZHANG Shi-ling 　　(Southwest University of Science and Technoloty,Mianyang 621010,China) 　　Abstract: It is difficult to select a suitable data mining algorithm for a real problem. Using ontology for modeling data mining algorithms and suggestingappropriate algorithm to a user is a feasible solution. We Propose a method to construct data mining ontology based. 　　Key words: ontology; data mining; PMML 　　数据挖掘是从海量数据中获取知识的过程。然而，随着研究的不断发展，针对各种不同的问题催生出了各种不同的数据挖掘算法，如神经网络、支持向量机、粗糙集等。但这些算法有各自的假设，并需要设置各种参数，用户在没有数据挖掘专家帮助的情况下很难使用这些算法对他们的数据进行挖掘。将数据挖掘模型本体化，利用本体的推理机制为用户推荐算法，对简化用户的挖掘过程具有重要意义。本文提出了一种基于PMML标准构建数据挖掘模型本体的方法，为利用本体推理为用户推荐挖掘算法奠定了基础。　　1 本体　　本体（ontology）原本是一个哲学上的概念，是研究客观世界本质的学问。在计算机科学中，本体的定义尚未统一，Studer在1998年对本体的定义得到最多的认同：“本体是对某一领域概念模型的明确的、形式化的规范说明”[1] 人工智能领域的研究被分为两类，一类是面向形态的，另一类是面向内容的。前者研究逻辑和知识的表示，后者研究知识的存储。本体是面向内容的，它清楚地描述了概念及概念之间的关系，通过概念之间的关系来描述概念的语义。不同研究者都把它当作是领域内不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础，即由本体提供一种共识。　　出于对各自学科领域和具体工程的不同考虑，构建本体的过程各不相同。目前还没有一套标准的本体构建方法。一般认为，Gruber在1995年提出的5条规则[2]是比较有影响的：1）清晰性、明确性和客观性：本体应该用自然语言对术语给出明确客观的语义定义；2）完整性：所给出的定义是完整的，能表达特定术语的含义；3）一致性：知识推理产生的结论与术语本身的含义不会产生矛盾；4）最大单调可扩展性：向本体中添加通用或专用的术语时，通常不需要修改已有的内容；5）最少约束：对待建模对象应该尽可能少列出限定约束条件。　　Ontology可以按照分类来组织，包含5个基本的建模元语：类、关系、函数、公理、实例；4种基本关系：part-of、kind-of、instance-of和attribute-of。本体构建者也可以根据具体情况定义关系。[3] 　　2 PMML 　　数据挖掘技术的研究与应用经历了十多年的努力和发展已取得了很大的成果，但仍然还存在许多问题：　　1）各种数据挖掘问题及挖掘方法基于不同的模型和技术，彼此互相独立，联系很少；　　2）缺少简明精确的问题描述方法，挖掘的语义通常是由实现方法决定的；　　3）数据挖掘系统仅提供孤立的知识发现功能，难于嵌入大型应用；　　4）数据挖掘系统仅提供孤立的知识发现功能，它没有提供应用独立的操作元语。　　到目前为止，数据挖掘行业是高度分散的，公司和研究机构独立开发各自的数据挖掘系统和平台，没有形成开放性的标准；同时数据挖掘本身是一门多学科综合跨度非常大的技术，这两点是上述问题存在的根本原因。数据挖掘行业非常需要一个数据挖掘和统计模型的标准描述，除此之外，也希望该标准是一个相对严谨的标准，为今后提出的标准之间