关于知识依赖度约简的论文.docxVIP

下载本文档

1
0
约3.33千字
约 8页
2019-08-21 发布于四川
举报
版权申诉

关于知识依赖度约简的论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2019年关于知识依赖度约简的论文　　　　基于知识依赖度约简的知识发现研究 ? 　　　　摘要：粗糙集理论中的属性约简问题属于NP难问题。以教育技术学专业读者20XX学年度图书借阅历史数据为原型，采用借阅类目的次数多少作为属性重要度进行启发式选择，利用粗糙集理论中的知识依赖度对类目约简，挖掘出本专业和各年级借阅类目的核心集，并经问卷调查证明其规律的正确性。通过与教育技术学专业学科知识体系结构的比较，能够发现学科知识体系结构建设的不足之处，以促进其更科学完善。 ? 　　　　关键词：粗糙集；知识依赖度；数据挖掘；知识发现 ? 　　　　0引言 ? 　　　　高校图书馆自动化建设经过多年发展，已经积累了大量历史数据，这些数据不但完整，而且质量高，充分反映了读者学习成长的过程。如何对其进行挖掘提炼并从中发现有价值的知识，是了解读者需要、开展知识推送服务的重要信息来源。前人研究主要是根据读者的借阅历史数据，利用关联规则算法发现某类书籍之间的关联规则[14]，或利用聚类算法挖掘具有共同阅读兴趣的读者群体[5]，以及通过时间流分析得到读者借阅时间的分布规律[6]等。 ? 　　　　也可以利用粗糙集进行挖掘。例如，柳炳祥等[7]只是介绍有关理论，文章中并没有对粗造集挖掘进行深入阐述。这些挖掘结果往往只是反映读者已往的借阅规律，而不能反映其当前和今后一段时间的真实需要，因为这些读者还需要不断地进行知识更新和深化学习。本文通过对教育技术学专业读者群进行数据挖掘，利用知识依赖度约简方法发现其学科知识体系结构，并通过与相关专业的知识体系结构建设进行比较，以发现建设中的不足之处。如果利用所得的知识库进行推送服务，则能把读者真正需要的知识推送给他们。 ? 　　　　1粗造集有关理论 ? 　　　　粗糙集理论认为“知识是一种对对象进行分类的能力”，它将分类理解为在特定空间上的等价关系，而等价关系构成了对该空间的划分[8]。 ? 　　　　定义1（论域、知识）：设U是感兴趣的对象组成的非空有限集合，称为一个论域。论域U上的任一子集XU，称为论域U的一个概念或范畴。论域U中的任何子集簇（概念簇）称为关于U的抽象知识，简称知识[9]。在二维表中，知识是由某些列对所有行的划分构成的集合所表示。 ? 　　　　定义2（知识库）：给定一个论域U和U上的一簇等价关系S，称二元组K=（U，S）是关于论域U的一个知识库或近似空间。因此，论域上的等价关系即代表着划分和知识。这样，知识库就表示了论域上由等价关系导出的各种知识，即划分或分类模式，同时代表了对论域的分类能力，并隐含着知识库中概念之间存在的各种关系[9]。 ? 　　　　定义3（不可分辨关系）：给定一个论域U和U上的一簇等价关系S，若PS，且P≠，则∩P（P中所有等价关系的交集）仍然是论域U上的一个等价关系，称为P上的一个不可分辨关系，记作IND（P）。IND（P）的等价类称为知识P的基本范畴[9]。 ? 　　　　2知识发现 ? 　　　　2.1样本数据选取 ? 　　　　2.2数据预处理 ? 　　　　在进行数据挖掘之前，需要对数据进行去噪、补缺和转换等预处理操作。数据预处理步骤如下：①根据年级、专业代码和时间段获取读者借阅历史记录，并通过汇总获得借阅图书的人数、未借阅人数和总借阅册数；②去除借阅书目的种次号，得到借阅类目，汇总后得到借阅类目数。由于中图法是通过标记符号代表各级类目和固定先后次序的分类体系，标记符号不同，其表示的知识类目也不同，故不能把相近类目合并为一类；③按类目进行汇总，求得各类目借阅册数和所有类目的平均借阅册数，并删除低于平均借阅册数的类目，因为其表现的只是某个学生的个人爱好，不是大家共同学习的知识，相当于噪音数据；④求出借过大于平均借阅册数类目的所有读者，这些读者即是进行知识约简的对象；⑤生成上述读者对象和其借阅类目的二维表，并对表中数据进行转换处理，如果此读者借过该类目书籍则为1，否则为0。类目列按类目总借阅册数降序添加到表中。 ? 　　　　2.3知识约简 ? 　　　　经过上面的数据预处理后，得到了知识库的关系簇S和论域U，即不小于平均借阅册数的类目和借阅这些类目的读者。然而，即使经过上述预处理后，其约简的类目数还有几十种；如果直接利用知识依赖度（定义5）来约简，其需要计算的次数为M*logM*2n（M是读者数，n是类目数），这是指数级时间复杂度，需要消耗大量计算时间。为了得到多项式时间算法，采用以类目借阅的册数多少作为属性重要度的启发式策略，应用知识依赖度来约简二维表，具体算法如下： ? 　　　　（1）置K={}，R={}；//K表示约简后得到的知识，R表示临时约简知识 ? 　　　　//如果单个知识把