一种新的信过滤方法——粗糙集在信息过滤中的应用.pdfVIP

下载本文档

8
0
约3.63万字
约 31页
2015-10-21 发布于贵州
举报

一种新的信过滤方法——粗糙集在信息过滤中的应用.pdf

一种新的信过滤方法——粗糙集在信息过滤中的应用

一种新的信息过滤方法——粗糙集在信息过滤中的应用李治国摘要 in Discovery 数据挖掘，也可以称为数据库中的知识发现(Knowledge Database，KDD)，是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。文本挖掘是数据挖掘的一个分支，主要是对文本数据库中的数据进行分析处理。信息过滤是文本挖掘的一个主要内容。随着Intemet的发展，如何从众多的网络文档中快速准确地过滤出自己需要的文档变得越来越重要。信息过滤的方法主要有：布尔模型、向量空问模型、潜在语义索引模型等等，他们各有各的优点，但是也有各自一定的缺点。本文结合向量空间模型和潜在语义模型两种方法的优点，提出了一种新 Sets) 的信息过滤方法，即在奇异值分解(SVD)的基础上，运用粗糙集(Rough 方法进行文本挖掘。通过对词语×文档矩阵进行奇异值分解得出近似矩阵，该近似矩阵将与文档关系较密切的词语的数值增大，将与文档关系较小的词语的数值减小，改变了一些词语在相应文档中的重要性，从而使得词语更能很好的体现文档的内容。然后运用粗糙集理论中决策表上的规则推理方法，生成我们感兴趣信息的规则库，将未知文档的条件属性与规则库里规则进行相似匹配，进行信息过滤。我们通过实验．证明该方法在准确率和查全率方面比向量空间模型都要好得多，在准确率方面比潜在语义索引模型要好，只在查全率方面比潜在语义索引模型差一点。而且，该方法在空间复杂度上比潜在语义索引模型多存储一个向量。但是在过滤过程中的过滤速度却比潜在语义索引模型快了一个数量级，说明该方法是行之有效的。最后我们从理论上分析了出现上述实验结果的原因。关键字数据挖掘文本挖掘信息过滤粗糙集奇异值分解规则提取种新的信息过滤方法——粗糙集在信息过滤中的应用李治国 Abstract Data whichisalsocalled in mining Knowledge Discovery theadvanced of information from procedureextractingreliable，original，valuable ofdata．Andtext isabranchofdata which plenty mining miningmainlyanalyzes and thedataintextdataset． processes Information an oftext the Filtering(IF)is importantpart mining．With of tofilterthe Internet，how wanteddocumentsand development quickly

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种新的信过滤方法——粗糙集在信息过滤中的应用.pdfVIP