一种新的信过滤方法——粗糙集在信息过滤中的应用.pdfVIP

  • 8
  • 0
  • 约3.63万字
  • 约 31页
  • 2015-10-21 发布于贵州
  • 举报

一种新的信过滤方法——粗糙集在信息过滤中的应用.pdf

一种新的信过滤方法——粗糙集在信息过滤中的应用

一种新的信息过滤方法——粗糙集在信息过滤中的应用 李治国 摘要 in Discovery 数据挖掘,也可以称为数据库中的知识发现(Knowledge Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的 模式的高级处理过程。文本挖掘是数据挖掘的一个分支,主要是对文本数据库 中的数据进行分析处理。 信息过滤是文本挖掘的一个主要内容。随着Intemet的发展,如何从众多 的网络文档中快速准确地过滤出自己需要的文档变得越来越重要。信息过滤 的方法主要有:布尔模型、向量空问模型、潜在语义索引模型等等,他们各 有各的优点,但是也有各自一定的缺点。 本文结合向量空间模型和潜在语义模型两种方法的优点,提出了一种新 Sets) 的信息过滤方法,即在奇异值分解(SVD)的基础上,运用粗糙集(Rough 方法进行文本挖掘。通过对词语×文档矩阵进行奇异值分解得出近似矩阵, 该近似矩阵将与文档关系较密切的词语的数值增大,将与文档关系较小的词 语的数值减小,改变了一些词语在相应文档中的重要性,从而使得词语更能 很好的体现文档的内容。然后运用粗糙集理论中决策表上的规则推理方法, 生成我们感兴趣信息的规则库,将未知文档的条件属性与规则库里规则进行 相似匹配,进行信息过滤。 我们通过实验.证明该方法在准确率和查全率方面比向量空间模型都要 好得多,在准确率方面比潜在语义索引模型要好,只在查全率方面比潜在语 义索引模型差一点。而且,该方法在空间复杂度上比潜在语义索引模型多存 储一个向量。但是在过滤过程中的过滤速度却比潜在语义索引模型快了一个 数量级,说明该方法是行之有效的。最后我们从理论上分析了出现上述实验 结果的原因。 关键字数据挖掘 文本挖掘 信息过滤 粗糙集奇异值分解规则提取 种新的信息过滤方法——粗糙集在信息过滤中的应用 李治国 Abstract Data whichisalsocalled in mining Knowledge Discovery theadvanced of information from procedureextractingreliable,original,valuable ofdata.Andtext isabranchofdata which plenty mining miningmainlyanalyzes and thedataintextdataset. processes Information an oftext the Filtering(IF)is importantpart mining.With of tofilterthe Internet,how wanteddocumentsand development quickly

文档评论(0)

1亿VIP精品文档

相关文档