- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
’种新的信息过滤方法 粗糙集在信息过滤中的应tL}j 牟治国
第二章文本挖掘
2.1 文本挖掘概述
在现实世界中,可获取的大部分信息是存储在文本数据库(或文档数据
库)中的,由来自各种数据源(如新闻文章、研究论文、书籍、数字图书馆、电子邮件消息和Web页面)的大量文档组成。由于电子形式的信息量的飞速
增长,如电子出版物,电子邮件,CD—ROM和万维网(它也可以被视为一个
巨大的、互连的动态文本数据库)等,文本数据库得到迅速的发展。
文档数据库中存储最多的数据是所谓的半结构化数据(semi—structure
data),它既不是完全无结构的也不是完全结构的。例如,一个文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,还可能包含大量的
非结构化的文本成分,如摘要和内容。在最近数据库领域研究中已有大量的
有关半结构化数据的建模和实现方面的研究n0,11,12,13,14,15,16,17】。而且,信息检索技术,如文本标引(text index)方法,已经被用来处理
非结构化文档。
传统的信息检索技术已不适应日益增加的大量文本数据处理的需要。典型的大量文档中只有很少一部分与某一个体或用户相关。而不清楚文档中的内容,就很难形成有效的查询,从数据中分析和提取有用信息用户需要有关的工具完成不同文档的比较,以及文档重要性和相关性排列,或找出多文档
的模式或趋势。因此文本挖掘就成为数据挖掘中一个目益流行而重要的研究
课题。
2.2 文本挖掘的研究内容
2.2.1文本数据分析和信息检索
信息检索(InformationRetrieving,即IR)是与数据库系统并行发展了很多年的一个领域。与数据库系统不同,信息检索研究的主要不是结构数据的
查询和事务处理的问题,而是研究大量文本文档的信息组织的检索。典型的
信息检索问题是基于用户的输入(如关键字或样例文档)定位相关文档。典型的信息检索系统有联机图书馆目录系统和联机文档管理系统。判断文本检
索质量的基本度量有两个:查准率和查全率。
词语×文档矩阵是反映词和文档关系的一种方法。每一行表示一个词,每一列表示一个文档向量,基中每一项表示某个词在某个文档中出现的次数。
2.2。2基于关键字的关联和文档分类
基于关键字的关联分析首先收集经常一起出现的关键字或词汇,然后找
出其关联或相互关系。与文本数据库中大多数分析~样,关联分析首先要对文本数据进行分类、词根处理、去除非常用词等预处理,然后调用关联挖掘算法。在文档数据库中,每一文档被视为一个事务,文档中的关键字组可视
种新的信息过滤方法 一粗糙集在信息过滤中的应川 李治国
为事务中的一组事务项。文档数据库中关键字关联挖掘的问题就变成事务数
据库中事务项的关联挖掘。
自动文档分类是一种重要的文本挖掘工作,由于现在存在大量的联机文档,自动对其分类组织以便于对文档的检索和分析,是至关重要的。
自动地对文档进行分类的一般做法是:首先,把一组预先分类的文档作
为训练集。然后对训练集进行分析以便得出分类模式。这种分类模式通常需
要~定的测试过程,不断地细化。之后就用这些导出的分类模式对其他联机文档加以分类。
2.2.3信息过滤
近年来在信息查询领域中兴起的信息过滤(Information Filtering,即IF)技
术,结合现有的信息检索方法,对于解决网络信息的个性化、动态化以及提高被查询信息对用户的可用度有很大的帮助。与IR不同,IF关注用户对特定兴
趣主题长期稳定的信息需求,并将这种需求用兴趣主题模型(Topic Profile)来表示,其作用相当于IR中的查询索引项(Query Terms)。IF是系统根据用户的兴趣主题模型对新来的文献进行相关度计算,主动将相关度较高的新文献提供给符合该兴趣主题模型的注册用户,同时同户可以将最相关文献反馈给IF服务器以更新调整现有的兴趣主题模型。信息过滤技术集信息检索方法和
机器学习方法于一体。
2.3 信息过滤的常用方法
多数信息过滤的算法都是基于词语×文档矩阵的,即首先建立词语×文档矩阵。因为词语×文档矩阵中只是一些词语在文档中的绝对词频,绝对词频在进行分析时意义不大,所以很有必要对词语×文档矩阵进行处理。
对词语×文档矩阵的处理,主要修改字项的权值。计算字项的权值,最通
用的方法是用字项频度因子(the Term Frequency,或简称TF)与反向文档频度因子(the Inverse Document Frequency或简称为IDF)之积。字项频度因子与字项在文档中出现的频度成正比。反向文档频度因子是用来表示字项在文档中的重要程度。有些字项在文档中出现的频度很低,但是它们的IDF却可能很大:而有的字项在文档中出现的频度很高,而IDF却很小(如系统等)。这一步需要
具有专业人士参与才能达到更好的效果。
在
原创力文档


文档评论(0)