粗糙集与模糊集的信息检索算法.pdfVIP

下载本文档

3
0
约1.25万字
约 8页
2017-09-01 发布于安徽
举报
版权申诉

粗糙集与模糊集的信息检索算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第26卷第6期模糊系统与数学 V01．26，NO．6 and 2012年12月 FuzzySystemsMathematics Dec．，2012 7402(2012)060159-07 文章编号：1001 基于粗糙集与模糊集的信息检索算法。刘文军1，赵利萍2，肖旗梅3 (1．道路灾变防治及交通安全教育部工程研究中心(长沙理工大学)，湖南长沙410076； 2．长沙理工大学图书馆，湖南长沙410076) 3．长沙理工大学数学与计算科学学院，湖南长沙410076} 摘要：结合粗糙集与模糊集理论，提出一种信息检索的新方法。该方法首先对已知文本信息按关键词进行模糊聚类；然后利用粗糙集理论求出各关键词的重要性程度；最后根据最大相似度原则对文本信息进行检索，若结果集中文本数量较大，则按文本与已知文本的相似度从高到低进行排序，先返回相似度较高的相关文档。关键词：粗糙集；模糊集；信息检索；相似度中图分类号：0159 文献标识码：A 1 引言在网络和通信技术迅速发展的今天，网络规模越来越大，信息越来越多，信息的查找和获取也就变得越来越困难。人们越来越感受到了信息的冲击，而在日常生活工作中作为信息重要载体的文本，其信息量之大更新速度之快，使用户无法遍历所有感兴趣的内容，而且随着信息检索技术发展变化，用户对信息检索的要求在逐渐提高，需要使用多关键词进行查询，并且为了更快速准确地检索到自己真正感兴趣的个性信息常常会给查询关键词赋予不同的兴趣度，希望把相关性不是很强的信息屏蔽起来，从而使检索结果针对性更强，获得更满意的结果。目前网上信息的表现形式大多数为文本，而且文本也是广大用户所习惯接受的形式，因此，我们主要讨论文本信息检索的处理技术。文本信息检索与文本处理领域的其它分支有着十分密切的联系(如文本过滤、文本分类、文本浏览和文本摘要等)，并迅速成为业界的热点，各种相应的国际学术会议不断召开，已成为计算语言学领域新的增长点[1。]。目前，大多数的信息检索系统是基于文档和查询之问相关语言比较的计算算法，具有代表性的有布尔模型、向量空间模型、概率模型等[61]。这些模型从不同的角度出发，使用不同的方法处理特征加权、类别学习和相似度计算等问题，在使用上，它们各有自己的优缺点。布尔模型简单，但效果差；概率模型按预测概率的大小输出结果，但计算量比较大，而且需要给出一个初始预测概率值；向量空间模型能够进行部分匹配，检索结果按相关性大小排序，更符合用户的需要，向量空问模型是目潜普遍使用的文本表示和处理模型。 *收稿日期：2012-02—14；修订日期：2012—05—23 究中心开放基金资助项目(kfjl00301) 大学图书馆员；肖旗梅(1976一)，女，湖南双峰人，在读博士，长沙理工大学讲师，研究方向：粗糙集理论与数据挖掘。．万方数据 160 模糊系统与数学在信息检索的过程中通常需要处理不完备、不确定的大容量数据，为了帮助人们智能化地分析数据，自动地分析一些事例，出现了新一代的软计算工具，如粗糙集理论、模糊集理论等，本文结合粗糙集与模糊集理论，提出一种新的信息检索的方法，该方法首先把文档信息根据关键词转化成一个信息表的形式，然后再根据粗糙集与模糊集理论对已知信息表进行处理，最后根据加权综合求所检索信息与已知信息的相似度，并根据所给相似度阈值，对数据库中将所有与检索文本相似度大于阈值的文本按相似度的大小排序，依次输出。 2 预备工具。经过近三十年的发展，该理论已渗透到人工智能的各个分支，在机器学习、决策分析、过程控制、模式识别与数据挖掘等领域取得了成功的应用p_12I。该理论的一个最大优点是它无须提供问题所需处理的数据集合之外的认何先验信息，能客观有效地分析和处理不精确、不确定与不完全数据，并从中发现隐含的知识，揭示潜在的规律。为了处理智能数据，粗糙集理论将知识进行符号化，将所要研究的数据用一个信息系统的形