基于Rough集的关键词集约简.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Rough集的关键词集约简.pdf

基于Rough集的关键词集约简 陈 堞 (江西理工大学,江西南昌 330013) 摘要:内容分析是网络内容监控的重要步骤,但网络内容分析过程中涉及的关键词集一般较为庞大,故本文中 利用Rough理论对关键词进行约简,以减小关键词集的规模。 关键词 :内容分析;关键词;约简 中图分类号 :TP302.1 文献标识码:A 文章编号:1671.4792(2016)8.0029.04 KeywordSetReduction BasedonRough Set ChenLi (JiangxiUniversityofScienceandTechnology,JiangxiNnachang330013) Abstract:Contentanalysisisanimportantstepinnetworkcontentmonitoring,howeverthekeywordsetofwhichdur- inganalysisisrelativelylarge.ThepaperreducesitssizebyusingRoughtheory. Keywords:ContentAnalysis;Keyword;Reduction 0 引言 其重要。但是如何选取关键字是个非常棘手的问题, 网络上存在着大量内容,它们采用的都是 自然 为保证对象描述的精准性就必须选择大量的关键 语言描述,但在进行网络内容监控时,由于人类的自 字,但这样又会使得关键词集规模过于庞大。本文利 然语言存在二义性,理解性较差,所以在现有网络内 用Rough理论对关键词集合进行约简,可减小关键 容分析中最简单的方法就是根据关键字重复率进行 字集合的规模。 判定。简单的说,关键字判定即允许或禁止网络访问 1Rough集 是根据通过判定网站中是否出现关键的词或短语来 粗糙集理论(RoughSetTheory,简称 RST)是一 决定。监控者会预先设定一个界限,当关键字出现的 种处理含糊和不精确问题的数学工具,它是波兰科 频率达到了预定义的界限,则访问被禁止。 学家Pawlak[11于 1982年提出的,它能在保持分类能 通常情况下,内容分析过程中所设定的关键字 力不变的前提下,通过知识约简获得知识的分类规 集不会频繁地改变,因此关键字集的取舍就显得尤 则。Rough集理论对人工智能和认知科学十分重要 , 尤其在机器学习、知识获取、决策分析、模式识别、模 ★基金项 目:江西省科技厅艺术科学规划项 目“基于Rough 集的信息网络在线文化内容监控”(编号:YG2014096) 糊控制及其他各方面的应用。其中,不降低信息系统 一 29— 中分辨不同对象的区分能力的属性约简问题一直是 目前,学术界提出了许多屙陛约简算法,诸如遗 粗糙集理论研究的核心问题之一。 传算法3[]、差别矩阵算法[4]、数据分析算法[5]、基于属 2属性约简 性聚类的属性约简算法[蜘、基于信息嫡啊的约简算法 粗膨戳 的—们塑翔 宅内 属.I|约简 。信 等。 息系统约简主要是使信息量减少 ,将一些无关或多 本文在借鉴基于差别矩阵的属性约简算法的基 余的信息丢弃,而不影响其原有功能。通过属性约 础上利用二进制数的 “按位与运算”实现约简

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档