基于行为模式进行网络搜索信息过滤.docVIP

基于行为模式进行网络搜索信息过滤.doc

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于行为模式进行网络搜索信息过滤.doc

  基于行为模式进行网络搜索信息过滤 对大量信息样本进行的统计、分析和计算,建立行为模式数学模型,利用这种具有极高行为特征的模型,对新的信息进行分析判定。      2.2数据挖掘   数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。   对于垃圾信息行为模式进行信息挖掘,主要是针对相关dash;主元分析,这种方法可以有效的找出数据中最主要的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。利用主元分析技术对于垃圾信息的不同行为模式,利用应用线形代数知识进行科学求解,最大程度去掉冗余和干扰,找到垃圾信息的主要行为模式。      2.4基于行为模式的垃圾过滤模型   通过行为模式识别技术对网络搜索结果中的垃圾信息进行过滤,其思想是对大量垃圾信息样本进行分析,建立垃圾信息行为特征模型,利用这个特征模型对搜索的结果信息进行分析、判断,过滤其中的垃圾信息。整个垃圾信息过滤模型,基于信息知识智能理论指导,采用数据挖掘方法提取垃圾信息的行为规则,从而建立垃圾信息过滤模型。信鼠表示事物状态变化方式,知识表示事物状态变化规律,智能表示根据已知事物变化规律指定对未知事物检测的规则。   智能模型建立步骤:   首先大量收集不同搜索结果中包含的垃圾信息;根据Inktomi对垃圾信息定义对搜索的信息进行分类整理,并进行垃圾信息预处理,通过数据格式和内容调整使数据更符合数据挖掘的需要;根据数据挖掘算法对垃圾信息行为模式进行挖掘;利用主元分析理论,对垃圾信息的行为特征进行计算分析,找到数据中最主要的元素和结构;将垃圾信息的主要行为进行知识表示;从生成的知识中生成求解问题的策略和规则;利用生成的策略和规则建立垃圾信鼠过滤模型,从而解决所面对的实际问题。   建立模型需要解决的关键问题:   垃圾信息的收集是否全面,能否采集到准确,真实的数据来是研究基础;垃圾信息中得到的数据适应性,是否能对这一类垃圾信息真实全面反应;对垃圾信息的行为模式进行数据挖掘时采用的算法;提取垃圾信息各种行为中的主要元素的方法;对垃圾信息的行为模式特征的分析,产生垃圾信息过滤的规则集。      3 信息过滤系统      如图1所示,为信息过滤系统结构图,在原有的网络搜索引擎系统中,通过将文本索引中包含的索引信息发送给过滤服务器,通过索引信息中链接查询相关WEB,分析该WEB的行为特征,与垃圾信息行为特征库中不同 类型的垃圾信息的行为特征进行比较,清理掉被判定为垃圾信息的搜索结果信息,将正常行为信息存入索引数据库。   其中,过滤服务器需要完成4方面的工作,包括信息采样、行为解析、特征比较、信息过滤。信息采样:提取文本索引中的信息,包括链接,文本信息等信息。行为解析:对不同信息进行分析,提取主要行为特征。特征比较:将不同.擎结构,相对独立,易于升级维护。搜索结果相对公平:由于过滤系统相对独立,可由第三方开发商设计指定,避免网络搜索提供商出于自身利益等考虑而为用户提供的搜索结果。节省用户信息搜索时间:由于垃圾信息减少,节省了用户需要大量打开不同链接查询信息的时间。先进的过滤技术:传统采用内容关键字过滤时,由于某些网站随意修改关键词内容,这样原有的词库不能找到匹配的关键词,从而无法过滤垃圾信息,而行为模式识别技术从垃圾信息的特征行为进行判定,即使进行了关键词内容修改仍可以判定垃圾信息。      5 总结      搜索结果中的垃圾信息,对于用户和搜索引擎自身都带来了极大的负面影响,传统的信息过滤技术已经不能满足对垃圾信息的过滤,通过先进的行为模式识别技术来设计过滤系统,可以增加垃圾信息过滤的准确性,提高搜索结果的正确性,从而满足用户对信息获得的要求。

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档