一个基于案例的WWW自适应信息过滤方法.docVIP

下载本文档

5
0
约2.14千字
约 4页
2017-08-24 发布于重庆
举报
版权申诉

一个基于案例的WWW自适应信息过滤方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一个基于案例的WWW自适应信息过滤方法.doc

一个基于案例的WWW自适应信息过滤方法摘要：本文提出一个基于案例的用于实现网上信息过滤的方法。该系统能够从网上收集选择符合用户的兴趣和个性的HTML/text文档。系统的一个明显的特征就是它混合的体系结构，它的子符号模块融合在基于案例的推理机中。该系统是基于一个用户模型化组件，它是为互联网个人用户建立和保持的长期模型所设计。目前，该系统接口担当着网页搜索引擎的智能接口。我们已经得到实验结果正激励和支持着该项选择：基于案例的自适应信息过滤方法。关键词：信息过滤，用户模型化，CBR，人工智能，知识表示介绍互联网的迅猛发展，使它成为全世界信息交流的主要渠道。包括带宽问题，万维网的发展壮大使终端用户能够处理网上海量信息变得十分必要。信息过滤[Belkin:92]逐渐成为信息社会的相应的问题。这篇信息过滤文章包括了各种问题，比如，一设计高效实用的过滤标准，二设计友好的、非强迫的智能接口来引导用户获取他们最感兴趣的信息。在这项工作中，我们提出一个信息过滤系统，用于在万维网中选择HTML/Text文档。该系统根据用户的兴趣（不感兴趣）选择文档，通过系统交互实现。这样做，系统利用一个用户模型化的特别子系统，特别为互联网用户设想。现在的系统一个明显的特征就是它的混合体系结构：一个基于案例的推理机和一个子符合模块的结合（这里，是一个人工神经元网络）。该系统已经发展为基于奔腾II用Java编写的平台。该系统基于一个完全根据经验的方法，在系统行为中测试假定并利用非参数的统计。本文的结构如下：第二部分，提出该系统总的体系结构。第三部分，简单介绍用户模型化组件。第四部分，描述信息过滤组件内部剖析。接着，描述了整个系统的评价结果。在总结部分，我们给出最终评论。总的体系结构图1显示了该系统总的结构。它由以下的模块组成：用户模型，表示一个特定用户需要的信息特征；用户模型化组件，能够动态的建立用户模型，系统通过交互来实现；外部的获取器，以AltaVista作为接口；信息过滤组件，根据用户模型的内容为用户选择相应文档；用户接口，管理交互的操作。图1 该系统总的体系结构当一个用户第一次与系统进行交互时，她/他的用户模型需要被抓取。为了快速地建立一个可靠的模型，系统会向用户提问，要求用户对每一个范围的种类的感兴趣程度进行打分，如图2所示。用户可以设置一系列的提问反馈到外部的WWW搜索引擎，已经被过滤所得到的文档就会反馈给用户。在这过滤的过程中，系统使用两种不同的提纯级别，第一，精糙的的一种，只有当第一阶段成功完成后，才会执行下面详细的步骤。在正常的使用下，系统给出一系列的面板，如图2显示了第一个过滤面板。这里，左边的面板显示了用户询问后通过搜索引擎给出的文档列表。右边的面板显示了文档的详细信息，和报告过滤结果。对更简单一点的用法，系统自动对文档列表进行排序以便于帮助用户找到最想要的文档。用户通过双击浏览所需要的文档，并且，他能表达一个简单的反馈（在窗口的右上方处）有三个不同的值：非常好，好或差，目的是为了减轻用户的负担[morshi:96]。通过这种方式，系统能够根据用户偏爱更改她/他的模型。而且，以下的[mulnig:96]一个系统对象的浏览者已经被提供为了允许用户通过有效的图形化界面去检查所有的系统数据结构以缩短用户和系统之间的语义差距。在下一节中，将介绍用户模型化组件。图 2. 左边, 与新用户会话的屏幕抓取图, 右边是系统询问界面用户模型化组件用户模型化过程需要验证当前用户，返回相应的用户模型（或执行一个初步的会话，如果没有的话就新建一个）接着在用户与系统交互的基础上更新模型，最后，提供数据回复有关主机系统的用户提出的直接请求。我们的用户模型化子系统像其它系统一样以文献建议（查阅，例如[Tasso:94]），扩展它的信任有关用户的一组固定模型。一个固定模型是给出的类别的用户的主要特征的正式描述[Rich:83]。固定化是缺省的推理有关用户一种方法：通过对用户分类我们开发很多关于该类用户的缺省信息。这信息随后可被系统修正（推理活动，不停的检查）当它获得有关用户越来越准确的兴趣的知识。读者若对过去建立的用户模型推理机制感兴趣的话，可查阅[ewcbr:98]。在该用户模型中收录了以下条目：一个内容向量，那是一个组数值表示信息内容对向量空间模型适合匹配程序，你在4中的解释；通过成对的理由（他们表达元素的起源，如果从最初的会话或当前活动的固定模型，或反馈，等等）此外，改变用户模型由固定的层次所管理，以便低层的条目不能履盖高层的条目。例如一个元素被用户的反馈所更改而不受固定模型所影响，等等。一个当前活动上下文的列表。对每一个用户而言，上下文都被初始化为相同，有一个非零值在她/他的用户模型内容向量对每一个簇有一个或多个非