Web挖掘个性化模型研究_计算机论文.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘个性化模型研究_计算机论文.doc

Web挖掘个性化模型研究_计算机论文 Web挖掘个性化模型研究_计算机论文 摘 要 本文对个性化建模技术进行了研究,提出一个基于用户兴趣挖掘的个性化模型,并将其用于个性化元搜索引擎中,为个性化分析提供依据。该模型基于客户端,将用户的访问页面作为挖掘对象,不需要用户过多的参与,自动从用户的隐式反馈中推导出用户的兴趣。模型中将用户的兴趣分时分段,分层分类的进行记录、管理,并仿照人类记忆的遗忘规律对用户兴趣进行有选择、非平等的遗忘,通过不断的更新与优化模型,使模型能准确反映用户的兴趣特征。 关键词 个性化;用户兴趣挖掘1 引言 随着互联网内容指数级的增长,如何满足各种用户不同的个性化需求等,是新的信息服务系统面临的挑战性课题。个性化服务是Internet信息增长的必然结果。一个好的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。作鲂曰竦幕『秃诵模没P偷闹柿恐苯庸叵档礁鲂曰竦闹柿俊?lt/FONTgt2 相关技术研究 2.1 用户兴趣挖掘技术 在Web挖掘系统中对用户兴趣的挖掘所采取的途径主要有下面三种: ⑴从表达用户个性化的文件中获取用户的兴趣。该文件可包括两种信息:一种是用户主动填写的需求信息;另一种是用户提交的背景信息、注册信息等。 ⑵监视用户的信息搜索与浏览过程,分析用户的兴趣爱好,然后根据用户的兴趣爱好进行信息推荐(如letizia[1] 、WebWatch[2]等)。 ⑶从用户的浏览行为中推断出用户的兴趣,主要采用Web使用挖掘技术,通过感知用户的反应,分析用户行为的意图,获取用户感兴趣的相关信息及其感兴趣的感性程度。 2.2 用户建模技术 根据建模过程中用户的参与程度,用户建模技术可以分为:用户手工定制建模、示例建模和自动用户建模[3]。 ⑴ 用户手工定制建模 用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方法。用户手工定制建模的典型代表是My Yahoo和WebWatcher。 ⑴ 示例建模 示例建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。 示例建模对用户的依赖很少,构建的模型也更能全面地反映用户的兴趣爱好,但需要用户在浏览的过程中标注页面以得到示例,这就严重干扰了用户的正常浏览。 ⑶ 自动用户建模 自动用户建模是指根据用户的浏览内容和浏览行为构建用户模型。此方法改进了示例建模方法中的示例获取途径,将其转化为无需用户标注的自动示例获取方法。这种方法容易引入噪声,不利于构建高质量的模型。此外,对用户访问日志进行挖掘也是一条实现自动建模的途径。通过日志挖掘可以发现用户的访问模式、购买习惯等特点,构建用户模型。 3 Web挖掘的个性化模型总体设计 Web挖掘个性化模型主要由四个模块组成:页面预处理模块,页面分类模块,兴趣生成模块,更新与优化模块。它们之间的关系如图1所示。图1 Web挖掘个性化模型设计页面集合中存储了用户最近访问的页面,这些页面隐含着用户的兴趣,是该模型挖掘的起点。首先清除无用数据,只保留用户感兴趣的内容页面,并对这些内容页面进行特征提取等工作。随后,页面分类模块根据用户的个性化模型和分类参考模型将各个页面归类。兴趣生成模块负责统计各个兴趣类中的页面特征词信息,综合生成用户兴趣向量。更新与优化模块是模拟人类记忆的遗忘规律,对兴趣类特征词的权值、各个兴趣类的兴趣度进行调整、更新,并有选择地将一些短期兴趣转化成长期兴趣,逐步优化模型。各个模块的功能具体介绍如下: ⑴ 页面预处理模块 该模块主要完成两部分工作:一、对WWW缓冲区中的数据进行净化,清除与用户兴趣挖掘无关的文件;二、对保留的内容页面进行格式转换,切分出页面中所有的特征词,滤除词条中判断能力较差的停用词、超高频词和超低频词,然后根据词在页面中出现的位置,分别乘以不同的加权系数,得到最终的权值,构成页面特征向量。 ⑵ 页面分类模块 得到页面特征向量后,可通过计算页面与主题概念类之间的相似度来判断页面属于哪一类。计算相似度时,我们综合考虑了个性化模型中的用户兴趣向量和分类参考模型中的主题兴趣类向量,将页面与这两者的相似度和的平均值作为页面与主题概念类的相似度,然后将页面归类到相似度值最大的主题类。 ⑶ 兴趣生成模块 所有页面处理完以后,参考兴趣分类模型与分类词表,逐类统计页面信息与特征词信息,并根据TF-IDF方法计算出各个特征词的权值,生成用户兴趣类向量,进而将用户的兴趣特征由关键词抽象成概念主题,同时引入时间机制,突出用户兴趣的时效性。 ⑷ 更新与优化模块 更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗忘,调整用户对各个兴趣类的爱好程度,并周期性地将用户短期兴趣中的重要信息转移到长期兴趣中。通过不断的更新与优化,个性化模型能及

文档评论(0)

wyj199216 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档