基于Web挖掘的个性化信息推荐讲解.ppt

  1. 1、本文档共88页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7章 整合Web语义知识的 个性化信息推荐方法 7.1.2 整合Web语义知识的个性化信息推荐方法的优势 整合Web语义知识的推荐方法的特点 保留了概念之间以及概念属性之间的关系,能够在复杂语义层次进行逻辑推理,从而有效弥补基于Web文本挖掘方法的不足。 方法的优势:(5点) 第7章 整合Web语义知识的 个性化信息推荐方法 7.2 本体的基本理论 十七世纪 哲学领域,20世纪70年代 引入计算机领域 7.2.1 本体的概念与特点 1991年的定义 1993年的定义 1997年的定义 1998年的定义:概念模型、明确、形式化、共享 本体的特点:详尽性、专业性、描述粒度、元模型功能、语义互操作、语言相关性 第7章 整合Web语义知识的 个性化信息推荐方法 7.2.2 本体的分类 概念分类理论 概念的元特性:持久性、非持久性、反持久性、半持久性、载体标识性、支持表示性、外部依赖性 根据应用主题分类 领域本体、通用和常识本体、任务本体、知识本体、语言学本体 根据表示的形式化程度分类 完全非形式化本体、结构非形式化本体、半形式化本体和完全形式化本体 根据研究层次分类 顶层本体、领域本体、任务本体、应用本体 第7章 整合Web语义知识的 个性化信息推荐方法 7.2.3 本体的建模元语 类或概念 关系 函数 公理 实例 7.2.4 本体的表示方法 本体的框架表示 本体的描述逻辑表示 四元素表示法、六元组表示法√ 第7章 整合Web语义知识的 个性化信息推荐方法 7.3 Web领域本体的构建 7.3.1 本体构建的一般方法 5条准则:明确性和客观性、一致性、可扩展性、最小编码偏差、最小本体承诺 3个补充规则:概念名称命名标准化、概念层次多样化、语义距离最小化 构建本体的方法:IDEF5、骨架法、TOVE法、KACTUS工程法、METHONTOLOGY法、SENSUS法、七步法 比较分析 第7章 整合Web语义知识的 个性化信息推荐方法 7.3.2 Web领域本体的构建过程 领域本体的知识工程构建方法,图7-2 确定Web领域本体的范围与领域 列举Web领域本体中重要的术语与概念 构建Web领域本体框架,图7-3 设计Web领域元本体 对Web领域本体编码、形式化 Web领域本体的检验评价 第7章 整合Web语义知识的 个性化信息推荐方法 7.4 基于Web领域本体的个性化信息推荐方法 7.4.1 导出语义层次的Web使用文档 关联矩阵 由语法层次的Web使用文档→语义层次的Web使用文档 7.4.2 生成个性化推荐Web页面集 1. 基本原理 设I={i1,i2,…,im}是项(Item)的集合。记D为事务(Transaction)的集合(事务数据库),事务T是项的集合,并且T?I。 设A是I中一个项集,如果A?T,那么称事务T包含A。 定义1:关联规则是形如A?B的蕴涵式,这里A?I,B?I,并且A?B=?。 定义2:规则的支持度。 规则A?B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即: 其中|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。 定义3:规则的可信度 规则A?B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A),即: 其中 表示数据库中包含项集A的事务个数。 定义4:阈值。 在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf)。 定义5:项的集合称为项集(Itemset),包含k个项的项集称之为k-项集。 如果项集满足最小支持度,则它称之为频繁项集(Frequent Itemset)。 定义6:关联规则。 同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称之为关联规则,即 成立时,规则称之为关联规则,也可以称为强关联规则。 2. 关联规则挖掘过程 关联规则的挖掘一般分为两个过程: (1)找出所有的频繁项集:找出支持度大于最小支持度的项集,即频繁项集。 (2)由频繁项集产生关联规则:根据定义,这些规则必须满足最小支持度和最小可信度。 概括地说: 可信度是对关联规则地准确度的衡量。 支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。 8.2.2 Apriori算法基本思想 Apriori是挖掘关联规则的一个重要方法。 算法分为两个子问题: 找到所有支持度大于最小支持度的项集(Itemset),这些项集

文档评论(0)

四娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档