基于Web挖掘的个性化信息推荐讲解.ppt

下载文档 降价啦

6
0
约1万字
约 88页
2016-11-11 发布于湖北
举报
版权申诉
保障服务

基于Web挖掘的个性化信息推荐讲解.ppt

1、本文档共88页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第7章整合Web语义知识的个性化信息推荐方法 7.1.2 整合Web语义知识的个性化信息推荐方法的优势整合Web语义知识的推荐方法的特点保留了概念之间以及概念属性之间的关系，能够在复杂语义层次进行逻辑推理，从而有效弥补基于Web文本挖掘方法的不足。方法的优势：（5点）第7章整合Web语义知识的个性化信息推荐方法 7.2 本体的基本理论十七世纪哲学领域，20世纪70年代引入计算机领域 7.2.1 本体的概念与特点 1991年的定义 1993年的定义 1997年的定义 1998年的定义：概念模型、明确、形式化、共享本体的特点：详尽性、专业性、描述粒度、元模型功能、语义互操作、语言相关性第7章整合Web语义知识的个性化信息推荐方法 7.2.2 本体的分类概念分类理论概念的元特性：持久性、非持久性、反持久性、半持久性、载体标识性、支持表示性、外部依赖性根据应用主题分类领域本体、通用和常识本体、任务本体、知识本体、语言学本体根据表示的形式化程度分类完全非形式化本体、结构非形式化本体、半形式化本体和完全形式化本体根据研究层次分类顶层本体、领域本体、任务本体、应用本体第7章整合Web语义知识的个性化信息推荐方法 7.2.3 本体的建模元语类或概念关系函数公理实例 7.2.4 本体的表示方法本体的框架表示本体的描述逻辑表示四元素表示法、六元组表示法√ 第7章整合Web语义知识的个性化信息推荐方法 7.3 Web领域本体的构建 7.3.1 本体构建的一般方法 5条准则：明确性和客观性、一致性、可扩展性、最小编码偏差、最小本体承诺 3个补充规则：概念名称命名标准化、概念层次多样化、语义距离最小化构建本体的方法：IDEF5、骨架法、TOVE法、KACTUS工程法、METHONTOLOGY法、SENSUS法、七步法比较分析第7章整合Web语义知识的个性化信息推荐方法 7.3.2 Web领域本体的构建过程领域本体的知识工程构建方法，图7-2 确定Web领域本体的范围与领域列举Web领域本体中重要的术语与概念构建Web领域本体框架，图7-3 设计Web领域元本体对Web领域本体编码、形式化 Web领域本体的检验评价第7章整合Web语义知识的个性化信息推荐方法 7.4 基于Web领域本体的个性化信息推荐方法 7.4.1 导出语义层次的Web使用文档关联矩阵由语法层次的Web使用文档→语义层次的Web使用文档 7.4.2 生成个性化推荐Web页面集 1. 基本原理设I={i1,i2,…,im}是项（Item）的集合。记D为事务（Transaction）的集合（事务数据库），事务T是项的集合，并且T?I。设A是I中一个项集，如果A?T，那么称事务T包含A。定义1：关联规则是形如A?B的蕴涵式，这里A?I，B?I，并且A?B=?。定义2：规则的支持度。规则A?B在数据库D中具有支持度S，表示S是D中事务同时包含AB的百分比，它是概率P(AB)，即：其中|D|表示事务数据库D的个数，表示A、B两个项集同时发生的事务个数。定义3：规则的可信度规则A?B具有可信度C，表示C是包含A项集的同时也包含B项集，相对于包含A项集的百分比，这是条件概率P(B|A)，即：其中表示数据库中包含项集A的事务个数。定义4：阈值。在事务数据库中找出有用的关联规则，需要由用户确定两个阈值：最小支持度（min_sup）和最小可信度（min_conf）。定义5：项的集合称为项集（Itemset），包含k个项的项集称之为k-项集。如果项集满足最小支持度，则它称之为频繁项集（Frequent Itemset）。定义6：关联规则。同时满足最小支持度（min_sup）和最小可信度（min_conf）的规则称之为关联规则，即成立时，规则称之为关联规则，也可以称为强关联规则。 2. 关联规则挖掘过程关联规则的挖掘一般分为两个过程：（1）找出所有的频繁项集：找出支持度大于最小支持度的项集，即频繁项集。（2）由频繁项集产生关联规则：根据定义，这些规则必须满足最小支持度和最小可信度。概括地说：可信度是对关联规则地准确度的衡量。支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性。有些关联规则可信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，因此也不重要。 8.2.2 Apriori算法基本思想 Apriori是挖掘关联规则的一个重要方法。算法分为两个子问题：找到所有支持度大于最小支持度的项集（Itemset），这些项集