网络数据挖掘考试重点.docVIP

下载本文档

1
0
约1.56万字
约 17页
2025-09-25 发布于江苏
举报
版权申诉

网络数据挖掘考试重点.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《WebDatamining》复习与总结

课程主要内容

数据挖掘概述+WEB数据挖掘

数据挖掘（ch1概述）：又被称为数据库中的知识发现（ＫＤＤ）。是指从数据源（如DB、文本、图片、万维网等）探寻有用的模式或知识的过程。这些模式必须是有用的、有潜在价值的、并且是可以被理解的。数据挖掘是一门多学科交叉的学科，包括机器学习、统计、数据库、人工智能、信息检索和可视化。

WEB数据挖掘（ch6-12）的目标是从web超链接、网页内容和使用日志中探寻有用的信息。依据挖掘过程中使用的数据类别，web挖掘的任务划分为三种主要的类型：web结构挖掘、web内容挖掘和web使用挖掘。

web结构挖掘：从表征web结构的超链接中寻找知识。Ch6-ch8：信息检索与web搜索；链接分析；web爬取。

web内容挖掘：从网页内容中抽取有用的信息和知识。Ch9-ch11：结构化数据抽取：包装器生成；信息集成；观点挖掘。

web使用挖掘：从记录每位用户点击情况的使用日志中挖掘用户的访问模式。Ch12：web使用挖掘

各章主要知识点

（ch1）概述——主要知识点

万维网、超文本、超链接、超媒体的概念；

HTTP，HTML，URL，WEB，TCP/IP的含义；

Web数据的特点：P5－6；

数据挖掘的定义、数据挖掘任务、KDD过程、KDD的数据类型等；

Web数据挖掘的定义、分类、web数据挖掘过程等。

关联规则、列模式挖掘、分类与预测、聚类挖掘的基本概念及挖掘思想。

WEB结构挖掘：包括——信息检索与WEB搜索、链接分析、WEB爬取

（ch6）信息检索与web搜索

基本概念：

（1）信息检索IR：即帮助使用者从大号的数据集信息中发现需要的资料。了信息的采集、组织、存储、检索及分发。根据用户的查询信息得到相应的一组文档，得到的结果根据其与用户查询信息的相关程序排序，最常用的用户查询信息是一组关键字（又称词）。其基本信息是单个文档，大量的文档形成文本数据库。

（2）web搜索：是信息检索的一个重要分支。区别于信息检索的特点是：效率是WEB搜索的一个最为重要的问题；网页与传统信息检索系统中使用的普通文档不同：（1）具有超链接以及锚文本、（2）网页是半结构化的、（3）网页中的内容基本上是有组织的，并且在一些结构块中出现；作弊技术是网络上的一个重要的问题。

（3）IR基本架构：用户查询（关键字查询、布尔查询、短语查询、邻近查询、全文查询、自然语言查询等）+查询操作（作简单预处理如STOPWORDS删除等发送到检索引擎、或处理用户反馈——关联性反馈）+索引器（为提高查询效率对原始文档用某种数据结构做索引，形成文档索引——返回文档索引，如倒排索引）+检索系统（为每个索引文档计算与查询的相关度分数）

关键字查询

布尔查询

短语查询

邻近查询

全文查询

自然语言查询

预处理

关联性反馈

倒排索引

计算文档与查询的相关度分数

布尔模型（布尔查询：AND、OR、NOT）

向量空间模型（TF表、TF－IDF表、查询、相关度排名）

语言模型

概率模型

关联性反馈

（4）查全率（recall）、查准率（precision）、查准率－查全率曲线（PR曲线）、排名查准率（rankprecision）、F-score

（5）网页预处理：移除停用词、词干提取、数字、连字号、标点、字符大小写的处理；辨别不同的字段；辨别锚文本；移除HTML标签；辨别主要内容块；

（6）副本探测（对整个文本Hash——MD5算法；基于n元短语的副本探测技术）：即复制页面，可减少索引大小，改善搜索效率；

镜像：复制站点的技术。

（7）倒排索引：是一张列表，包含了每一个不同的词和包含该词的文档列表。可加快检索和查询的速度。其本身构建速度也非常快。记录格式：〈idj,fij,[o1,o2,…..o|fij|]〉

倒排索引的建立及压缩：

搜索引擎——基于向量空间模型和词匹配模型。爬取网页！！

元搜索引擎和组合多种排序：略

网络作弊的概念及分类：

内容作弊（词组作弊）：标题、元标记、正文、锚文本、网址。如内容重复、或添加其他不相关的

链接作弊（影响知名度分数）：链出链接作弊（指向中心页面——目录克隆）或链入链接作弊（创建蜜罐、网络目录中添加链接、用户生成内容是添加链接、交换链接、自发添加等）

隐藏技术：内容隐藏（隐藏垃圾项）、掩饰技术（垃圾网络服务器、重定向技术等）

抵制作弊：分类处理——区别对待内容作弊、链接作弊、隐藏技术等；信任排名方法可用。

2、主要知识点

IR系统的基本架构及原理

用户查询的主要形式：关键字查询、布尔查询、短语查询、邻近查询、全文查询、自然语言查询的含义

查询操作

索引器

检索系统

信息检索模型

主要有四种信息检索模型：布尔模型、向量空间模型、语言模型、概率模型。

熟悉布尔模型、

您可能关注的文档

文档评论（0）

182****6616 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

网络数据挖掘考试重点.docVIP