- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第13章 文本挖掘与Web挖掘 目录 13.1 文本挖掘概述 13.2 文本挖掘 13.3 Web挖掘 13.1 文本挖掘概述 13.1.1 文本挖掘的基本概念 13.1.2 文本特征的表示 13.1.3 文本特征的提取 13.1.1 文本挖掘的基本概念 文本挖掘一词出现于1998年第十届欧洲机器学习会议上。 Kodratoff认为文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识。 1. 概念 文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。 文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。 2. 主要任务 (1)短语提取 提取文本集中所有相关的短语 。 (2)概念提取(聚类) 对这些短语之间的关系,建立一个该文本集中的主要概念 。 (3)可视化显示和导航 从多个视角出发进行分析. 3.文本挖掘与数据挖掘 13.1.2 文本特征的表示 文本特征指的是关于文本的元数据: (1)描述性特征,例如文本的名称、日期、大小、类型等; (2)语义性特征,例如文本的作者、机构、标题、内容等。 矢量空间模型(VSM)是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量: V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d)) d中出现的所有单词作为ti,或所有短语。wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。 函数wi(d)=Ψ(tfi(d)) ,常用的Ψ有: (1)平方根函数 (2)对数函数 13.1.3 文本特征的提取 特征提取主要是识别文本中代表其特征的词项。 文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等; 数字特征主要包括日期、时间、货币以及单纯数字信息。 特征项抽取的判断算法 (1)该特征项集合包含所有该类中出现的词。 (2)对于每个词,计算词Wi和类别Cj的互信息量I(W,C) (3) 对于该类中所有的词,依据上面计算的互信息量排序。 (4)抽取互信息量大的词作为特征项。 (5)根据抽取的特征项进行向量压缩,精简向量表示。 13.2 文本挖掘 13.2.1 文本挖掘功能层次 13.2.2 关联分析 13.2.3 文本聚类 13.2.4 文本分类 13.2.1 文本挖掘功能层次 13.2.2 关联分析 13.2.3 文本聚类 13.2.4 文本分类 11.3 Web挖掘 13.3.1 Web挖掘概述 2. Web数据挖掘的意义 Web挖掘的实质: 从Web页面及其链接和用户对页面的访问中挖掘出用户感兴趣的知识。 通过Web数据挖掘,可以从数以亿计存储大量多种多样信息的Web页面及其链接和用户对页面的访问中挖掘出需要的有用知识。 Web挖掘的数据来源是网站数据,这些数据包括网页文本信息、网页链接信息、网站的访问记录以及其他可收集的信息。 例如:Web日志(服务器日志、错误日志、Cookie日志等)、在线市场数据、Web页面、Web页面超链接以及包括用户注册信息等数据源。 3.Web挖掘分类 13.3.2 Web内容挖掘 13.3.3 Web结构挖掘 2、中枢和权威 Kleinberg提出: 一个链接到许多权威站点的站点叫做中枢(hub); 被许多中枢链接的站点叫做权威(authority)。 这两个概念放在一起可以辨别出权威和大众化站点(如Yahoo)之间的区别。 一种寻找权威的结构化的方法就是: 用其他的站点到该站点的链接数来将它们分级。 要给站点分级,不要用指向它们的链接的总数,而是用指向它们的标题相关的中枢的数量来分级。 13.3.4 Web应用(访问信息)挖掘 1.Web应用挖掘的意义 2. Web应用挖掘中的技术 3. Web访问日志挖掘 4.应用挖掘的作用 (1)利用Web应用挖掘可以实现用户建模; (2)利用Web应用挖掘发现导航模式,从而改进Web站点的结构设计,实行个性化推销; (3)利用Web应用挖掘改进访问效率,改进服务器性能; (4)利用Web应用挖掘还可以进行个性化服务; (5)利用Web应用挖掘进行商业知识的发现; (6)利用Web应用挖掘进行用户移动模式的发现。 13.3.5 Web日志分析与实例 1.Web日志数据概述 Web访问日志数据具有如下基本特征: ⑴动态变化性 ⑵数据量大 ⑶多维性 ⑷结构化程度较高 ⑸包含大量琐碎数据 Web日志的记录格式包括如下常用字段: ①每次访问者的客户端机器IP地址。 ②用户访问日期
您可能关注的文档
最近下载
- 第10讲-地球科学概论_生物圈.pptx VIP
- 土方开挖施工方案(筏板、独立基础、条形基础、桩间土).pdf VIP
- 地球科学概论 第10讲 _生物圈——[武汉大学 地球科学概论].pdf VIP
- 通用汽车ECU密码一致性规范CYS9100 - The Per-ECU Password Utility.pdf VIP
- 2024秋《战场侦察监视技术与装备》答案.docx VIP
- 某公司年度经济活动分析报告.ppt VIP
- 明清时期举人名录.pdf VIP
- 苏教版小学科学五年级下册教学设计教案.pdf VIP
- 人教版七年级上册英语第一次月考试题(含答案).docx VIP
- 梅赛德斯-奔驰-R级-产品使用说明书-R350 4MATIC-251165-Rclass.pdf VIP
文档评论(0)