软件建模与UML第十三章要点详解.pptVIP

下载本文档

1
0
约8.41千字
约 62页
2016-04-26 发布于湖北
举报
版权申诉

软件建模与UML第十三章要点详解.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第13章文本挖掘与Web挖掘目录 13.1 文本挖掘概述 13.2 文本挖掘 13.3 Web挖掘 13.1 文本挖掘概述 13.1.1 文本挖掘的基本概念 13.1.2 文本特征的表示 13.1.3 文本特征的提取 13.1.1 文本挖掘的基本概念文本挖掘一词出现于1998年第十届欧洲机器学习会议上。 Kodratoff认为文本挖掘的目的是从文本集合中，试图在一定的理解水平上尽可能多地提取知识。 1. 概念文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。文本数据包括：技术报告、文本集、新闻、电子邮件、网页、用户手册等。 2. 主要任务（1）短语提取提取文本集中所有相关的短语。（2）概念提取（聚类）对这些短语之间的关系，建立一个该文本集中的主要概念。（3）可视化显示和导航从多个视角出发进行分析. 3.文本挖掘与数据挖掘 13.1.2 文本特征的表示文本特征指的是关于文本的元数据：（1）描述性特征，例如文本的名称、日期、大小、类型等；（2）语义性特征，例如文本的作者、机构、标题、内容等。矢量空间模型（VSM）是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量： V(d)=(t1，w1(d)；…；ti，wi(d)；…；tn，wn(d)) d中出现的所有单词作为ti，或所有短语。wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。函数wi(d)=Ψ(tfi(d)) ，常用的Ψ有：（1）平方根函数（2）对数函数 13.1.3 文本特征的提取特征提取主要是识别文本中代表其特征的词项。文本特征分为一般特征和数字特征，其中一般特征主要包括动词和名词短语，如人名、组织名等；数字特征主要包括日期、时间、货币以及单纯数字信息。特征项抽取的判断算法（1）该特征项集合包含所有该类中出现的词。（2）对于每个词，计算词Wi和类别Cj的互信息量I(W,C) （3) 对于该类中所有的词，依据上面计算的互信息量排序。（4）抽取互信息量大的词作为特征项。（5）根据抽取的特征项进行向量压缩，精简向量表示。 13.2 文本挖掘 13.2.1 文本挖掘功能层次 13.2.2 关联分析 13.2.3 文本聚类 13.2.4 文本分类 13.2.1 文本挖掘功能层次 13.2.2 关联分析 13.2.3 文本聚类 13.2.4 文本分类 11.3 Web挖掘 13.3.1 Web挖掘概述 2. Web数据挖掘的意义 Web挖掘的实质: 从Web页面及其链接和用户对页面的访问中挖掘出用户感兴趣的知识。通过Web数据挖掘，可以从数以亿计存储大量多种多样信息的Web页面及其链接和用户对页面的访问中挖掘出需要的有用知识。 Web挖掘的数据来源是网站数据，这些数据包括网页文本信息、网页链接信息、网站的访问记录以及其他可收集的信息。例如：Web日志（服务器日志、错误日志、Cookie日志等）、在线市场数据、Web页面、Web页面超链接以及包括用户注册信息等数据源。 3．Web挖掘分类 13.3.2 Web内容挖掘 13.3.3 Web结构挖掘 2、中枢和权威 Kleinberg提出: 一个链接到许多权威站点的站点叫做中枢（hub）; 被许多中枢链接的站点叫做权威（authority）。这两个概念放在一起可以辨别出权威和大众化站点（如Yahoo）之间的区别。一种寻找权威的结构化的方法就是: 用其他的站点到该站点的链接数来将它们分级。要给站点分级，不要用指向它们的链接的总数，而是用指向它们的标题相关的中枢的数量来分级。 13.3.4 Web应用(访问信息）挖掘 1．Web应用挖掘的意义 2. Web应用挖掘中的技术 3. Web访问日志挖掘 4．应用挖掘的作用 (1)利用Web应用挖掘可以实现用户建模； (2)利用Web应用挖掘发现导航模式，从而改进Web站点的结构设计，实行个性化推销； (3)利用Web应用挖掘改进访问效率，改进服务器性能； (4)利用Web应用挖掘还可以进行个性化服务； (5)利用Web应用挖掘进行商业知识的发现； (6)利用Web应用挖掘进行用户移动模式的发现。 13.3.5 Web日志分析与实例 1．Web日志数据概述 Web访问日志数据具有如下基本特征： ⑴动态变化性 ⑵数据量大 ⑶多维性 ⑷结构化程度较高 ⑸包含大量琐碎数据 Web日志的记录格式包括如下常用字段： ①每次访问者的客户端机器IP地址。 ②用户访问日期