A数据挖掘20..docxVIP

下载本文档

118
0
约 36页
2017-01-09 发布于重庆
举报
版权申诉

A数据挖掘20..docx

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

A数据挖掘20.

? WEB数据挖掘一般现在分为两大类，一类关系知识挖掘，就是发现网络连接的内在模式，一类是内容知识挖掘，内容知识挖掘可以划分为结构型、半结构型以及非结构型挖掘，文本挖掘属于非结构型挖掘。?pagerank算法与his算法的区别:算法和算法都是基于链接分析的搜索引擎排序算法，并且在算法中两者都利用了特征向量作为理论基础和收敛性依据。虽然两种算法均为链接分析算法，但两者之间还是有明显的区别的。HIS算法计算的值只是相对于某个检索主题的权重，因此算法也常被称为XX算法；而pagerank算法是独立于检索主题，因此也常被称为XX算法。? 内容挖掘与使用挖掘的区别:前者是指对Web页面的内容进行挖掘，后者指对用户访问Web时留下的访问记录进行挖掘（如：访问日志）。?话题探测与话题追踪的区别:话题检测与跟踪（Topic?Detection?and?Tracking）是近年提出的一项信息处理技术，其中检测与追踪是这项技术对信息处理的不同过程，具体来说是两者是继起关系，即：先探测出敏感话题继而对话题进行追踪。1.中文网页分类的工作原理。在分类的时候首先会遇到文档形式化表示的问题，文档模型有3种：向量空间模型，布尔模型和概率模型，其中我们常用的是向量空间模型。向量空间模型的核心描述如下：文档（Document）：文本或文本中的片断（句子或段落）。特征项（Term）：文档内容用它所包含的基本语言单位来表示，基本语言单位包括字、词、词组、短语、句子、段落等，统称为特征项。特征项权重（Term?Weight）：不同的特征项对于文档D的重要程度不同，用特征项Tk附加权重Wk?来进行量化，文档D可表示为（T1，W1；T2，W2；…；Tn，Wn）向量空间模型（Vector?Space?Model）：对文档进行简化表示，在忽略特征项之间的相关信息后，一个文本就可以用一个特征向量来表示，也就是特征项空间中的一个点；而一个文本集可以表示成一个矩阵，也就是特征项空间中的一些点的集合。相似度（Similarity）：相似度Sim（D1，D2）用于度量两个文档D1和D2之间的内容相关程度。当文档被表示为文档空间的向量，就可以利用欧氏距离、内积距离或余弦距离等向量之间的距离计算公式来表示文档间的相似度。?其中特征选取是文本表示的关键，方法包括：文档频率法（DF）、信息增益法和互信息法等等。?在做特征选取之前，一般还要进行预处理的工作，要对先对网页降噪。另外在实际的分类中，除了利用文档的内容特征之外，可能还会用到实际应用中所特有的特征，比如在网页分类中，可能用到url的特征、html的结构特征和标签特征等信息。? ?分类的基本步骤是这样的：定义分类体系，将预先分类过的文档作为训练集，从训练集中得出分类模型，然后用训练获得出的分类模型对其它文档加以分类。?2.互联网搜索引擎的的工作原理。　搜索引擎的基本工作原理包括如下三个过程：首先在互联网中发现、搜集网页信息；同时对信息进行提取和组织建立索引库；再由检索器根据用户输入的查询关键字，在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并将查询结果返回给用户。?　1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序（spider）。Spider顺着网页中的超链接，连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。?　　2、处理网页。搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引库和索引。其他还包括去除重复网页、分词（中文）、判断网页类型、分析超链接、计算网页的重要度/丰富度等。?3、提供检索服务。用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。?聚类算法用于根据数据的特征发现数据项的相似性，并将相似的数据项放在同一个组中，相似性采用距离进行描述。K-means聚类?简单的说，一般流程如下：先随机选取k个点，将每个点分配给它们，得到最初的k个分类；在每个分类中计算均值，将点重新分配，划归到最近的中心点；重复上述步骤直到点的划归不再改变。下图是K-means方法的示意。K-Means算法的SAS实现K-means算法可以用SAS的proc fastclus实现。主要涉及两个问题。首先是初始点的选择。如果指定replace=random，则系统随机选取maxcluster选项指定个数的完整观测作为凝聚点。如果分析员对研究情景比较了解，可以利用专业知识指定初始分类，那么可以在proc fastclus中设定seed=dataset选项，SAS会从dataset中读取前k