大数据处理算法与应用实践.docVIP

下载本文档

24
0
约5.06千字
约 11页
2018-11-02 发布于福建
举报
版权申诉

大数据处理算法与应用实践.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据处理算法与应用实践

大数据处理算法与应用实践　　随着存储价格的下降、计算能力的提升、3G及宽带的增加，以及感知器成本的下降，大数据将会获得更多的关注、研究、开发和应用。海量非结构化流式数据将成为大数据时代重要的数据形态，这也将对传统数据处理系统架构带来挑战，要求大数据处理系统逐渐由面向流程设计转变为面向数据设计。　　本文将首先讨论非结构数据处理流程涉及到的主要算法和技术，并在最后列出非结构化处理在典型行业的一些实际应用案例。　　一非结构化数据处理流程　　非结构化处理流程主要以网页处理为例来阐述，包括三个阶段，分别是信息采集、网页预处理和网页分类。　　信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程；网页预处理主要是进行一些数据清洗的工作，保证分类质量；网页分类工作则是通过数据挖掘算法训练出来的分类模型，对分类数据进行分类提炼，得出有价值的信息。　　信息采集　　信息采集面对的是特定的专业人群，其采集的信息只限定于特定的主题和相关的领域，出于对性能和成本的考虑其不必也不可能对整个互联网进行遍历，因此主题信息采集中通常需要研究以何种方式预测链接指向的页面与主题的相关性，并判断其是否值得访问；需要研究以何种爬行策略访问Web，以在尽可能多地采集到主题相关页面的同时尽可能少地采集到主题无关的页面。　　信息采集的基本方法是通过预先设定的种子链接集，利用HTrP协议访问并下载页面，在用各种分析算法分析页面与主题的相关性之后提取出待访问的链接，预测链接指向主题相关页面的可能性，再以各种不同的爬行策略循环迭代地访问网页。　　信息采集根据基于主题的不同可分为以下两类：一类是基于内容的主题信息采集：它需要建立一个针对主题的词表。另一类是基于超链接的主题信息采集：它是基于网页之间的引用关系，类似Page rank算法。　　网页预处理　　网页预处理部分本文主要介绍一下网页去重，网页去重可以归为两类：一类是基于URL的对比去重，它适用哈希算法；另一类是基于内容的对比去重，它适用基于信息指纹的文本相似度算法。　　网页去重需要先对文档对象的特征抽取，需要将文档内容分解，由若干组成文档的特征集合表示，该步骤主要是为了方便特征比较计算相似度。之后需要针对特征的压缩编码，主要通过哈希编码等文本向数字串映射方式以方便后续的特征存储以及特征比较，起到减少存储空间，加快比较速度的作用。最后需要进行文档的相似度计算，这一步需要根据文档特征重合比例来确定是否重复文档。一般是对网页提取一个信息特征，通常是一组词，或者是词加权重，调用特定的算法，转化为一组代码，也被称为指纹。若两个页面有相当数量的相同指纹，那么可以认为这两个页面内容重复性很高。　　网页分类　　分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确地分类，有助于人们认识世界，使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类，它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。　　在搜索引擎中，文本分类主要有以下用途：相关性排序会根据不同的网页类型做相应的排序规则；根据网页是索引页面还是信息页面，下载调度时会做不同的调度策略；在做页面信息抽取的时候，会根据页面分类的结果做不同的抽取策略；在做检索意图识别的时候，会根据用户所点击的URL所属的类别来推断检索串的类别等等。　　网页分类方法有SVM分类方法和朴素贝叶斯方法：其中比较推荐的是SVM分类方法，Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起，然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去，这种分类器被称为支持向量机（SupportVector Machine，简称SVM）。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法。　　典型的SVM分类有两种，一种是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能；另一种是基于结构风险最小化理论之上在特征空间中建构最优分割超平面，使得学习器得到全局最优化，并且在整个样本空间的期望风险以某个概率满足一定上界。　　典型的朴素贝叶斯分类，它可以分为模型训练、模型分类和分类结果评估三个阶段：模型训练阶段，主要计算训练集下所有类别的先验概率，以及所有特征词在每一个类别下的条件概率；模型分类阶段，对训练集建立模型；对每个待分类文档计算后验概率，后验概率大的类别为文档所属类