基于云计算的WAP日志处理和用户上网行为分析.docVIP

下载本文档

3
0
约4.77千字
约 8页
2016-09-04 发布于北京
举报
版权申诉

基于云计算的WAP日志处理和用户上网行为分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于云计算的WAP日志处理和用户上网行为分析.doc

基于云计算的WAP日志处理和用户上网行为分析　　摘要：在移动互联网迅猛发展的时代，电信运营商对用户上网日志等非结构化数据的处理、分析和挖掘变得尤为重要，传统的基于小型机和关系型数据库的数据处理系统已经无法满足海量非结构化数据的及时处理需求，相对传统做法，搭建X86集群、利用云计算技术对海量非结构化数据进行处理，具有高效、低成本、易扩展等方面的巨大优势。另外，用户上网日志中包含着大量的个性化信息，如何充分挖掘和分析这些信息，对电信运营商在移动互联时代实现精细化运营至关重要。该论文主要以用户WAP日志为例，详细阐述如何利用云计算技术处理海量的非结构化数据，进而去挖掘和分析用户上网行为。　　关键词：非结构化数据云计算用户上网行为　　中图分类号：TP393.08 文献标识码：A 文章编号：1672-3791（2014）11（c）-0011-02 　　随着3G时代的来临，电信行业竞争日趋激烈，而移动互联业务的快速发展，也使各大电信运营商面临新的机遇和挑战。如何在信息大爆炸时代，对电子商务、社交网络、物联网、新医疗、LBS、视频、音乐等方面产生的海量非结构化数据进行有效处理并提供高价值的分析，是业内面临的共同难题。　　据不完全统计，电信运营商接近50%的移动互联网流量来自国内排名前10的WAP网站。从这个角度分析，虽然当前各种移动互联业务层出不穷，种类繁多，但WAP应用仍然占据主导地位。此外，互联网上知名门户和垂直类网站也纷纷建立WAP版，抢占移动互联网市场。对电信运营商而言，业务多样化趋势情况下，更需要很好地理解业务价值、客户价值，促进精细化营销；制定相应策略与控制，降低流量成本和提升流量收入，促进流量业务发展。通过云计算解决方案，对海量WAP日志进行数据处理和挖掘，低成本高效率的支撑业务应用。　　1 需求分析　　1.1 功能需求　　（1）数据源。　　用户WAP上网日志记录，每天处理数据量约1T，45亿条记录。　　（2）WAP日志的云ETL。　　提供基于HADOOP集群的数据处理平台，通过统一调度实现并行ETL过程。　　（3）网页分类。　　①从WAP日志提取URL，将URL经过网页分类等处理，转化为可以理解的指定的网页标签，并保留关键字；　　②网页标签分为三级，每个网页的关键词保留5个，图书和音乐类网页保留图书名和音乐名作为关键字；　　③按照标签进行网页分类应具备一定的灵活性，除了一级标签保持稳定外，二级和三级标签均可因不同的业务分析需求而变化和重构。　　（4）用户上网行为分析。　　基于客户的访问行为，识别其偏好特征，根据内容偏好特征进行客户细分，并支持目标客户群提取，以便支撑营销活动。　　1.2 性能需求　　基于以上业务需求，系统能力要求至少配备6台X86服务器，其中1台为主节点，5台为数据节点。具体配置如下。　　（1）服务器型号是IBM 3650m3；　　（2）CPU为双路六核，Intel X5650处理器，2.66GHz主频；　　（3）内存是48GB；　　（4）存储是6*1TB SATA硬盘，7200转；　　（5）网口是4个千兆电口。　　2 关键技术　　2.1 网页数据的获取　　爬虫的工作原理：首先爬虫根据WebDB生成一个待抓取网页的URL集合叫做Fetchlist，接着下载线程Fetcher根据 Fetchlist将网页抓取回来，如果下载线程有很多个，那么就生成很多个Fetchlist，也就是一个Fetcher对应一个Fetchlist。然后爬虫用抓取回来的网页更新WebDB，根据更新后的WebDB生成新的Fetchlist，里面是未抓取的或者新发现的URLs，然后下一轮抓取循环重新开始。这个循环过程可以叫做“产生/抓取/更新”循环。　　2.2 基于分布式系统的海量数据处理　　分布式系统采用基于Hadoop的集群架构，其特征主要有以下几点。　　（1）先进性；　　（2）高可靠性；　　（3）成熟性；　　（4）易维护性。　　2.2.1 分布式存储系统　　分布式平台底层的基本结构是基于一组特定的节点构建而成，这些节点主要分为两类，一类是元数据节点（NameNode），它在分布式存储系统内部提供元数据服务；另一类是数据节点（DataNode），为系统提供数据存储块。　　一个分布式集群由一个元数据节点和大量的数据节点构成，并被许多用户端访问。出于可靠性考虑，每一个块被复制到多个数据节点上。默认情况下，保存三个副本，本地节点一份，与该节点相同的机架上一份，不同机架节点上一份，但这个副本数量可以由用户指定。　　每个分布式集群通常只有一个元数据节点，用来维护文件系统所有的元数据（meta