- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hadoop的用户搜索行为分析①-计算机系统应用
2015 年 第 24 卷 第 12 期 计 算 机 系 统 应 用
基于 Hadoop 的用户搜索行为分析①
宋芳琴
(绍兴职业技术学院, 绍兴 312000)
摘 要: 用户搜索网页行为的分析是目前信息搜索的研究的热点, 本文针对云计算中的并行计算搜索存在的检
索速度慢, 效率低等缺点提出了一种基于 Hadoop 海量用户搜索网页行为的方法, 该方法主要是在网页 PageRank
算法的基础上, 将用户影响因子, 时间向量和网页相关性因素加入到算法中, 使得改进后的 PageRank 算法得到
了提高, 进一步提高用户搜索网页行为的效率, 实验中通过使用优酷实验室中的查询日志分析证明了本文的算
法具有良好的效果, 并对云计算中的用户行为分析具有一定的指导意义.
关键词: Hadoop 用户搜索 行为分析 海量日志 PageRank 算法
Analyzing Users’ Searching Behavior Based on Hadoop
SONG Fang-Qin
(Shaoxing Vocational Technical College, Shaoxing 312000, China)
Abstract: The analysis of users’ behavior of searching Webpages is the hotspot of current information searching. This
paper focus on the weakness in the parallel calculation search of cloud calculation, like slow research speed, low
efficiency and so on, a method based on Hadoop for mass users to search Webs is proposed, in which users’ impact
factors, time vector and Web-related factors are added to the algorithm based on the PageRank algorithm so as to further
improve the efficiency for users in searching Webs. Analysis of query log in Youku laboratory is used in the
experiment to prove algorithm in this paper has good effect as well as some guiding significance for users’ behavior
analysis in cloud computing.
Key words:Hadoop; user searching; behavior analysis; massive log; PageRank algorithm
伴随着云计算概念的出现, 越来越多的信息通过 搜索引擎用户行为分析, 因此针对这个问题, 本文在
互联网进行共享和传播, 网络信息膨胀速度已经呈现 Hadoop 架构下 , 对海量网页信息进行搜索 , 在
指数级增长. 在此背景下, 云计算下的搜索引擎快速 PageRank 算法的基础上, 将用户影响因子, 时间向量
发展成为了人们获得信息的重要手段. 目前, 美国的 和网页相关性因素加入到算法中, 使得改进后的
斯坦福大学提出了 PageRank[1], IBM 提出
您可能关注的文档
- 基於pls-sem的企業移動商務采納意願影響因素研究-信息系統學報.doc
- 基於soa-bpm組合架構的第三方物流企業信息系統集成平臺.doc
- 基於大數據的人事制度解決方案-共青團吉林委.ppt
- 基於計劃行為理論的關愛護理行為影響因素分析-中國護理管理.doc
- 基於加速度傳感器技術的中學生日常身體活動的研究-南京體育學報學報.doc
- 基於活動輪廓模型的病理顯微圖像分割若乾關鍵技術研究.ppt
- 基於結構方程的城生態系統發展水平評價.doc
- 基於數據倉庫的多策略通用數據采掘工具msminer.ppt
- 基於隨機分析的中國老年人失能狀態轉移規律研究浙江大學何文炯.ppt
- 基於系統動力學方法的企業社會責任與消費者權益關系研究.doc
- 深度解析(2026)《ISO 22002-12025食品安全前提方案—第1部分:食品制造》.pptx
- 深度解析(2026)《ISO 22002-52025食品安全前提方案—第5部分:运输和储存》.pptx
- 深度解析(2026)《ISO 22002-42025 食品安全前提方案 — 第4部分:食品包装制造》.pptx
- 徒步活动策划方案.doc
- 深度解析(2026)《ISO 22002-62025食品安全前提方案—第6部分:饲料及动物食品生产》.pptx
- 2026年新版郯城期末真题卷.doc
- 深度解析(2026)《ISO 22476-72012岩土工程勘察与测试 — 现场测试 — 第7部分:钻孔千斤顶试验》.pptx
- 深度解析(2026)《ISO 22090-22014 船舶与海洋技术 — 航向传送装置(THD) — 第2部分:地磁原理》.pptx
- 深度解析(2026)《ISO 23584-22012 光学和光子学 — 参考字典规范 — 第 2 部分:类与特性定义》:构建智能制造数据基石的专家视角与未来展望.pptx
- 深度解析(2026)《ISO 22932-92025 Mining — Vocabulary — Part 9 Drainage》:构建未来矿山“水脉”治理与可持续发展的新语言体系.pptx
最近下载
- 深基坑自动化监测施工工法.pdf VIP
- 2025年装修工程施工工艺流程标准化手册(含图表)[详细].pdf VIP
- (完整版)《无人机操控技术》专业开设可行性论证报告.docx VIP
- 28401 NDS01_5 日产试验测试标准.pdf VIP
- 超星尔雅学习通《中国古代礼仪文明》章节测试(含答案).docx VIP
- 向日葵远程控制软件.pdf VIP
- 银行保洁服务投标方案(技术标).docx
- 陕02D10 空调自控陕西 建筑 图集.docx VIP
- 成都理工大学2020—2021学年第一学期《高等数学A(三)》考试试卷(A卷).pdf VIP
- J12Z605 混凝土排水管道基础与接口.pdf VIP
原创力文档


文档评论(0)