- 1、本文档共67页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网中的海量用户行为挖掘算法分析-控制科学与工程专业论文
摘
摘 要
摘 要
随着计算机技术以及互联网的飞速发展,在 Web 中产生了越来越多的基于用 户的应用,这些应用数年来收集了海量的用户行为数据,且数据还正以指数级增 长,这些海量数据中包含了大量和用户相关的信息。及时、精确地从这些海量用 户信息中发现有用的知识,挖掘出这些数据背后隐藏的用户行为模式,能够帮助 互联网应用提供更好的用户体验,并提高企业的市场竞争力。本文采用数据挖掘 的方法对互联网中的用户行为进行分析挖掘,找出其中隐藏的规律与模式。并从 基于 Web2.0 的社会化标记系统中的用户标记行为分析和互联网搜索引擎中的用 户检索行为分析两个方面进行说明。
(1) 在社会化标记系统中,用户可以自主采用不同的标签标记资源,并利用这些 用户标签实现信息资源的组织、分类和检索,但是这种自由的用户标记行为 存在着信息描述不精确、标签组织混乱和标签语意模糊等问题。现有研究常 采用聚类等数据挖掘技术来解决这些问题,现有标签聚类算法大多根据不同 标签在对象中共同出现的次数来计算它们之间的相似度,但是这种方法聚类 的精确度与召回率并不高。针对此问题,本文提出了一种新的标签聚类算法, 充分考虑标签的标记信息,采用基于对象的特征向量来精确地表征一个标签, 根据余弦相似度公式得到较为准确的标签相似度,然后采用 K-Means 算法将 用户标签进行聚类。实验结果表明该算法能够得到更加精确的聚类结果。最 后将该算法应用于中国科学技术大学《图书馆交互式科研管理平台》证明该 算法的实用性。
(2) 另一方面,在搜索引擎中,后台日志会记录用户输入的查询词和点击的 URL, 作为用户与搜索引擎的交互信息。通过挖掘搜索引擎日志中的用户行为,可 以发现用户的行为规律,收集统计信息,进而用来改善搜索引擎返回结果的 排序。但是由于搜索引擎中日志记录数据海量的特性,传统的聚类算法无法 适用在搜索引擎用户行为分析中。针对此问题,本文对搜索引擎中的用户行 为采用三部图模型建模,利用特征向量来表征用户输入的查询词,并提出一 种基于倒排表查询和 MapReduce 的分布式 K-Means 聚类算法,实验证明该 算法能够应对海量用户查询词聚类的问题,并且在大规模数据集下表现出高 效的性能。最后再根据实验得到的聚类结果分析当前互联网搜索引擎中用户 行为的特点。
关键词:特征向量 数据挖掘 用户行为分析 K-Means 分布式 MapReduce
Ⅰ
Ab
Abstract
ABSTRACT
With the fast development of the computer technology and Internet, more and more applications based on users are generated in the Web. These applications have collected massive user behavior data for several years, and the data is growing exponentially. This massive data contains large amounts of information about users. It can help Internet applications provide betted user experience, and improve company’s market competitiveness, if we could find useful knowledge from the massive user information, and get the user behavior patterns behind these data. In this paper, we analyze and study the user behaviors in Internet using the data mining method, and find the hidden regular patterns and models. We carry out our researches in two aspects: the analysis of user tagging behavior in the social tagging system based on Web 2.0; and the analysis of user querying behavior in the search engine in Internet.
In the social tagging systems, user can mark res
您可能关注的文档
- 基于android移动终端的跌倒检测应用设计与实现-电子与通信工程专业论文.docx
- 互联网对城市中学德育的影响及其对策分析-教育专业论文.docx
- 基于android平台的安全voip系统的设计与实现-计算机技术专业论文.docx
- 基于arm的分布式工业信号采集模块的研究-控制科学与工程专业论文.docx
- 互联网数据中心的能耗管理问题研究-计算机科学与技术专业论文.docx
- 基于“天人合一”思想背景下的现代书籍设计-设计学专业论文.docx
- 互联网舆情意见演化模型研究-管理科学与工程专业论文.docx
- 华夫板在电子芯片厂房施工中的研究与应用-建筑与土木工程专业论文.docx
- 基于android的led灯光控制器的研究与设计-电子与通信工程专业论文.docx
- 基于arm的电能质量检测装置硬件系统的设计与实现-检测技术与自动化装置专业论文.docx
- 难点详解鲁教版(五四制)6年级数学下册期末测试卷带答案详解(考试直接用).docx
- 难点详解鲁教版(五四制)6年级数学下册期末试题【培优】附答案详解.docx
- 难点解析鲁教版(五四制)7年级数学下册期末试题及完整答案详解(全国通用).docx
- 难点解析鲁教版(五四制)7年级数学下册期末试题含完整答案详解(名师系列).docx
- 难点解析鲁教版(五四制)7年级数学下册期末试题含完整答案详解【全国通用】.docx
- 难点解析鲁教版(五四制)7年级数学下册期末试卷(突破训练)附答案详解.docx
- 难点解析鲁教版(五四制)7年级数学下册期末试卷(能力提升)附答案详解.docx
- 难点详解京改版数学9年级上册期中试卷附参考答案详解【突破训练】.docx
- 难点解析鲁教版(五四制)7年级数学下册期末试题含完整答案详解(有一套).docx
- 难点解析鲁教版(五四制)7年级数学下册期末试卷带答案详解(夺分金卷).docx
最近下载
- 实习安全教育主题班会.pptx VIP
- 热点03 粮食安全,乡村振兴(课件)-2024年高考历史热点追踪命题预测.pptx VIP
- 2025年-二级建造师-机电工程实务与管理.docx VIP
- 人工智能在能源行业中的应用.pptx VIP
- PICC专科护士进修学习汇报.pptx VIP
- 绵阳燃气招聘面试题型及答案.pdf
- 体例格式12:工学一体化课程《小型网络安装与调试》任务2教学单元2教学单元活动方案.docx VIP
- GB 50149-2010 电气装置安装工程母线装置施工及验收规范.docx
- 中国人身保险业重大疾病经验发生率表(2020).docx VIP
- 体例格式12:工学一体化课程《小型网络安装与调试》任务2教学单元4教学单元活动方案.docx VIP
文档评论(0)