- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网中的海量用户行为挖掘算法研究-信号与信息处理专业论文
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。
作者签名:
签字日期:
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中 国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内 容相一致。
保密的学位论文在解密后也遵守此规定。
□公开 □保密( 年)
作者签名:
导师签名:
签字日期:
签字日期:
第
第 1 章 绪论
PAGE
PAGE 1
第 1 章 绪论
1.1 研究背景
近年来,随着互联网技术的不断发展,其应用越来越广泛,互联网与生活的 结合也越来越紧密,对于很多人来说,上网成了生活必不可少的一部分。同时, 随着计算机网络的普及,因特网已经发展成为一个蕴藏着有用知识的海量信息空 间,其中蕴含的数据量已经无法计算。对于一般互联网用户而言,一个很关键的 问题是怎样准确、快速地从网上获取有价值的信息,并从中找到自己需要的那部 分。另一方面,对于互联网运营者来说,他们所关心的一大难题是怎样合理有效 地分析用户行为,将用户及其感兴趣的话题、网页进行合理聚类,以提供更好的 个性化服务,从而提高企业利益。因此如何分析挖掘互联网中海量的用户行为信 息,就成为近年来互联网研究领域的一个重要课题。下面我们举两个互联网常用 的基于用户的应用例子来分析下用户行为挖掘的重要性。
Web 2.0 是一种新兴的高度网络化,自由化的互联网形态,它架构在用户、 内容、应用基础上,因此吸引了大量用户,衍生出诸如社区网络、博客、播客、 网络文摘、维基百科等 Web 2.0 类应用。社会化标注系统就是一种典型的 web2.0 应用,目前非常流行,也很有发展前景。例如 Flickr[4]、del.icio.us[5]、豆瓣网[6]等 网站都采用了协同标注,它们的主要特点之一在于它们是公开的、不受控制的系 统。用户根据自己的社会文化背景、专门技术和世界观,用不同的标签标注资源, 并利用这些用户标签完成信息资源的分类、组织、检索。然而,正是由于协同标 记系统特有的公开性、自由化的特点,采用其对信息资源进行描述、组织、分类、 检索,存在着信息描述不精确、标签组织混乱和标签语意模糊等问题。针对这些 问题,文献[7,8,9,10,11,12]指出,聚类技术是有效的解决方法之一,在此基础上,本 文提出将用户标签用一个 N 维的特征向量建模表示并进行聚类的方法,重新组 织用户标签,这在很大程度上缓解了标签组织混乱,语义模糊的问题,提升了标 签描述的精确性,为用户提供更好的标签导航、浏览机制。我们将在第三章中对 其进行详细阐述。
另一方面,随着计算机技术和互联网的飞速发展,搜索引擎已经成为人们获 取互联网信息的主要途径。目前搜索引擎已经成为除了 email 外(我国是除即时通 讯外),人们使用最多的互联网服务系统。在搜索引擎中,当用户提交一个查询 后,服务器会返回一组 URL 链接的排序结果供用户浏览,如果用户点击了返回结
果页面中的某个 URL,一般表示用户对该 URL 的认可,并且在多数情况下不被认
可的 URL 就不会被点击。搜索引擎会在后台日志中记录用户输入的查询词和点击 的 URL,作为用户和搜索引擎的交互信息。通过挖掘搜索引擎日志中的用户行为, 可以发现用户的行为规律、用户如何使用搜索引擎、用户在 Web 上查找什么样 的信息、整体或单个的用户查询具有怎样的特征与规律等等。并且通过搜索引擎 日志挖掘,可以收集统计信息,进而用来改善网页的权重定义和返回结果的排序, 从而提高搜索引擎的性能。
但是搜索引擎中用户的查询历史记录是海量的,在一个商用搜索引擎中,一 天的用户查询记录就会达到上亿量级,如何在如此大规模的数据“海洋”中对用 户行为进行挖掘分析是目前互联网研究领域的一个难点[13,14,15],但随着 Google 的 MapReduce[16]分布式平台的出现,很多单机无法完成的计算任务现在成为了 可能,即便是一些复杂度很高的计算也可以在可接受的时间内完成[17,18]。本文正 是在这样的背景下提出了一种基于 MapReduce 分布式平台的高效聚类算法,可 以很好地应对搜索引擎日志中的海量用户查询历史记录。我们将在第四章中对该 算法进
您可能关注的文档
- 基因沉默与诱导双向治疗类风湿性关节炎-外科学(骨科)专业论文.docx
- 基于arm9嵌入式系统的u盘文件加解密系统实现-软件工程专业论文.docx
- 基于android的bittorrent协议客户端设计与实现-计算机科学与技术专业论文.docx
- 基于android的智能家居控制系统的设计与实现-计算机科学与技术专业论文.docx
- 基于arm的电能质量监测仪系统软件的设计与实现-测试计量技术与仪器专业论文.docx
- 基于android平台的桥梁监测终端应用程序设计与开发-通信与信息系统专业论文.docx
- 华蟾素对人膀胱癌t24细胞体外作用及其机制的实验研究-中西医结合专业论文.docx
- 基于android的语句级智能汉字输入法研究-计算机科学与技术专业论文.docx
- 基于ant技术的热网无线数据采集系统研究-控制理论与控制工程专业论文.docx
- 基于android系统的智能手机低功耗设计-软件工程专业论文.docx
- 历史的巨响 奋进的力量纪念我国第一颗原子弹爆炸成功60周年-热点速递“内容简介+素材集锦+时评+作文链接+范文”.docx
- 历史的巨响 奋进的力量:纪念我国第一颗原子弹爆炸成功60周年-热点速递“内容简介+素材集锦+时评+作文链接+范文”.docx
- 吉林省2016年中考文综试卷(解析版).doc
- 吉林省2016年中考文综试卷(解析版).doc
- 吉林省2016年度中考政 治试题(word版,含答案).doc
- 吉林省2016年中考政治试卷及答案【word版】.doc
- 2016年吉林省中考政治试题及答案解析.doc
- 吉林2016年初中毕业生学业考试.doc
- 竞聘技校数学老师演讲.docx
- 2016年吉林省中考政治试题解析.doc
文档评论(0)