社交网站的数据挖掘与分析.docxVIP

  1. 1、本文档共285页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社交网站的数据挖掘与分析,文档仅供学习参考。

\o社交网站的数据挖掘与分析.docx\t/user_center_v1/doc/Doclist/audited/type/all/folder/all/format/all/uploadTime/all/orderField/default/orderAsc/asc/pageSize/50/keyword/%E6%95%B0%E6%8D%AE/page/3/commend/all/pagenumber/all/checkType/all/optimization/all/optimization_status/0/privateType/all/baseType/0/failType/0/applyState/0/risk_typeid/all/titleIllegal/all/contentIllegal/all/vipType/_blank社交网站

的数据挖掘与分析

目录

\h第1章绪论:Twitter数据的处理

\hPython开发工具的安装

\hTwitter数据的收集和处理

\h摆弄Twitter的API

\h频率分析和词汇多样性

\htweet图的可视化

\h综合应用:用Protovis可视化转发的tweet

\h小结

\h第2章微格式:语义标记和常识碰撞

\hXFN和朋友

\h使用XFN来探讨社交关系

\h对XFN数据的广度优先抓取

\h地理坐标:兴趣爱好的共同主线

\h维基百科文章+Google地图=自驾游是否成立

\h(以健康的名义)对菜谱进行交叉分析

\h对餐厅评论的搜集

\h小结

\h第3章邮箱:虽然老套却很好用

\hmbox:Unix的入门级邮箱

\hmbox+CouchDB=随意的Email分析

\h将文档批量加载到CouchDB中

\h合理的排序

\h映射/化简启发的频率分析

\hcouchdb-lucene:全文索引以及更多

\h将对话线程化到一起

\h看谁在说话

\h使用SIMILETimeline将邮件“事件”可视化

\h分析你自己的邮件数据

\hGraphYour(Gmail)InboxChrome扩展

\h小结

\h第4章Twitter:朋友、关注者和Setwise操作

\hREST风格的和OAuth-CladdedAPI

\h不,你不能知道我的密码

\h干练而中肯的数据采集器

\h一个非常简短的重构子程序

\hRedis:数据结构服务器

\h基本的集合操作

\h使用基本的朋友/关注者度量来增强性能

\h通过计算共同好友和关注者来计算相似性

\h影响的度量

\h友谊图的构建

\h派系检测与分析

\hInfochimp“强链接”API

\h交互式3D图的可视化

\h小结

\h第5章Twitter:tweet,所有的tweet,只有tweet

\h笔PK剑:和tweetPK机枪(?!?)

\h对tweet的分析(每次一个实体)

\h对(Tim的)Tweet的利用

\hTim最常转发谁的tweet

\hTim的影响力

\hTim的tweet中有多少包含hashtag

\h并置潜在的社交网站(或#JustinBieberVS#TeaParty)

\h#JustinBieber和#TeaParty的tweet中最常共同出现的实体

\h平均来说,#JustinBieber或#TeaParty,谁的tweet包含更多hashtag

\h谁更常被转发:#JustinBieber还是#TeaParty

\h#TeaParty和#JustinBieber的tweet实体之间存在多少重叠

\h对大量tweet的可视化

\h使用高级的标签云可视化tweet

\h对Twitter搜索结果中群集结构的可视化

\h小结

\h第6章LinkedIn:为了乐趣(和利润?)将职业网络聚类

\h聚类的动机

\h按职位将联系人聚类

\h规范并统计职位的数量

\h聚类常见的相似性度量

\h聚类的贪心方法

\h分层聚类和k均值聚类

\h获取补充个人信息

\h从地理上聚类网络

\h使用GoogleEarth标识职业网络

\h使用DorlingCartograms标识职业网络

\h小结

\h第7章GoogleBuzz:TF-I

您可能关注的文档

文档评论(0)

MAX知识点 + 关注
实名认证
文档贡献者

资料收集达人

版权声明书
用户编号:8053033065000020

1亿VIP精品文档

相关文档