- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
advanced software engineering project 1 mapreduce join (2人)
Advanced Software Engineering 1. MapReduce Join (2人) Focused on performance analysis on different implementation of join processors in MapReduce. Homogenization: add additional information about the source of the data in the map phase, then do the JOIN in the reduce phase. Map-Reduce-Merge: a new primitive called merge is added to process the join separately. Other implementation: the map-reduce execution plan for joins generated by Hive. 进行性能分析与比较(生成至少10张以上图表) 2. 大型社交网络的结构分析(3-4人) 学习分类、聚类算法 使用Google+和Twitter社交圈数据 /data/egonets-Gplus.html /data/egonets-Twitter.html 在M/R或Spark上搭建分布式计算系统 通过Mahout/Mllib等开源工具进行数据分析、发现两种社交网络的“特性” 进行性能分析与比较(生成至少10张以上图表) Bonus:比较M/R和Spark的性能 Never use off-the-self softwares!!! 3. 分布式排序学习系统的搭建(3-4人) 学习Pointwise, Pairewise, Listwise三大类算法 使用Microsoft Learning-to-Rank Datasets /en-us/projects/mslr/ 在M/R、Storm、Spark其中一种架构上搭建分布式计算系统 至少实现上述三大类算法中的三种算法 进行性能分析与比较(生成至少10张以上图表) Bonus:比较M/R和Spark的性能 Mechanism Working in group: 2, OR, 3-4 students, clear roles Email me (ase_bit@) by this Friday (Dec 19) Team leader, Team members Topic Deadline: 16 Jan 2015! Deliverable: project report in Chinese Introduction (motivation, WHY?) Your proposal (HOW?) Performance Evaluation Conclusion Presentation Suggested Arrangement Week-1: Define your roles and start literature research Week-2 and 3: Propose solutions Week-4 and 5: Implementation and obtain results Finally, spend a few days writing your report 希望大家关注的问题 这不仅仅是个工程项目 通过以此来训练研究性思维 别人做过些什么?有什么问题? 在哪里改进?性能如何? 性能: 自身性能:正确率,吞吐率,并发率,时延 比较性能:其他算法,其他系统 多用开源框架 打分充分考虑团队整体贡献和每个队员的贡献 IEEE Xplore: / Social Network Analysis Key Players How to identify key/central nodes in network Cohesion How to characterize a network’s structure Example Facebook: 5.8million users (2009), avr 5.73 degrees, max 12 degrees Twitter: 5.2 billion relationships, avr 4.67 degrees 50% users only 4 step away Almost everyone 5 steps For any 1,500 random users, 3.435 steps Erdos Number: Collaborative distance through paper co-authori
您可能关注的文档
- 水平变化浅海声波导中模态特征频率与声源距离被动估计 - 物理学报.pdf
- 公民素养理念:一种反身式实践 - 中纲计画成果资讯网.ppt
- 先进发电技术与二氧化碳排放减量.pdf
- 构建数字教育资源共享机制促进教育资源公共服务平台互联互通.ppt
- 基于元能力的sdn 功能组合机制functional composition in software .pdf
- 剑桥英语阅读计划cambridge bright sparks 电子书.ppt
- ‘结构影响行为’ 如何形塑学习型组织.ppt
- 气泡雾化喷嘴气体溢出过程声波信号的时频特征研究 - 农业机械学报.pdf
- 荧光光谱法研究羟基化单壁碳纳米管与牛血清白蛋白1血红蛋白的相互 .pdf
- v20变频器和smart200在陶瓷平板印花机上的应用 李斌 西门子(中国 .doc
文档评论(0)