- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课堂作业review
课堂作业review Zhao Dongsheng 2008.12.22 课堂作业review 第2周 Web Crawler 第4周 Noises Detection Elimination 第6周 Information Retrieval Models 第8周 Text Clustering 第10周 Collaborative Filtering 第2周作业 对于大规模的Web Crawler系统,回答以下问题:a)系统设计一般要考虑具备哪些特性,各用一句话来说明? (1)可伸缩性 Scalable,支持并行、分布式,以适应 Web 规模的不断变化。 (2)快速 Fast,解决各种性能瓶颈,提供良好的响应能力。 (3)友好性 Polite,遵循 Web 站点或页面的访问规则。 (4)健壮 Robust,具备预测并防止某些恶意站点的陷阱、处理错误以及系统崩溃后的恢复能力。 (5)持续搜集 Continuous,在有限资源的条件下,Crawl 系统能够与变化的 Web 进行同步。 第2周作业 b)系统的性能瓶颈在哪里?对应的人们可以用什么样的技术来改进呢? I/O是系统的瓶颈,具体表现在: 对于 DNS 解析: 1)并发的地址解析 client 2)缓存服务器(DNS Caching Server)? 3)预取 client 对于获取网页: 1)多线程方法 2)异步非阻塞 socket 和事件处理 第2周作业 对于去重: 1)将 URL 用 fingerprint (如 MD5)来记录,减少内存开销, 2)利用访问的时空局部性使用 Cache 提高性能, 3)海量数据的高效率查找表如 B-tree、Bloom filter 等 第2周作业 使用B-Tree做isUrlVisited操作的查找表时。可以对URL串作fingerprint,这节省了存储开销,但破坏了数据局部性,使得缓存命中率下降。请设计一种更有效的使用fingerprint方法,来改善这一状况。 对url可以分段做fingerprint。例如:一部分URL的主机名,经过MD5等计算所得的fingerprint;另一部分是整个URL串做MD5计算所的的fingerprint 第4周作业 课件ppt里Page43中,定义inner node的重要度与它底下的presentation style的熵正比,Page45和Page46中,定义leaf node的重要度与它里面的feature的熵成反比。这种区别是什么原因?请解释。 第4周作业 内部节点重要度(?) M表示page的数目 Pi表示第i个presentation style 的比例 第4周作业 叶节点重要度其中 第4周作业 在使用shingling作文档特征,提取sketch时,采用了随机排列采样最小值的方法。请证明Page66页的定理,证明这样的采样方法得到的sketch可以用来正确估计jaccard相似度。 第4周作业 1、同时在集合 A、B 中出现的元素个数为 C11,只在 A(B)中出现的记做C01(C10),则 |Intersect(A,B)|/|Union(A,B)| = C11/(C11+C10+C01)2、 采用随机排列采样最小值的方法时,由于是完全随机的排列,因此MIN pai(A) = MIN pai(B)的情况有 C11 所以 P(MIN pai(A) = MIN pai(B)) = C11/(C11+C10+C01)? 第6周作业 Bob(上次那个 Bob)跑来感谢你,上一次建 ccer 网页库的 inverted index,查询效果很好。谈话间,Bob 问:听说现在 Language Model 很popular,你建的 inverted index 可以用来支持 LM 吗?你觉得呢 第6周作业 P(w|d) = ?Pmle(w|Md) + (1 – ?)Pmle(w|Mc)? 需要知道一个查询词的 DF,CF 信息 每篇文档中查询词的个数 查询词在文档中的 TF 第8周作业 估计 PPT 的 P37 的 K-Means 算法的时间复杂度。 第8周作业 估计 PPT 的 P37 的 K-Means 算法的时间复杂度。 计算向量之间距离的时间复杂度是 O(M)? Reassignment step需要 KN 次距离计算,所以时间复杂度 O(MKN)? Recomputation step时间复杂度为O(MN)? 如果是 I 次迭代,则时间复杂度为O(MKNI)? 第8周作业 请解释 PPT 的 P46 页上 HAC 算法的sim(j,l,m)的含义。 第8周作业 第8周作业 请解释 PPT 的 P46 页上 HAC
您可能关注的文档
最近下载
- 淘宝店铺运营方案ppt.pptx VIP
- 大学英语四级写作ppt课件-课程.ppt VIP
- 【人教七年级上册数学情境课堂课件】 3.1.3 反比例关系 课件.pptx VIP
- 2025-2026部编人教版三年级语文上册(全册)测试卷(附答案).pdf VIP
- 骨质疏松健康宣教ppt(完整版).pptx VIP
- 陕2022TJ067厨卫装配式钢丝网混凝土排气道系统建筑构造图集.docx VIP
- 八大危险作业票八大危险作业票.doc VIP
- DB53T684.10-2015 昭通乌天麻 第10部分:初加工技术规程.pdf VIP
- (含答案)福建省宁德市福鼎县2019-2020学年八年级上学期期中物理试题(质量检测).pdf VIP
- 什么叫电击和电伤.pptx
文档评论(0)