- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京大学研究生课程期末考题
北京大学研究生课程期末考题,2005 年秋
课程名称:网络信息体系结构;时间:2006 年 1 月 6 日
一、名词或概念解释:( 20 分)
1. Web 图连通性的power law 特征(power law connectivity )
a)Power law 分布:(答以下特点的一部份都可以,但不能有错误)
-λ
离散分布密度函数:P(x=k) = Ck
重尾分布(heavy tail ,写长尾,大尾is ok,but大头分布不可以!)
对数尺度下为一斜线
Rare events are not so rare
b)Web 图连通性(这里题意不清,sorry 。Connectivity 本意考察图节点的度分布,如果答成
web structure 里面 component 的分布状况也行)符合power law :出度、入度。。。。
特别这里重尾特性是:度大的节点(网页)概率小,但很多,并不能忽略。(说,度小的
点数量多,不能忽略,理解上就有问题)
2. 自组织映射 (self-organizing map, SOM)
SOM 是一种基于神经网络的聚类方法。SOM 由输入层和竞争层组成,它通过对输
入向量的反复学习,使得状态相同或相近的输入向量在竞争层网络上所处的位置相
近。
3. 支持向量机(support vector machine,SVM )
SVM是进行文本分类的一种统计学习方法。它通过用内积函数定义的非线性变换
将输入空间变换到一个高维空间, 在这个高维空间中求最优分类面.
4. 关联规则挖掘(association rule mining )
发现大量数据中项集之间有趣的关联。
关联规则的基本形式: 前提条件== 〉结论 [支持度, 置信度] 。
形式化定义:
设I ={i , i ,…, i }是项(item)的集合;X ⊂I, Y ⊂I,并且X ∩Y Φ。
1 2 m
所有形如X ⇒Y 的蕴涵式称为关联规则。如果它满足最小支持度阈值与最小置信
度阈值,则称该关联规则是有趣的,
二、简述题 ( 40 分)
1.2005 年“超级女声”是一个影响广泛的社会事件,一位社会学研究者准备研究这个现象,请
你帮助他尽量快、尽量全地搜集 Web 上“超女” 的相关资料。他为你准备好一台桌面机和校园
网的网络连接,请你设计一个搜集系统实现这一目标,说明你的设计思想和系统工作原理。
要点在:用 Focus crawling 技术解决本问题。
原理:topical locality 的两个方面。
流程:分类器构建,种子选择,取舍的 hard/soft 方法。(也可以用 context graph 的设计思想)
通过SE查询结果做种子,对高度相关站点全面搜集等补充方法可以加分。
不够好的答案:
a)用通用crawling 系统,加入分类器丢弃抓到的非相关网页。(brute-force )
b)向SE提交查询,取返回结果。(good idea,但是它不能单独完成本问题的目标,要搜得
全)
c)谈high performance crawling 的相关技术。同样,没有结合本题中主题确定这一条件。
2 .一家搜索引擎公司研究出一种称为 SuperRank 的排序算法,并且夜以继日把系统实现了。
算法效果非常出色,但有个小缺点,它有 100 多个参数,天知道它什么状态才是最优。于是
公司聘请了统计专家专门设计了实验,来寻找算法的最优参数,这时 Project Manager 跑过来
交给你一个任务:要求给你一组参数时,你能尽快提交一个结果,报告出在这组参数取值下
系统表现的优劣。你打算怎么做?
要点:检索系统性能评测问题。
参考 Trec 中的检索效果评测。构建测试集:在一个封闭的文档集合中,给定若干个查询,确
定每个查询对应的相关文档集合。确定评估指标,如 recall, precision, F value ,precision at
11 standard recall levels 等。
结合搜索引擎的应用特点,比如评估指标,recall不是那么重要等等。
3 .如果表示文档集合特征空间的维数过高,有什么办法进行降维,并详述其中的两种方法。
特征选取的主要方法:文档频率、信息增益、互信息、开方检验
特征提取:如潜在语义标引 LSI
4 .简
文档评论(0)