- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
链接分析 推荐
链接分析 链接分析的由来 链接分析源于对Web结构中超链接的多维分析。1996年,Larson在《万维网的文献计量:网络空间结构初探》一文中明确将信息技术从文献计量学移植到网络中。 1997年,Almind和Ingwersen提出了“网络计量学”一词,旨在定量分析网络现象。此后,链接分析便成了网络计量学的主要研究内容之一。 本文以中国学术期刊全文数据库来源期刊和硕博士论文为数据源,检索条件是标题或关键词中包括“链接分析”,时间范围是2004-2013十年时间。经题名、关键词、摘要分析后,最终确定805篇为本文的研究对象,其中硕博士论文405篇,期刊类文章400篇,下面表一说明国内链接分析领域发文较多的期刊: 说明 由图可得,图书情报类期刊11种,所占比例约为71%,而根据2014年最新公布的《中国核心期刊要目总览》,11种期刊中包含8种核心期刊,所占比例为73%。 所以说研究成果的学科主要集中在图书情报学,而核心期刊也很偏爱这样的研究,而在国外,研究成果往往集中在计算机科学期刊上。 分析这十年间每一年链接分析的发文量,可得到表2,发文量在2010年和2012年出现了高峰,而之后发文数量处于下降的趋势,而在国外2007年就出现了迅速下降的趋势。 运用bicomb书目共现分析分析系统,得出这十年频次较高的关键词 说明 由上可得近五年人们的研究热点;相关算法(如:pagerank、HITS)工具(主题爬虫、网络爬虫) 自2004年开始,相关学者就开始对链接分析的研究重点进行了综述,张洋等将链接分析的研究重点归纳为四个方面,链接的数量分布规律研究、网站同引分析研究、网络影响因子研究、链接分析工具研究。 之后,李江、殷之明通过对十余年内链接分析相关文献的归纳,将国内外链接分析研究分为网络计量学、检索优化、Web结构挖掘、Web结构图建模四大研究视角、并认为链接类型识别、专业链接分析工具的开发、社会网络分析法的应用将是未来链接分析研究的三大发展方向。 2013年,吴夙慧等人基于近五年的链接分析研究文献的基础上,分析研究热点包括:基于网页内容的链接分析、基于用户行为的链接分析、基于Web网页群的链接分析、Web链接分析和复杂网络四个方面。 对于链接分析的发展趋势,学者们也开始纷纷研究。孙建军、李江以社会网络分析、网络空间分析和虚拟民族志为例探讨了社会科学方法在链接分析中的应用。Web作为一种新媒介,Web中的链接是一种十分重要的传播方式,一些传播学的学者对Web链接的传播方式进行了研究,关注链接在Web信息传播中的工作和工作机制。还有许多法学学者对Web链接信息传播中的知识产权问题进行了深入的研究。 国内研究状况 方法二:胜者表 对每个词项t,预先计算出其倒排记录表中权重最高的r篇文档,如果采用tfidf机制,即tf最高的r篇 注意:r 比如在索引建立时就已经设定,词项t所对应的tf值最高的r篇文档构成t的胜者表。 因此,有可能 r K 检索时,仅计算某些词项的胜者表中包含的文档集合的并集 从这个集合中选出top K作为最终的top K 方法三:静态质量得分排序方式 我们希望排名靠前的文档不仅相关度高(relevant) ,而且权威度也大(authoritative) 相关度常常采用余弦相似度得分来衡量 而权威度往往是一个与查询无关的量,是文档本身的属性 权威度示例:Wikipedia在所有网站上的重要性、某些权威报纸上的文章、论文的引用量、被 diggs, Y!buzzes或del.icio.us等网站的标注量、Pagerank 权威度计算 为每篇文档赋予一个与查询无关的(query-independent ) [0,1]之间的值,记为g(d) 同前面一样,最终文档排名基于g(d)和相关度的线性组合。 net-score(q,d) = g(d) + cosine(q,d) 可以采用等权重,也可以采用不同权重 可以采用任何形式的函数,而不只是线性函数 查找net-score最高的top K文档 首先按照g(d)从高到低将倒排记录表进行排序 该排序对所有倒排记录表都是一致的(只与文档本身有关) 因此,可以并行遍历不同查询词项的倒排记录表来 进行倒排记录表的合并 及余弦相似度的计算 利用g(d)排序的优点 这种排序下,高分文档更可能在倒排记录表遍历的前期出现 在时间受限的应用当中 (比如,任意搜索需要在50ms内返回结果), 上述方式可以提前结束倒排记录表的遍历 将g(d)排序和胜者表相结合 对每个词项维护一张胜者表,该表中放置了r篇g(d) + tf-idftd 值最高的文档 检索时只对胜者表进行处理 高端表(High list)和低端表(Low list) 对每
您可能关注的文档
最近下载
- 煤矿供电设计与继电保护整定计算示例.pdf VIP
- 脑卒中后言语障碍的康复治疗.ppt VIP
- DG/TJ 08-2451-2024 电动自行车集中充电和停放场所设计标准.pdf VIP
- 2025年版《普通高中课程标准》数学(word文档)完整版.doc VIP
- 绿色建材应用计划与措施.doc VIP
- 2025年下半年扬州大数据集团公开招聘30人考试备考试题及答案解析.docx VIP
- 新高考英语一轮复习练小题刷大题提能力:专题 02 建议信 (应用文写作)(解析版).docx VIP
- [轨道交通 客车电气装置]塞拉门.pdf VIP
- 专题 02 建议信 (应用文写作)-高考英语一轮复习练小题刷大题提能力(原卷版).docx
- 项目九模拟驾驶教学设计---稷山县蔡村初中赵柳晨.docx VIP
原创力文档


文档评论(0)