- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索十LinkAnalysis学科介绍课程讲述.ppt
湖南大学计算机与通信学院 刘钰峰 互联网信息搜索十 Link Analysis 研究这些“关系图”有什么意义? 一阶指标(“入度”) 知晓关系:社会知名度 引用关系:认可程度 “高阶指标” 和一个著名人物“共同发表”论文的“距离”:越短似乎显得越“有荣誉”(例如,Erdos number,/enp) 仅仅是“结构”就可以带来丰富的“语义” 例如省份之间的链接数差别可能有有意义的解释 知名度,声望,重要性,… reputation, prestige, importance, … 完全靠“入度”来评价可能显得比较粗燥(即这种评价模型不一定很准) 认识甲的人可能和认识乙的人一样多,但认识乙的人都是些“重要人物”,于是通常应该认为乙比甲重要 不仅是人,论文也是一样,被重要的文章引用的文章可能就比较重要些 例子:按照入度, 节点1,3同样重要; 2,4同样重要。但 我们似乎感到3比1 重要些,2比4重要些。 如何用一个模型来刻画这种感觉,使算出来的“重要性”反映这种感觉? 在Web之前就有社会网络分析学术领域 文献计量学(bibliometry) 研究文献的贡献程度 哪些文章是“有影响的”文章? 研究文献的聚类,从而可能得到一个领域发展的状况 co-citation分析,如果a引用了b和c,称b和c有co-citation关系 流行传染病学,侦察、谍报学 发现那些关键节点,删除它们使得其他节点之间的距离显著扩大 模型、指标体系的“合适性”取决于应用目标 图论、线性代数若干概念回顾 图,有向图,邻接矩阵,两节点间的距离(d),节点的半径(r),图的连通,有向图的强连通,连通分支 d(u,v):从u到v的最短路径的长度 r(u):最大的距离 c(G):具有最短半径的节点 矩阵(A),矩阵的转置(AT),行列式(|A|),特征值,特征向量,线性相关性 关于声望模型 给定一个群体S,及其在上面的一个“知晓”关系R,于是定义了一个有向“关系图”G。用邻接矩阵E表示,E(i,j)=1,当且仅当i “听说过” j(注意这里没有程度之分)。我们希望确定p(i):所有个体i∈S的“声望” 模型一:p(i) = ∑E[k,i],k=1,…,n,即i在G上的“入度”,亦即E的第i列的1的个数 清楚、好计算;但是“不够好” 模型二:p(i) = ∑E[k,i]p(k),k=1,…,n,即i的声望等于知晓他的人的声望之和 清楚、显得要更“精确些”;但是,好计算吗? 声望模型二(续) 对于所有i,p(i) = ∑E[k,i]p(k),k=1,…,n 也就是,记p = (p(1), p(2), …, p(n))T, p = ETp 问题是: 这个方程存在解吗? 如果存在,如何得到? 如果不存在,该怎么办? 一般来讲:这个方程的非0解是不存在的! p = ETp 的不存在例 S = {1,2,3}, R = {1,2,1,3,2,3} E = ((0,1,1),(0,0,1),(0,0,0)) ET = ((0,0,0),(1,0,0),(1,1,0)) 不难看到: 方程的成立?p(1)=0?p(2)=0?p(3)=0 一般来讲,p = ETp,意味着要求ET有特征值1,这是很难得的。 先前那4个点的例子也无解 p = ETp ? (I - ET)p = 0 线性代数讲,此方程组有非0解,仅当行列式|I - ET| = 0 但我们算得|I - ET| = -2 即使有解,还有可能不唯一! S = {1,2,3}, R = {1,2,2,3,3,1} 不难看出任何 p(1) = p(2) = p(3) 都是解 怎么办? 修改模型 模型三:让i的声望等于知晓他的人的声望之和乘以一个常数(对所有i相同) p(i) = c×∑E[k,i]p(k),k=1,…,n 与模型二的关系 效果上感觉应该差不多,因为是“共同的常数”,而对我们有意义的只是“相对声望” 但并不完全等价! 还是要问: 非0解存在吗?如果存在,如何计算? p = c*ETp 解的存在性 这就是特征值、特征向量的定义方程 注意到c只需要在一个系统中保持常量,不同的系统是可以不一样的,1/c就是ET的特征值,可以随p同时求出来 但这问题就来了! ET最多可能有n个不同的特征值 如果是有多个不同的特征值,取那一个为好? 不同的特征值对应有不同的特征向量,我们没有理由认为这不同的特征向量反映出来的节点声望序是一致的 即使是同一个特征值,对应的特征子空间中也可能有多个向量(我们也没理由认为它们反映出来的节点声望序是一致的),应该取哪一个? 还有,特征值、特征向量不是实数怎么办? p = c*ETp The Perron-Frobenius Theorem 如果有向图G是强连通的,则它的邻接矩阵A有一个
您可能关注的文档
- 保护地球公益模板教案讲解.ppt
- 保护地球我们美好的家园主题模板课程设计.pptx
- 保护地球模板保护地球环境模板下载优质教材.ppt
- 保护地球模板公益活动模板下载讲义汇总.ppt
- 保护我们共同的地球3.12植树节环保模板下载教案讲解.ppt
- 保护我们共同的地球——3.12植树节环保模板教案讲解.ppt
- 保护我们的家园课件讲述说明.ppt
- 保护我们的家园(济南版)课件讲义汇总.ppt
- 保护文物(人教新课标)六年级美术上册课件教案讲解.ppt
- 保护森林节约用纸课件整理.ppt
- 《2025年公共卫生应急报告:AI疫情预测与资源调配模型》.docx
- 《再生金属行业2025年政策环境循环经济发展策略研究》.docx
- 2025年开源生态AI大模型技术创新与产业协同趋势.docx
- 《2025年智能汽车人机交互创新研究》.docx
- 2025年专利申请增长趋势下的知识产权保护机制创新分析报告.docx
- 《2025年数字藏品元宇宙技术发展趋势分析报告》.docx
- 2025年折叠屏技术迭代中AI功能集成市场反应量化分析报告.docx
- 《2025年教育培训视频化教学与会员学习服务》.docx
- 《2025年工业软件行业CAD国产化应用场景分析报告》.docx
- 《2025年生物制药行业趋势:单抗技术迭代与产业链自主可控规划》.docx
原创力文档


文档评论(0)