- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于AF分析复杂网络-郭军汇编
基于激活力的复杂网络分析 郭 军 北京邮电大学 内 容 复杂网络研究背景 我们所研究的问题: 网络构建及节点相似度判定 提出的方法: 基于激活力的加权连接和亲近度测度 实验 1: 词网建模 实验 2: PPI 网络建模 讨论: 脑的学习机制、特征表达、功能相似蛋白质的判定 复杂网络 对现实世界各类复杂关系建模的有力工具 现实世界中的复杂关系: 词间联系、蛋白质相互作用 社会关系网络、互联网节点关系、科学引用与合作关系 网络模型: 用节点和连接表示实体之间的联系 复杂网络 Complex networks 大规模: 大量的节点和连接 节点的连接通常符合 power-law 分布 小世界模型、尺度不变性: 存在hub nodes和edge nodes 问 题 如何根据源数据建立复杂网络模型 源数据: 蕴含词关系的文本集、标注蛋白质相互作用关系的数据库、蕴含用户关系的微博数据集 … 现有方法 二值模型: 节点间的连接无权重 缺点 节点的关系被均匀分散在所拥有的连接上 节点的特征不突出 易形成连接稠密的 link-dense 网络模型 现有的网络加权方法 Independent paths, betweenness centrality 基于二值网络而不是源数据进行计算 算法极其耗时 激活力 Activation Forces 如何对连接加权,以获得连接稀疏、节点特征突出的网络模型? Activation forces: 一类新统计量 afij fij / fi fij / fj / dij2 fi : 节点 i 在数据集中的出现的频度 fij :节点 i 和节点 j在数据集中的共同出现的频度 fij/fi : 节点i出现条件下节点j与其共现的概率估计 fij/fj : 节点j出现条件下节点i与其共现的概率估计 dij节点 i 和节点 j共现时的距离 与万有引力公式具有同样形式 物理意义:度量广义神经网络节点 i 被激活后,节点 i激活节点 j 的程度 实验表明: Activation forces 使节点的特征得到突出 各节点的连接强度符合power-law分布 通过删除大量的弱连接,网络的连接被稀疏化 基于激活力的亲近度 Affinity 如何度量加权网络节点间的相似度? 通过比较两节点所拥有连接的重合度来计算 不同于常规的在向量空间度量的方法 Aaf 被定义为两节点入连接 in-link 和出连接 out-link 重合度的几何平均 亲和度计算方法示意图 文本语境 context 建模 文本语境: 任意一个文本集合 句子、段落、文章、文本集 现有的模型 VSM Vector Space Model or BoW Bag of Word 特点 文本的向量表示 低计算复杂度 缺少结构信息 词激活效应 在人的头脑中存在词网,激活一个词会引发对其相关词 有连接的词 的激活 Doctor ? nurse Dog ? cat Boy ? girl Drink ? water 词激活效应在不同的领域中都得到了大量研究 计算语言学 computational linguistics 认知心理学 cognitive psychologies 认知神经科学 cognitive neural sciences … 词激活力 Word Activation Forces 应用我们提出的激活力公式对词激活效应进行定量描述,获得词激活力网络模型 词激活力 word activation forces, 简称 wafs 将 wafs 作为个人语言经验的训练结果 利用大的公共文本集来近似一个普通人的语言经验 词激活力可通过文本集中的词频和词共现频率等统计量算出 所有词间的双向激活力构成一个有向的词网络 基于wafs对BNC建模 BNC 英国国家文本集 The British National Corpus 包含1亿字的有标注的多样性的英文文本 基于词激活力对BNC建模 取频度最高的10,000个词构成词汇表,计算词汇表中任意两词间的激活力 W wafij i,j 1,2,…, 10,000 W 是包含10,000个节点的有向图 矩阵的第i行和第 i列分别是词 i的出连接 out-link 和入连接 in-link W的性质 节点的入连接和出连接强度的分布符合 power law 每个词都高度选择性地分配其连接的强度 强连接总是指向关系最密切的词 可以删除弱连接来大幅简化网络结构,等效于对W进行稀疏表示 W中的节点举例 由Aaf找出的关联词 大量的词都与其最密切的关联词之间保持最高的亲近度 a~the ability~capacity above~below
文档评论(0)