链接分析在金融监管中的应用分析.pdf

[6,7] 域是密不可分的。链接分析中一种常用的基于图论的方法就是最短路径算法 。它是 一种图搜索算法,能够通过计算权值在网络中找到两个节点之间的最优路径。传统的 最短路径算法在很多领域都得以应用:机器人动作设计、网络路由等等。 经典的最短路径算法主要包括: (1)计算从单个源点到所有节点的最短路径:Dijkstra 算法,PFS 算法。 (2 )计算从单个源点到单个目的节点的最短路径:2-3 Dijkstra 算法。 最短路径的方法目的是找到两个没有直接关联的实体之间的联系,并且它们之间 的路径反映的是两个实体之间最强的关联。 1.2.1.2 基于网络搜索引擎的方法 由于互联网上的页面之间存在着错综复杂的引用与被引用的链接关系,所以链接 分析被广泛地应用于网络搜索引擎当中。其中最著名是 Page 等人在 1998 年提出的 PageRank 算法[8-10] 。PageRank 是用于评测一个网页“重要性”的一种方法。在揉合了 诸如 Title 标识和 Keywords 标识等所有其它因素之后,网络搜索引擎通过 PageRank 来调整结果,使那些更具“重要性”的网页在搜索结果中令网站排名获得提升,从而 提高搜索结果的相关性和质量。 PageRank 是基于这样一个理论:当从网页 A 链接到网页 B 时,PageRank 就认 为“网页A 投了网页B 一票”。PageRank 根据网页的得票数评定其重要性。然而,除 了考虑网页得票数(即链接)的纯数量之外,PageRank 还要分析投票的网页。“重要” 的网页所投出的票就会有更高的权重,并且有助于提高其它网页的“重要性”。 此外,基于链接分析的搜索引擎排序算法还有Kleinberg 提出的HITS 算法。但无 [11] 论是PageRank 算法,还是HITS 算法,目前对于这方面的研究都还很不成熟 。 1.2.1.3 基于链接的分类方法 基于链接的分类最主要的应用在社会网络分析领域,其中中最著名的是J. Kubica 等人在 2002 年提出的随机链接和分组探测的模型[12,13] ;同样,也应用于网页的分类 领域,它的目的是将网页按照页面的单词,页面之间的连接,锚文本和其他页面或链 接的属性进行分类;应用于目录学领域,依据被该论文引用的论文,引用该论文的论 3 文以及与它一起被共同引用的论文,基于链接的分类被用于预测论文的分类;在流行 [3] 病学领域,将具有同样病症的患者进行分类,基于链接的分类用于预测疾病的类型 。 1.2.1.4 基于链接的聚类方法 聚类是将数据对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较 高的相似度,而不同簇中的对象差别较大。 传统的聚类算法是将数据对象作为相互独立的个体按照它们的某一个或多个属 [14] 性值的相似性进行分组,而实际上,现实世界的对象是通过各种途径彼此相关的 。 例如,在学术论文领域,论文就可能通过它们的作者或者是引用关系而联系在一起。 基于链接的聚类方法就是将数据对象之间的关联,例如关联的类型,关联的频度,关 联的强弱等考虑到相似度的计算之中,这样聚类之后的结果不仅能体现对象属性之间 的相似,还能体现对象之间的本来联系。 目前对链接分析技术的研究,主要集中在Web 挖掘、犯罪线索挖掘和社会网络分 析领域。本文将在第二章详细叙述目前链接分析在上述领域的应用和具体算法。 1.2.2 现有软件平台 随着技术方法的进步和完善,一些用于作链接分析的软件也应运而生: (1)SAS 反洗钱平台。首先对数据依据一套规则与事实进行检验,其次,为客 户建立个性化的

文档评论(0)

1亿VIP精品文档

相关文档