汉语散文同现网络特性研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
共 NUMPAGES 8页 河南理工大学数学与信息科学学院本科毕业论文 第 PAGE 7页 PAGE 1 指导教师:梁伟 学生:王鹏江 汉语散文同现网络的特性研究 王鹏江 河南理工大学数学与信息科学学院信息与计算科学专业2010级2班 摘要:本文针对30篇汉语散文,建立了字、词同现网络共60个,并且计算了它们的统计参数:直径、平均度、度分布、聚类系数、平均最短路径及其连通子图个数。研究表明汉语散文字、词同现网络都具有小世界特性,并且绝大部分网络具有无标度特性。通过对字、词同现网络统计参数的比较,揭示了汉语散文中字、词的异同。 关键词:汉语散文;同现网络;小世界;无标度 §1 引言 复杂网络作为一门新兴科学,是对复杂系统的复杂性进行解释的学科。复杂系统在自然界和人类社会中普遍存在,包括自然界中天然存在的星系、食物链网络、神经网络、蛋白质网络[1, 2];科学家合作网[3, 4];人类创造的交通网络、通信网络、计算机网络等[5, 6]。近年来,国内外网络科学发展迅速,它已经成为一门广泛交叉的科学,为众多领域的研究提供了一种新的思维方法和解决方法[7]。在这样的背景下,语言学开始成为人工智能方面的一个研究热点。 复杂网络简而言之即呈现高度复杂性的网络。其复杂性主要表现在以下几个方面:(1)结构复杂:表现在节点数目巨大,网络结构呈现多种不同特征。(2)网络进化:表现在节点或连接的产生与消失。例如world-wide network,网页或链接随时可能出现或断开,导致网络结构不断发生变化。(3)连接多样性:节点之间的连接权重存在差异,且有可能存在方向性。(4)动力学复杂性:节点集可能属于非线性动力学系统,例如节点状态随时间发生复杂变化。(5)节点HYPERLINK /view/826610.htm多样性:复杂网络中的节点可以代表任何事物,例如,人际关系构成的复杂网络节点代表单独个体,万维网组成的复杂网络节点可以表示不同网页。 中国汉语文字博大精深,是人类文明的结晶,是一个经过漫长演化而来的复杂系统。由于一篇汉语散文文章是由许多句子组成,而每个句子又由若干字、词构成。因此,研究汉语字、词的特性是研究整个汉语复杂系统的基础。汉语语言网络的研究已取得一些研究成果。韦洛霞等人根据一个基本词语集,构造了词法网络(如果两个词语包含同一个汉字,则认为其间存在连接)[8, 9]。2006年唐璐等人在两个大型网络HowNet和WordNet的基础上,构建了两个语义网络[10]。2007年刘知远等人在《人民日报》1300万字左右的人工分词语料库和国语委5000万字左右的人工分词语料库的基础上,建立了四个词同现网络[11]。2008年周水庚等人基于大型语料库PFR1.0建立了两个词同现网络[12]。研究发现上述网络都具有小世界特性和无标度特性。现在只有论文文献[13]对文字网络进行了深入研究。然而除了论文文献[13]之外,尚未见文献报道对中文字网络的任何研究结果。在现有的文献中,前任的工作是将大量的文章合在一起建立一个网络。而本论文中,是针对每篇散文建立一个字同现网络和一个词同现网络,那么此时所建立的网络是否仍然具有小世界特性和无标度特性?另外,是否能通过比较两类网络的统计参数得到其它的结论?我们针对这两个问题展开研究。 在本论文中,我们将从复杂网络的角度来深入研究汉语散文同现网络的特性。为此,我们选择了30篇汉语散文。针对每篇散文建立一个字同现网络和一个词同现网络。因此,共建立了60个字、词同现网络。这里所建立的网络均是无向、无加权的。我们研究了网络的统计特征:直径、平均度、度分布、聚类系数、平均最短路径及其连通子图个数。研究发现所有网络都具有小世界特性,且绝大多数网络都具有无标度特性。 §2 基本概念 近年来,人们在刻画复杂网络机构的统计特性上提出了许多概念和方法,其中常用的有三个基本概念:平均最短路径、聚类系数和度分布。 一个具体的网络可抽象为一个点集V和边集E组成的图G =(V,E)。如果任意点(i,j)与(j,i)对应同一条边,则该网络称为无向网络,否则称为有向网络。如果每条边都赋予相应的权值,那么该网络就是加权网络,否则称为无加权网络。无加权网络也可看作是每条边的权值都为1的等权网络。本文所构造网络都是无向、无加权的。节点i的度定义为与该节点相连的其它节点的数目,用表示。网络的平均度定义为: 2.1平均最短路径 网络中两个节点i和j之间的距离 QUOTE 定义为连接这两个点的最短路径上的边数。网络中任意两个节点之间距离的最大值称为网络的直径,记为D,即 网络的平均最短路径长度

文档评论(0)

186****8818 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档