基于概念网的文本特征网络图分析研究.pdfVIP

基于概念网的文本特征网络图分析研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于概念网的文本特征网络图分析¨ 张月国1’2 李生红1 董莉莉1 李建华1’2 1上海交通大学电子工程系,上海,200240 2上海市信息安全综合管理技术研究重点实验室,上海,200240 摘要 文本特征提取与表达是网络内容安全舆情分析研究的基础,本文借鉴 知网的概念,结语义网络图分析方法,提出了一种文本特征提取与表达的分析方 法,在定义了文本特征网络图有关概念后,可用网络图的方式表达文本信息,并 能对文本信息网络图进行约简,从而得到表达文本中心意思的文本特征网络图。 关键词概念网 文本特征实体网络图 一、引 言 互联网给人们带来巨大的便利,但其所提供的信息传播平台也带来了潜在的内容安 全问题,如散播反动、恐怖等不良信息,如何有效地在现有的互联网文本信息平台上,从海 量信息资源中进行相关舆情分析与管控是内容安全研究的新课题,文本特征提取与表达 分析是文本舆情分析研究的基础,也是其关键问题、难点问题。 文本分析最初作为语言学的一项内容而提出,后来应用于计算机,比较经典的语义学 理论有:美国计算机学家Schank提出的概念从属理论,德国学者特雷尔提出的研究语言 初作为联想记忆的心理模型提出,后来在自然语言处理、人工智能等领域有广泛的应用。 当前自然语言处理对文本处理的方法有多种,可概括为两类:基于统计的方法和基于概念 的方法。前者基于文本的向量空间模型和关键词,从词频等角度进行统计分析,常见如基 于向量空间模型(VSM)[4]的方法,该类方法对文本处理速度快,但由于它不关心文本的 语义,并不能真正地理解文本的内容,因而准确度不高。后者基于概念网,全部或部分理 解文本的语义并进行归类,此方法也研究单个词语,但由于其更加关心文本的概念、语义, 因而该方法比统计方法要准确。 1.语义网络 语义网络关注自然语言中知识如何表示,是一种用实体及其语义关系来表达知识的 有向图。其中,结点代表实体,表示各种事物、概念、属性、事件等;有向线段表示它所连接 的两个实体之间的语义联系。此方法能有效表示事物的属性以及事物之间的各种语义联 系,本文采用了这种结构化的知识表示方法。但语义网络没有很严格的形式形成体系,对 于复杂语言的分析显得不够完善‘5】。 0393);上海市曙光计划项目I“863”计划(编号:2007AA012455)。 ·401· 2.知网 知网[6]是一种概念网,它以词语所代表的概念为描述对象,是揭示概念之间、概念所 具有的属性之间的基本内容的常识知识库。 知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性, 时间,空间,属性值以及事件。计算机化是知网的重要特色。知网建立了对万物类、属性 类和事件类等描述的语料库。本文研究的方法借鉴了知网关于概念的定义。 二、文本特征网络图分析方法与文本特征定义 1.文本特征网络图分析方法 知网中基于概念的分析比基于统计的分析准确,但知网本身是一个语料库,不能解决 文本处理的关键问题,语义网络能图形化直观表达知识,但其缺点在于其关于网络表示法 的定义不够严格,体系不够完整,不能适应复杂的真实文本环境。 本文借鉴两者的优点,对文本分析建立_种新的分析方法,引用知网中的概念定义辅 助分析,同时利用语义网络的知识表示方法,通过网络的遍历和基于知网分析,实现概念 推理过程,另外通过网络节点权值的引入和基于概念的合并与化简,构建文本特征网络 图,可提取文本的核心语义。 2.文本特征定义 知网认为世界万物都是由不同的事物、事件组成的,不同的事物具有不同的属性,不 同事件也会涉及不同的事物。本文借鉴其哲学观点,将世界看成由不同种类的实体所组 成,进行如下定义: 定义1世界为Ⅳ,实体为E,属性为丁,用集合表示:w一{E(t),IOi,歹∞}。 世界由多样化实体E组成,实体E可以具有多种属性T,另外属性T也可具有多种 不同的类型,如限定类、属主类、时间类、地点类、同位语类、数量类等。 实体有三种基本类型:事件实体VE、事物实体NE、事件关系实体RE。 VE

文档评论(0)

精品课件 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档