- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于概念网的文本特征网络图分析¨
张月国1’2 李生红1 董莉莉1 李建华1’2
1上海交通大学电子工程系,上海,200240
2上海市信息安全综合管理技术研究重点实验室,上海,200240
摘要 文本特征提取与表达是网络内容安全舆情分析研究的基础,本文借鉴
知网的概念,结语义网络图分析方法,提出了一种文本特征提取与表达的分析方
法,在定义了文本特征网络图有关概念后,可用网络图的方式表达文本信息,并
能对文本信息网络图进行约简,从而得到表达文本中心意思的文本特征网络图。
关键词概念网 文本特征实体网络图
一、引 言
互联网给人们带来巨大的便利,但其所提供的信息传播平台也带来了潜在的内容安
全问题,如散播反动、恐怖等不良信息,如何有效地在现有的互联网文本信息平台上,从海
量信息资源中进行相关舆情分析与管控是内容安全研究的新课题,文本特征提取与表达
分析是文本舆情分析研究的基础,也是其关键问题、难点问题。
文本分析最初作为语言学的一项内容而提出,后来应用于计算机,比较经典的语义学
理论有:美国计算机学家Schank提出的概念从属理论,德国学者特雷尔提出的研究语言
初作为联想记忆的心理模型提出,后来在自然语言处理、人工智能等领域有广泛的应用。
当前自然语言处理对文本处理的方法有多种,可概括为两类:基于统计的方法和基于概念
的方法。前者基于文本的向量空间模型和关键词,从词频等角度进行统计分析,常见如基
于向量空间模型(VSM)[4]的方法,该类方法对文本处理速度快,但由于它不关心文本的
语义,并不能真正地理解文本的内容,因而准确度不高。后者基于概念网,全部或部分理
解文本的语义并进行归类,此方法也研究单个词语,但由于其更加关心文本的概念、语义,
因而该方法比统计方法要准确。
1.语义网络
语义网络关注自然语言中知识如何表示,是一种用实体及其语义关系来表达知识的
有向图。其中,结点代表实体,表示各种事物、概念、属性、事件等;有向线段表示它所连接
的两个实体之间的语义联系。此方法能有效表示事物的属性以及事物之间的各种语义联
系,本文采用了这种结构化的知识表示方法。但语义网络没有很严格的形式形成体系,对
于复杂语言的分析显得不够完善‘5】。
0393);上海市曙光计划项目I“863”计划(编号:2007AA012455)。
·401·
2.知网
知网[6]是一种概念网,它以词语所代表的概念为描述对象,是揭示概念之间、概念所
具有的属性之间的基本内容的常识知识库。
知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,
时间,空间,属性值以及事件。计算机化是知网的重要特色。知网建立了对万物类、属性
类和事件类等描述的语料库。本文研究的方法借鉴了知网关于概念的定义。
二、文本特征网络图分析方法与文本特征定义
1.文本特征网络图分析方法
知网中基于概念的分析比基于统计的分析准确,但知网本身是一个语料库,不能解决
文本处理的关键问题,语义网络能图形化直观表达知识,但其缺点在于其关于网络表示法
的定义不够严格,体系不够完整,不能适应复杂的真实文本环境。
本文借鉴两者的优点,对文本分析建立_种新的分析方法,引用知网中的概念定义辅
助分析,同时利用语义网络的知识表示方法,通过网络的遍历和基于知网分析,实现概念
推理过程,另外通过网络节点权值的引入和基于概念的合并与化简,构建文本特征网络
图,可提取文本的核心语义。
2.文本特征定义
知网认为世界万物都是由不同的事物、事件组成的,不同的事物具有不同的属性,不
同事件也会涉及不同的事物。本文借鉴其哲学观点,将世界看成由不同种类的实体所组
成,进行如下定义:
定义1世界为Ⅳ,实体为E,属性为丁,用集合表示:w一{E(t),IOi,歹∞}。
世界由多样化实体E组成,实体E可以具有多种属性T,另外属性T也可具有多种
不同的类型,如限定类、属主类、时间类、地点类、同位语类、数量类等。
实体有三种基本类型:事件实体VE、事物实体NE、事件关系实体RE。
VE
您可能关注的文档
最近下载
- 财产保险案例分析保险考研[精品].pptx VIP
- 财产保险案例分析保险考研.ppt VIP
- 2025年税务检查重点趋势分析及涉税风险防控.pdf VIP
- 财产保险案例分析和计算题 .pdf VIP
- 财产保险案例与分析.docx VIP
- SBT 10532-2009沐浴企业等级划分技术要求.pdf
- 江西省上饶市第四中学2024-2025学年高一上学期第二次月考测试卷语文试题(含答案).docx VIP
- 人工智能技术在特殊教育融合教育中促进教师专业发展的研究教学研究课题报告.docx
- 《水利工程外观质量评定规程DB34∕T 4010-2021》知识培训.pptx VIP
- DLT741-2023年架空送电线路运行规程.docx
文档评论(0)