- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个基于语义分析的的文本过滤方法
一个基于语义分析的文本过滤方法
摘 要 基于统计的文本过滤方法比较适用于主题过滤,对具有倾向性的文本进行过滤的效果不理想。本文提出了一个倾向性文本过滤的方法,在采用语义模式分析的同时,引入了特征区域权重因子,实验表明其查准率、查全率较高。 关键词 文本过滤;语义分析;语义模式1 引言 随着信息社会的不断发展,人们面临的信息日益剧增,如何更准确、有效地找到自己感兴趣的信息,过滤掉与需求无关的“垃圾”信息,成为了一个重要的研究问题,内容过滤技术也就应运而生。目前,网上信息大多是文本形式,所以内容过滤大多是针对文本的。所谓文本过滤指的是从大量文本中找出满足用户需求的文本的过程,它对于文本信息处理具有重要意义,另外,它也可以实现对网络中不良信息的自动过滤,从而保障网络的安全。 网上的不良信息包括暴力、色情、邪教等主题,主题性信息过滤大多采用基于统计的过滤技术,利用关键词匹配技术来实现,这种方法只能过滤出与主题相关的文本,不能区分出文章的立场和态度。而有些文章虽然也包含相关的主题,但却可能对主题持有不同的立场,例如包含“法轮功”主题的文章,有些是站在批判法轮功的立场上来表达观点的,有些却是站在支持法轮功的立场上的,因此对这类信息进行分析时,不仅要分析其主题内容,还要分析它的立场和态度,即它的倾向性,采用基于统计的主题过滤技术是不能较好地解决这种过滤要求。要解决这个问题,除了要进行主题分析外,还要对文本进行语义分析,理解文本表达的主题思想,弥补统计方法缺乏语义信息的弊端,从而更精确地满足用户的信息需求。 本文提出了一个基于语义分析的信息过滤方法,除了对文本进行语义分析外,还充分考虑了文章主题词所在特征区域的重要性,在计算文本的倾向性指标时增加了特征区域权重因子,能更准确地过滤出倾向性文本。2 倾向性文本语义模式分析2.1 文本语义模式 目前的自然语言理解技术还不能全面而精确的解析和表达文本的主题思想,而倾向性文本过滤通常用于特定领域,语义分析只需基于特定领域知识,无需对文本进行全面的语义分析,只要分析出不同的倾向性。因此,对文本进行语义分析所产生的语义单元不必过细,可以简化。语言学家CharlesJ.Fillmore于1986年提出了“格语法”[1]的概念,对于文本分析采用简化的局部分析的方法,语义分析采用格语法。格语法以动词为中心研究语句的深度结构,认为句子的其他成分都是对动词的修饰,每一种修饰称为一个“格”。一个句子以动词为中心词,动作的施加者称为施事格,动作的承受者称为受事格,动作的地点称为地点格等,而格关系则是谓词和格之间的语义关系。对于倾向性分析,最重要的语义关系是施事格和受事格,其他的格对于倾向性影响较小,当文本中出现了与句子中各个角色关系相对应的格(即句子结构)时,才能判断为相关。 为了表示语句中的语义关系,本文采用了简化的语义模式来表示文本的基本语义框架。在进行语法和语义分析时,根据动作的施加和接受,可以将文本分为4种语义模式: (a) 主(Who)、谓(What)、宾(Whom)模式 (b) 主(Who)、谓(What)模式 (c) 动(What)、宾(Whom)模式 (d) 关键对象(Who)模式 在许多文本中,有些主体、行为或个体本身就表现出对问题的倾向,如个体“非法邪教”、行为“欺骗”本身就已经反映了强烈的倾向性,模式d中把具有这种特性的主体、行为或个体统称为关键对象。2.2 过滤模板的表示 对于文本的倾向性过滤要求的表达,同样可以忽略句子中对倾向性影响较小的时间、地点等因素,因此我们采用如下简化的过滤模板来表达文本的语义关系(见表1)。表1 过滤模板的表示 表1中,Relevancy表示相关度,它代表不同的语义模式对作者观点的倾向性的权重,用正值表示正相关,负值表示负相关,Relevancy的绝对值越大,则表示倾向性越强。采用这种设置可以正确的判断在正面信息中引用负面信息的情况,例如,在过滤宣扬法轮功的反动信息的过滤模板中,批判法轮功的语义模式就具有负的相关度,这样可以避免在批判法轮功的文本中引用了法轮功言论而导致倾向性误判的情况。3 倾向性文本过滤方法3.1 过滤步骤 对文本的过滤过程分为3个步骤: (1)对文本进行语法和语义分析,切分出每个句子中的语义模式。 (2)根据文本所在的特征区域和对应模板的相关度,计算该语义模式的加权相关度。 (3)计算全文语义的相关度,与过滤阈值进行比较,若相关度大于阈值,则认为该文档与过滤模板匹配。3.2 相关度权重设置 不同的语义模式对作者的倾向性观点的表现能力是不一样的,因此,过滤模板中不同的语义模式的相关度一定是不同的,表示正面倾向的语义模式设置为正权重,表示反面倾向的语义模式设置为负权重,比如,批判法轮功的各模式权重可分别设置为1~ 4,宣扬法轮功的各模式权重可分别设置
文档评论(0)