基于改进话题检测技术TBT预警系统研究.docVIP

  • 2
  • 0
  • 约6.67千字
  • 约 13页
  • 2018-08-29 发布于福建
  • 举报

基于改进话题检测技术TBT预警系统研究.doc

基于改进话题检测技术TBT预警系统研究

基于改进话题检测技术TBT预警系统研究   [摘 要]目前的TBT预警研究,使用经济理论和数学模型分析产业数据进行预警,数据收集困难,时效性差。针对以上不足,本文首次将改进的话题检测技术应用于TBT预警,设计了基于改进的话题检测技术的TBT预警系统模型,将改进的话题检测技术成功应用于TBT预警研究。实验结果证明,改进的话题检测技术显著提高了话题检测的精确度。   [关键词]数据挖掘;话题检测;TBT预警;文本挖掘   doi:10.3969/j.issn.1673-0194.2009.15.001   [中图分类号]TP391.1[文献标识码]A[文章编号]1673-0194(2009)15-0004-03      1 引 言      1.1 话题检测技术原理及应用现状   话题检测是通过计算机技术,自动将新闻数据流中的大量报道归入不同的话题,从而发现知识的过程[1]。   图1 话题检测的基本思想   话题检测是话题检测与跟踪(Topic Detection and Tracking,TDT)评测中的一项评测任务,在TDT评测研究的过程中,对话题检测的建模和检测算法进行了广泛的研究。如文献[2]基于Chow膨胀理论和依存剖析树提出了依存结构语言模型,提高了话题检测的建模准确度。文献[3]提出了变量空间隐马尔可夫模型,实验证明,此模型降低了算法时间复杂度,且提高了话题检测的精度。目前关于话题检测的研究多集中在改进建模方法或算法,应用于特定领域的研究数量较少。   1.2 技术性贸易壁垒预警研究现状   技术性贸易壁垒(Technical Barriers to Trade,TBT)预警对我国出口企业生存发展发挥着重要的作用,在当前经济危机背景下,其作用更为重要。在目前的TBT预警系统研究中,多应用经济理论和数学模型,对一个国家的宏观经济形势、产业发展趋势做TBT预警分析。在实际应用过程中有以下两个不足:一是收集数据困难;二是模型复杂,时效性差。      2 基于话题检测技术的TBT预警模型      2.1 预警系统的原理及模型   文献[4]给出了TBT的实施原因:第一,为了保护环境和消费者健康,提高生活质量;第二,为了保护本国市场和企业等相关利益集团的利益。因此,当进口方环境受到威胁,消费者健康受到侵害,或者相关集团利益受到冲击的时候,实施TBT的可能性就会很大。而在这个过程中,   图2 基于话题检测技术的TBT预警模型   新闻媒体会跟踪报道这些相关事件,扩散事件的影响力,引起相关部门的重视,从而设置技术性贸易壁垒。   因此,通过话题检测技术,分析相关媒体的报道,能够做出TBT预警。   系统的模型如图2所示。   2.2话题与报道建模   本研究采用向量空间模型来表示报道和话题,模型中包含两个中心向量,分别是内容信息中心向量和产品信息中心向量。??假设S是一篇经过预处理的报道或者话题,则S=C+P,C是指内容信息中心向量,P是产品信息中心向量。??   内容信息中心向量的建模采用传统文本挖掘中采用的方法。Cont 1,Cont 2,…,Cont ??k是从S中抽取的不同内容词,k是出现在S中的k个不同的词,那么C可以表示成:C??=(Cont 1,wgt 1; Cont 2,wgt 2;…; Cont ??k??,wgt?? k??),wgt ??i??是Cont ??i在S??中的权值,由公式(1)中所表示的TFIDF公式计算得到。   wgt????i??=tf????i??×log??Nn??i+0.01(1)??   式中,tf ????i??是Cont ??i在S中的词频,N是所有已经输入报道的总数,n??i是这N??个报道中含有Cont ??i??的报道的个数。   产品信息中心向量建模与内容信息中心向量建模方法相同,但其向量的权值wgt由两部分组成:一部分由TFIDF公式计算得出,另一部分根据产品信息在报道中的位置信息得出。由公式(2)中所表示的公式计算得到。   wgt????i??=tf????i??×log??Nn??i+0.01+??Loc(??n??d??)(2)   式中,tf????i??是Prd????i在S中的词频,N是所有已经输入报道的总数,n??i是这N??个报道中含有Prd????i??的报道的个数,Loc(??n??d??)表示的是产品信息在报道中出现的位置信息。   2.3产品信息在报道中出现的位置   在一篇报道中,重要的信息往往出现在报道最开始的位置,在后面位置出现的信息则更大可能是在表述其他相关的事件,而不是本篇报道的核心事件[5]。通过如下公式计算产品信息出现的位置信息:   Loc(??n?

文档评论(0)

1亿VIP精品文档

相关文档