基于hownet话题跟踪及倾向性分类研究副本.ppt

基于hownet话题跟踪及倾向性分类研究副本.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于hownet话题跟踪及倾向性分类研究副本

基于hownet的话题跟踪 及倾向性分类研究 ——丁锋 引言 在目前信息爆炸的情况下,如何快捷准确的获取感兴趣的信息成为人们关注的主要问题 但由于网络信息量大,与一个话题相关的信息往往是孤立地分散在不同地方及不同时间,仅通过这些分散的信息,人们很难把握信息的全面性 所以,话题检测与跟踪技术(Topic Detection and Tracking (TDT))就在这种情况下应运而生 话题检测与跟踪 它能帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件全部的细节及其他事件之间的关系 它的研究集中于5个子任务展开:新闻报道切分(Story setmentation),新事件识别( new event detection),报道关系识别(Story link detection),话题识别( Topic detection),话题跟踪(Topic tracking) 目前国外关于话题跟踪的研究采用的策略主要集中在机器学习,查询扩展和相关反馈等方面,但国内在这些方面的研究却很少 所以这次我主要讨论与话题跟踪子任务相关的内容 实现话题跟踪需要思考的问题 基本概念 话题:目前使用的话题概念是包括一个核心事件或活动,以及所有与之直接相关的事件和活动。 话题跟踪:即给出某话题的一则或多则报道,把后输入进来的相关报道和该话题联系起来,即首先给出一组种子报道,训练得到话题模型,然后在后续报道中找出所有讨论目标话题的报道。 例:“2011年6月21日, 郭美美炫富事件”就是一个话题,与之相关的红十字会信誉问题都被看做与这次事件直接关联,即与话题相关。 而后来导致的公众对社会公益机构信任度的怀疑问题,与郭美美事件有着直接的联系,也就是话题跟踪。 实现话题跟踪解决问题的思路 使用信息检索技术来实现话题跟踪,包括以下几 步骤: (1) 从种子报道中构造针对当前话题模型的跟踪查询项; (2) 采用算法将报道流中的新文档与跟踪查询项进行比较; (3) 如果相似则在跟踪该话题过程中做出相关性标识; (4) 采用报道扩充算法得到新的话题模型; (5) 利用训练得到的话题模型重复(1)一(3)步; (6) 以话题论点立场为线索组织并输出相关的报道。 由话题模型得到的跟踪查询项可以由定义事件的种子报道中选取的一组事件特征描述符组成。在信息检索中,跟踪查询项可以被认为是检索特征项。这样,问题就变为计算一个给定报道和被跟踪事件的描述符的相似度问题。从信息检索角度来看,我们将计算Sim( EventDesc;Story,)。 如果该值大于规定的阈值,则认为是与话题相关的。 话题/报道模型 向量空间模型 ti 在文档d中的权重的计算公式如下: 其中,tfi表示关键词ti在文档d中出现的频率;N表示用于特征提取的全部训练文本的文档总数;nti表示出现关键词ti的文档数。 在每篇文档中,词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率的自动赋值。 因此 (w1(d),w2(d),…,wn(d))被看成是n维空间中的一个向量。 相似度计算 对于向量空间模型而言,通常采用cosine公式来计算报道/话题相似度,即求两个范化矢量之间的夹角余弦。相似度计算公式表示为:Sim(d,t)=cos( )=vt(d)/vt(t) 其中 wi( d )和wi(T)分别是文档d和话题T中特征项ti的权重。因为本身已进行了归一化,所以cosine相似度不依赖特定的特征加权方法。 归一化:是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 基于信息检索的话题跟踪模型 报道表征和权重调整 报道表征:通常情况下,名词和动词可以作为识别报道所讨论话题的重要特征词。对报道文本进行分词后,去除禁用词,然后按需要取词,保留名词、动词、形容词等有实际意义的词。 权重调整:考虑到新闻话题比较强调事件发生的地点、时间和事件发生的对象,所以我们对表示具体事件的人名、地名、机构团体名,其他专有名、简称略语等特征词给予较大的权重,同时对于出现在标题区域的词也增加其权重。初步设定:人名、地名、机构名等的权重为2,标题词权重为1.5,普通词权重为1。 事件框架 随着事态的发展,话题往往会发生迁移和分化,导致一些相关文档不能被检索到。 以伊拉克战争为例,开始主要是对伊拉克局势、美英动态的报道,接下来是各方反应、战争影

文档评论(0)

151****1926 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档