社交网络中话题发现与演化模型算法研究.pdfVIP

  • 1
  • 0
  • 约1.97万字
  • 约 47页
  • 2026-03-13 发布于北京
  • 举报

社交网络中话题发现与演化模型算法研究.pdf

1引言

2话题发现的模型和算法

随着信息技术的快速发展和信息应用的广泛普及,在线社交网络成为信息发布和获

取的更方便、更快捷的渠道。社交网络上的信息种类丰富、内容繁杂,其中充满了

大量用户可能会关注的话题。

如何在海量、动态、多源的社交网络数据中抽取出用户感兴趣的话题并进行推荐,

追踪话题发展变化,挖掘事件态势走向,对于快速变化的网络时代的信息决策是很

关键的。

2、话题的定义

话题:是指一个引起关注的事件或者活动,及其所有相关的事件和活动。其中,事

件或者活动是指在一个特定的时间和地点,发生的一些事情。

新浪微博的热门话题排行Twitter的热门话题

3、社交网络话题的特点

1

()社交网络中话题的发起地点分散。社交网络的用户可以在任何时间、任何地点发

起话题,相应的地理位置是分散的。基本上我们无法预测话题发生的时间或者地点。

(2)社交网络中话题的传播速度快,范围广。通过全球相连的社交网络,话题发起之

后几个小时之内就能在全球造成巨大的影响。

3、社交网络话题的特点

3

()社交网络中话题种类繁多,包罗万象。这使得相应的文本特征复杂,需要多领域

特征知识的支持。因此,传统的文本分析方法不适用于社交网络中话题相关的文本分

析。

4

()社交网络中话题的相关数据是多源的。话题的发起人一般不是一个,这使得话题

的构成复杂,并且造成话题观点之间的相互矛盾和冲突。

3、社交网络话题的特点

5

()社交网络中话题的相关数据是海量的,并且数据相对集中。在大型社交网络中,

每天产生的数据都是海量的,例如Facebook平均每天需要处理约25亿条内容。但是这

些海量数据都是相对集中在几个大型的社交网络中。在中国网络上,QQ、新浪微博和

微信包括了大部分的社交网络话题数据。

6

()社交网络中话题的相关数据是动态的,且不断更新。由于社交网络中用户的交互

作用,一个用户关于某一话题的态度可能随着周围朋友的态度而不断发生变化。

3、社交网络话题的特点

综合以上数据特点,同时由于社交网络中话题数据是多源、动态、海量的,人工

发现和跟踪数据是不可能的。因此社交网络中的话题发现和演化需要提出适合计算机

程序的算法,以保证程序自动完成话题的话题发现和演化跟踪。

1引言

2话题发现的模型和算法

1、话题发现的数据特点(Twitter)

1

()数据的规模庞大,且更新速度快。

2Tweet140Twitter

()数据内容简短。一条通常限制在个字符以内,使得上的数据内容

都比较简短,有的Tweets甚至只有一个或两个单词。

3TwitterTweets

()数据的噪声大。用户发布的往往比较随意,内容以个人状态、观点

看法为主,而且由于内容长度的限制,在Tweets中经常夹杂错别字(词)、新生词、

网络用语、缩略语、表情符号、特殊标签[如Twitter中的#hashtag#(推特标签)]等。

还有传统文本中遇到的停用词问题。

4Twitter

()数据的非内容性特征。的信息不仅集中在内容上,还会更多地反映用户

之间的社交关系,如Tweets之间存在的转发、评论、回复、“@user”等关系。而每

条Tweet还包含时间、用户、甚至地点信息,这些非内容性的特征可能也包含有价值的

信息。

1、话题发现的数据特点(Twitter)

推文一般较短

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档