从微博中挖掘有用信息-最新文档.docx

从微博中挖掘有用信息-最新文档.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从微博中挖掘有用信息 什么是微博 埃文?威廉斯等人联合创建了 Twitter 。2006 年,该公司推 出了 Twitter 服务, Twitter 的含义为: 鸟等)吱吱叫,啁啾地唱出; 唧唧喳喳地讲述,引申为每个人的表达欲和分享欲。 Twitter 是微博中最早的一个,从 twitter 的含义中可以大 概理解了什么是微博, 微博是一种服务, 它能让你与朋友、 家人、 同事保持紧密的联系。 通过这种联系与交流, 你能随时随地并且 快速地获得一个问题的答案。 这个问题是我们在生活中最常出现 的问题之一,又往往是我们最为关心、最急于获得答案的问题。 微博的特征 任何用户向微博上传每条不超过 140 个字的消息, 该用户相 应的“跟随者”( followers) 就能及时查看该信息并发表评论。 所谓“跟随者”, 就是指关注某一账号所发布内容的其他微博用 户。当然用户也可以主动“追随”( following )别人。它通过 限制信息字数、即时抵达、用户自主收发和鉴别真伪的方式,实 现了一种自主、互动、简洁、快速的信息传播方式。微博的三大 特征: 低门槛 140字的限制将平民和莎士比亚拉到了同一水平线上,每个 人都可以随时随地写出自己的思想,写作成了几乎没有门槛的 事,这一点导致大量原创内容爆发性地被生产出来。 2)创新的交互方式 与博客上面对面的表演不同, 微博上是背对脸的交流, 就好 比你在电脑前打游戏, 路过的人从你背后看着你怎么玩, 而你并 不需要主动和背后的人交流。可以点对多,也可以点对点。 3)原创性 只要能联网,有电脑或者有手机也可即时更新自己的内容, 哪怕你就在事发现场。 类例于一些大的突发事件或引起全球关注 的大事,如果有微博客在场, 利用各种手段在微博客上发表出来, 其实时性、现场感以及快捷性,超过所有媒体。 从微博中提取有用信息 信息总是在流动,而且是迅速、自由地流动。微博给我们带 来了前所未有的信息获取方式。 但我们如何从海量的信息中, 除无关信息, 从而获得我们想到的信息呢?怎样在不影响信息的 准确性和相关度的情况下实现信息过滤呢? 1)信誉度 信誉度是筛选信息的核心依据, 它将成为我们处理很多事情 的衡量标准,所以如何判别信誉度就成了信息筛选的核心问题。 种方式可以通过授权, 官方对博主进行授权, 官方授权的 博主信誉度高。通过官方对所有的博主进行授权显然是不可能 的。 另一种方式是通过衡量一个博主以前信息的可靠性来计算 他累计的信誉。 在信誉系统里, 一旦判定了一个消息源是否值得 信任,这个判定可以用作将来的参考。 用户和内容来源都可以赋 予信誉度。 也可以通过用户打分来影响信誉度, 如果一个博主发布了 条错误信息, 那么大部分其他用户就会给他打低分, 如果他的信 息是准确的而且对另外一个人很有用,那么他就会得到高分。 消息源的位置也会影响信誉度。 当一个人在微博上说北京的 天上人间”被查封了, 当时他在北京吗?如果是的话, 我们很 样信息, 我们可能还不会那么感兴趣, 即使他的消息来自东方卫 视。这是为什么呢?难道东方卫视的信誉还不及一个普通人吗? 可能对那个人接下来发的信息感兴趣。而对于上海的人发出的同 可能对那个人接下来发的信息感兴趣。 而对于上海的人发出的同 2)微博信息传递和消化的速度 信息传递以及它被消化的速度也是一个值得关注的地方。 实 时工作过程中速度非常重要, 消息要尽可能地和事情的发生时间 接近。毕竟,“突发性新闻”在事件发生一周后或其他人已经报 道的情况下就不“突发”了。 它的“突发”在于它刚发生。 例如 日本发生 9.0 级大地震, 引发了巨大海啸。 在事件刚发生的那一 个时间, 这是一个突发性新闻。 而在一段时间内也可以作为一般 的新闻, 但这个时候实时报道这个事件已经不那么重要了, 它已 经发生了一段时间了。 时间是实时信息的死敌。 通过微博发送一条信息需要多长时 间呢?如果微博的服务器运行正常, 整个过程可能几秒钟就足够 了。但实际操作上,这个时间确比这长得多。如果信息只是现在 才重要的, 或现在是最重要的, 必须尽快地把这个信息送到关注 它的人那里。 例如海啸十几分钟后将要到达, 这条信息半个小时 之后受灾人群才能收到,那么信息本身就失去了他的意义。 3)结构化数据 4.微博信息的价值 由于微博信息来源很广,反映了大部分人的思维、情绪、社 会行为,所以微博信息具有巨大的价值。例如,如果某一时段北 京有很多人的发布了关于感冒的信息, 那么医学家就可以从这些 信息中了解到主要的症状, 和大概感染人数, 从而制定感冒预防 办法。商家可以微博信息中得到用户的喜好, 从而推出受欢迎的 产品等等,微博信息的价值巨大, 还有待我们进一步开发和利用。

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档