话题发现与跟踪技术.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
话题发现与跟踪技术 一:方案提出 1 利用网络爬虫Nutch将爬到的数据存储在表Crawler中 2 将表中数据(标题和正文)进行特征向量提取,得到VSM(Vector Space Model)向量空间模型 3 用KNN聚类算法进行第一次聚类得到微类集合 4 用单连通算法(Single-Pass算法)进行第二次聚类得到精确的聚类结果 5 根据热点事件发展曲线识别出热点话题 6 话题呈现 二:网络舆情分析 1 系统总体结构: 话题发现模型: 1 主题网络爬虫定义:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。 基本思路:按照事先给定的主题,分析超链接和已下载的网页内容,预测下一个待抓取的URL以及当前网页的主题相关度。 2 信息采集流程: 1)输入WebURL 2)Web相应? 3)否就结束;是就进行下一步 4)初始化URL队列 5)数据流(读取数据流类) 6)信息分类存储(正则表达式匹配类) 7)数据库(操作数据库类) 8)添加到新URL队列 9)重复第2)步直到URL队列为空 3 热点分析过程 包括:热点分析起始时间,热点信息显示,舆情采集信息和话题活性图 4 存储记录 存储一条记录时,程序首先通过MD5将网络爬虫提取的每一个字段值联合成一个字符串进行加密,映射成32位长的UDDI,作为此数据的标识。实现去重功能 MD5去重复URL: Message-Digest是指字符串的Hash变换,即把一个任意长度的字符串变换成一定长的大整数。MD5加密以512位分组来处理输入的信息,且每一组又被划分为16个32为子分组,将这四个32位分组级联后将生成一个128位散列值。 MD5算法是一个不可逆的字符串变化算法。特性: 任意两端明文书局加密以后的密文不含相同 任意一段明文数据经过加密后其具体结果必须永远是不变的 三:热点事件发现 1 TDT相关概念 话题(Topic),事件(Event),报道(Story),主题(Subject) TDT也把包括一个核心事件以及所有与之关联的事件的总和称为话题。即话题就是关于某个事件的所有报道的集合。 报道:指描述某个事件的新闻片段。 话题:不是指一个大的主题,而是一个具体的事件。 2 话题检测与跟踪 分为五个子任务: 1)报道切分(Story Segmentation) 2)新事件检测(New Event Detection) 3)关联检测(Link Detection) 4)话题检测(Topic Detection) 5)话题跟踪(Story Tracking) 话题发现任务的本质是将输入的新闻报道流划入不同的话题类,并在需要的时候建立新的话题类,其过程等同于无指导的聚类过程,且属于一种增量聚类,一般可划分为两个阶段:新事件检测阶段和后续的新闻报道流中的报道划入相应的话题类阶段。 3 热点事件内容特征自动抽取 网络新闻中热点事件的发现及热点事件内容特征的自动抽取。主要包括: Web新闻网页的自动采集 网页正文的抽取及去噪 事件发现算法 热点事件判别 对热点事件不同层面内容特征的自动抽取 事件发现算法: 第一层:采用凝聚聚类算法对每天的语料进行聚类,得到每天的微类。 第二层:采用Single-Pass聚类算法对用户选择的某一段事件内的所有天的微类,按照微类间的时间顺序进行聚类得到事件列表。 4 热点事件发现 1)网络新闻语料采集(爬虫) 2)语料预处理 文档向量化是计算文档之间相似性的基础,每个文档d表示成V(d) = (t1,w1(d);,,,,,,,,,,,ti,wi(d);,,,,,,,,,tn,wn(d));其中ti为特征向,wi(d)为ti在d中的权值。 文档分标题和正文两部分,也对命名实体进行加权。 特征向ti权重的计算,改进TF*IDF方法: 相似度计算: 计算相似度建立相似度矩阵: 余弦夹角公式: 加入时间衰减函数T,描述如下: 特征词权重: 向量空间模型: 向量空间模型(VSM): 热点发现及跟踪: 网页信息预处理: 文档的向量表示: 度量事件热度:(时间单元为一周) 主题文章的向量表示: 四:事件发现与跟踪 五:热度,关注度等度量 度量事件热度的三个特征量: 话题关注度计算公式: 六:算法实现: K均值算法: KNN算法: 单连通算法: Single-Pass聚类算法: KNN 算法的K值的选取: 改进的KNN算法: 改进的Single-Pass算法: 事件跟踪算法: 增量聚类算法流程: 七:话题发展曲线 话题发展曲线: 事件发展曲线图:

文档评论(0)

zxli + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档