- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中期-基于个人微博特征的Timeline生成研究.ppt
基于个人微博特征的Timeline生成研究 目录 二、课题的设计与实现 三、试验测试与结果分析 一、课题背景介绍 四、中期工作总结与计划 一、课题背景介绍 1.1课题简介 1.研究意义 在这个信息发展飞速的年代,我们渴望了解我们感兴趣的人和事。企业之间想相互了解自己的竞争对手,公司员工想了解老板的信息,追星族想了解自己喜欢的明星,个人想了解自己的亲戚朋友的近况。微博却承载着我们个人的想法而诞生。 2.现状 随着微博的快速发展,微博的历史信息量也越来越大,加上微博独特的特点,这使得我们在想了解我们感兴趣的人和事情的时候,困难加剧。 3.课题研究的特点 本文根据微博的特点,进行事件提取研究,实验也充分的证明了本文算法的有效性。 1. 2. 3. 4. 改进的TF-IDF 提取关键字 计算相似度 聚类的研究 一、课题背景介绍 1.2 课题的主要内容 目录 二、课题的设计与实现 三、试验测试与结果分析 一、课题背景介绍 四、中期工作总结与计划 二、课题的设计与实现 2.1课题总流程图 二、课题的设计与实现 2.2预处理部分 (1)去除个人微博中相同的微博 (2)提取出微博中的标签(微博中一般在博文的开头,两个#号之间或者【】之间的词语或者句子) (3)提取出微博中含有url链接所对应的标题(因为微博的特征是最多140字这里以新浪微博为主,所以url链接所对应的标题很大程度上能突出微博的主题) (4)找出每一条微博的评论、转发、赞的个数(评论、转发、赞越多,我们认为这条微博关注的人数比较多,我们认为这条微博很重要,应给微博中的关键词给予更大的权重) (5)去除微博中的停用词、表情、特殊符号(停用词、表情、特殊符号,我们认为这样的词对于整条微博的价值是很低的,去除这些词和符号,同时也降低了噪声) (6)分词采用中科院汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分词 校园招聘:毕业后想进入创业公司工作吗 创新工场联合我们投资的公司进入校园,联合招聘。有兴趣的当界毕业生,请点击: 应届生招聘 - 创新工场(Innovation Works) 标签 URL对应标题 普通文本 分词 分词 分词 校园,招聘,毕业,进入,创业,公司,工作 创新工场,联合,投资,公司,进入,校园,招聘,兴趣,毕业生 应届生,招聘,创新工场,Innovation,Works 2.2预处理部分 二、课题的设计与实现 2.3改进的TF-IDF 传统TF-IDF的缺点: 1.传统的TF-IDF是针对长文本而不是针对微博的,所以没有考虑到微博独特的特点。 2.如果一个词只出现在一条微博当中那么这个词的IDF会很高,传统的TF-IDF会把这个词当做权重高的主题词,但是在微博当中一个词只出现在一条微博当中,那么我们很可能不会把他当成关键词而是把一些分布在各个微博当中分布平均的词当成主题词来提取,所以我们引入信息熵的概念。 3.词的长度越长,那么词还有的信息量就越大,就越有可能成为主题词,那么这个词的TF-IDF权重应越高。 二、课题的设计与实现 2.3改进的TF-IDF 1.改进的TF计算公式:(引入了标签和URL) (1) 式(1)中w_hashtagi,j 表示分词后词wi在微博标签中出现的次数,w_urli,j 表示分词后词wi在微博dj中的url所对应的标题中出现的次数,w_posi,j表示分词后的词wi在微博除标签和url对应标题外的文本中出现的次数,α,β分别为词在标签中和词在url链接中出现词汇wi的加权值,试验中α,β分别设为2。 2.IDF计算公式
文档评论(0)