- 1、本文档共79页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;目录;话题发现引言;1.1话题和发现;话题发现,又称话题检测,是指将新闻专线和新闻报道等诸多来源的数据流中的信息归入不同的话题,并在必要时新建话题的技术。它来源于TDT(TopicDetectionandTracking)。
20世纪90年代末,由美国国防高等研究计划署发起,马萨诸塞大学阿莫斯特分校,卡耐基-梅隆大学,DragonSystems等研究机构共同参与制定和设计的话题检测、跟踪及评测体系(TopicDetectionandTracking,TDT)。包括首次报道检测,在线话题检测,最新事件检测,事件回顾检测和层次话题检测等子任务。
;1.3青岛大虾事件;热点话题可以在一定程度上体现社会趋势,揭示当前正在发生的事情,反映公众近期关注的问题。
通过话题发现,人们可以用最少的时间,以最小的代价了解外界发生的变化。
“青岛大虾事件”,在短短几天内,其话题焦点,就从最初的“游客被宰”转移到相关部门“监管不力,投诉无门”,甚至“官商勾结”等对政府公信力的质疑上。
公权力和法律,不应该被舆论所绑架,但是通过话题发现,政府可以有效的获知舆情,了解民意,监督秩序。
除了可以用于舆情监测,话题发现还有许多其他应用场景。比如预测市场行情,制定营销策略等。;主讲人:王淼;2特征词提取算法;2.1.1基于统计特征的特征词提取算法;2.1.1基于统计特征的特征词提取方法;2.1.1基于统计特征的特征词提取方法;2.1.1基于统计特征的特征词提取方法;2.1.1TF-IDF算法和互信息算法的比较;2.1.2基于词图模型的特征词提取;2.1.2基于词图模型的特征词提取;2.1.2基于词图模型的特征词提取;2.1.2基于词图模型的特征词提取;2.1.2基于词图模型的特征词提取;2.1.2基于词图模型的特征词提取;2.2有监督的特征词提取方法;主讲人:陈思源;*PCA;*PCA;*PCA;*PCA;*PCA;传统信息检索方法;LSA(LatentSemanticIndexing);LSA;LSA;LSA;LSA;LSA;PLSA;PLSA;PLSA;PLSA;PLSA;LDA;LDA;LDA;Summary;主讲人:姜添;文本聚类;话题发现的组成;向量距离;簇间距离;算法选取;原理简述;文本2;选择K个点作为每个簇的初始中心,将剩余数据划分到距离这K个点最近的簇中,对新生成的簇计算中心点(更新聚簇中心),并不断重复划分数据与计算中心点的过程。;根据两个邻域参数确定所有的核心对象,任意选择一个没有类别的核心对象,找到所有这个核心对象能够密度可达的样本集合作为一个簇,直至所有核心对象都有类别。;优势与不足;主讲人:邓鸿捷;研究展望;研究展望;研究展望;研究展望;研究展望;Demo;Demo;Demo;Demo;Demo;Demo;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;话题发现应用案例与不足;参考文献与资料;参考文献与资料;感谢聆听
文档评论(0)