- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(1)自动分类与自动聚类 通过聚类和分类功能可以对网络中的敏感话题、热点话题、给定时间段内的热门话题,进行识别,具体可以根据发言时间密集程度、跟帖数量、转贴数量和程度、新闻出处权威度、评论数量等不同参数,进行分类识别,从而实现网络信息的自动分类和聚类。 (2)相似搜索与去重 相似搜索:就是在对象集合或相关数据库中,找到与指定的查询对象相似的数据、对象实例或对象子集。 去重:就是消除掉重复的信息,保留原始出处的信息,消去大量转引的重复信息。 舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示信息,使用户用最短的时间搜索到最精确的信息 (3)主题检测与追踪 主题追踪:是指在大量各种不同的信息来源中追踪发现那些与指定目标主题的相关的或相同的信息片段。 主题检测:不但可以自动检测信息片断集合中的各个未知主题,还能够在线检测发现新主题。即实现网络舆情分析系统中的主题跟踪功能,通过分析新发表文章、贴子的话题是否与已有主题相同。 实现热点专题总体分布、重点预警事件总分布、各类重点预警事件分布搜集。跟踪的具体内容包括:信息来源、转载量、转载地址、地域分布、信息发布者等相关信息元素。 (4)关联分析与趋势分析 关联分析是从海量数据中挖掘出内在的关联规则。同时,利用趋势分析技术,分析关于网络中不同主题的舆论,随时间的发展趋势情况,以便实现对舆论环境的监测与不良倾向的预警。即可以实现网络舆情分析系统中的倾向性分析,对于每个话题,对每个关键人发表的文章的观点、倾向性进行分析与统计。 4、统计报告 根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持,并建立相关的舆情知识库。 基于数据挖掘技术的网络舆情研究 基于数据挖掘技术的网络舆情研究 大数据的理解和生成背景 所谓“大数据”:直观理解就是信息和数 据量的规模十分巨大,无法用常规的信息技术手段和软硬件工具进行感知 、获取、管理和处理的数据集合。 数据时代的生成背景:数据获取技术的革命性进步、传感器等自动采集的数据 、Web 2 .0 等用户生成数据以及移动设备生成的数据( 位置、移动和行为信息等 )。 大数据的数据挖掘技术 大数据分析的主要技术手段是采用数据挖掘。 数据挖掘:又称数据库中的知识发现 ,即指从数据库的大量数据中揭示出隐含的 前所未有的并具有潜在价值的信息的价值聚合、 提炼的过程。 数据挖掘研究拥有强大的技术支柱:数据库、人工智能和数理统计技术。因此它作出的判断具有更强的合理性、准确性、针对性。 数据挖掘的功能 客户细分、客户价值分析以及流失预测 异常发现、预警 科学发现 改进工作效率 1、客户细分、客户价值分析以及流失预测 通过聚类分析的方法,将客户进行划分,获得客户群的不同特征,从而对客户群进行针对性的营销,或者面向特定细分群开发特定产品,从而达到提高产品质量,提升客户忠诚度的目的。 通过对客户行为模式的挖掘,可以预测出那些可能会流失的客户,对这些客户进行有针对性的挽留,可以降低营销成本,提高产品收入。同时可以发现哪些客户是企业最好的客户,哪些是潜在的客户。电信、银行、保险、零售等多行业都通过数据挖掘收益颇丰。 2、异常发现、预警 通过对数据的分析,找出其中的异常点。 例如,银行在采用了数据挖掘技术后能够很好地减少利用信用卡的犯罪。通过对申请资料的数据挖掘,对每一份资料进行评分,发现信用欺诈的申请者。运用于税务数据分析,则可以发现偷税漏税行为。 通过对数据中趋势的分析,对将要可能发生的事件提出预警。 例如在电信行业中,通过对以往报警数据的分析,发现有哪些常规报警可能是重大问题的前兆,并提出预警,阻止事故的发生;对工厂生产数据的分析,识别重大质量问题的前兆,及时采取必要措施,避免事故的发生。 3、科学发现 通过对大量科学实验数据的分析,发现其中隐藏的模式,以便新的科学发现的产生。 例如通过对生物信息数据的分析,发现新的基因;通过对天文数据的分析,发现新的星体;通过对医疗数据的分析,发现药物与疾病之间的关系;美国NASA也是使用数据挖掘工具分析出了2003年哥伦比亚号航天飞机失事的真正原因。 4、改进工作效率 通过数据挖掘工具的使用,对日常工作或业务数据进行分析,找到优化的模式,从而改进工作效率或业务流程。 例如在美国NBA中,教练使用了一套数据挖掘工具,分析篮球运动员的运动,以帮助教练找到最有效组织进攻和防守的方法。也产生了替补球员在关键时刻上场,并取得好成绩的佳话。 基于数据挖掘技术的网络舆情研究 数据挖掘技术运用于网络舆情的优势及应用 数据挖掘拥有以下六种不同功
文档评论(0)