- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于神经网络微博话题预测及分析
基于神经网络微博话题预测及分析 摘要:提出了基于神经网络的微博话题预测与分析系统,介绍了此系统的整体结构与流程,并说明了该系统具有抓取话题信息及其相关内容、建立数据库、热门话题预判等功能,从各个角度表明该系统对商业情报分析、行业调研、信息安全、网络舆情预警十分具有研究意义,本文对系统其中的数据处理和分析这一流程进行了重点阐述,并法分别阐述了固定权重、函数构建和神经网络这三种算法的主要内容、公式以及它们优缺点,并且对神经网络训练这一过程进行了仿真结果分析。我们采取三种算法相结合的方法来进行数据处理,对话题热度进行预判,可以综合三种方式的优点,避免一些缺点。系统将这三种方式相结合,使其更加贴近人类思考方式,提高预测准确度
关键词:话题热度;权重;神经网络
中图分类号:TP393 文献标识码:A 文章编号:1007-9416(2017)03-0082-02
1 引言
近几年,社交网络飞速发展,各大社交媒体的用户量呈指数性上升,微博也成为人们获取和发布信息的重要渠道,其热门话题也已经成为了网络热点的风向标。微博话题预测与分析,可向用户提供了解热门信息的渠道,还能节省时间;对于网络社交媒体网站的管理人员来说,可以帮助他们更好的了解用户群体的喜好;对于企业来说,能帮助他们迅速了解市场动向,为业务决策提供数据支持和指导[1];对于政府来说,有助于了解民众关注点与文化道德倾向,为施政方向提供参考等等。本文提出了将神经网络的思想应用在话题预测中,使微博话题更有预见性,提高预测准确度
2 系统结构
系统的整体结构如图1所示。首先从新浪微博开放接口中获取并识别出话题信息,建立话题数据库,并通过网络爬虫技术从微博搜索中抓取到与话题有关的微博数据,均进行特征提取[2]后分类存入话题相关数据库中,对这些数据处理和分析后作出预判哪些话题为热门话题,哪些为非热门话题。本文将主要阐述数据处理分析这一过程中用算法实现对热门话题的预判这一流程
3 神经网络
3.1 固定权重计算
权重,即将话题热度分为阅读量、转发量、增长率等影响因子,为其中每种影响因子分配各自的系数。最终将各项影响因子与其系数相乘再进行累加可得到话题热度。这种方式的优点是划分精细,可根据测试后数据增减影响因子,改动系数,但其缺点明显,自适应能力差,所需数据量太过庞大。其计算公式为:
(1)
式(1)中,T表示话题热度,表示权重,表示影响因子
3.2 构建函数计算
根据各项数据之间的关系,可以简单地抽象为一个热度得分与权重的线性关系,得分越高,对应权重在有限范围内同比上升。这种方式需要在前期获取大量数据进行测试和构建函数模型,最后得到话题热度。利用这种方式,我们可以在一定程度上进行简单的话题预测模拟。其具有较为清晰的逻辑,编程较为简单的优点,缺点是需要大量的真实数据来构建函数模型。其计算公式为:
(2)
式(2)中,T表示话题热度,表示权重上限,表示权重下限,表示此话题下内容条数上限,此话题下内容条数下限,表示当前内容条数
3.3 神经网络算法
神经网络算法是指让机器模拟逻辑性的思维,根据逻辑规则进行推理的过程。人工神经网络按照一定的学习准则,自发发现环境特征和规律性,减少下次犯错的可能性,达到高准确度的理想状态[3]。其优点是模拟人类思考的方式,对话题热度预测的方式更加人性化,自适应力强,通过大量的训练课提高预测的准确性,但它的编程比较困难,逻辑比较复杂。神经网络训练公式:
(3)
式(3)输入样本X根据误差e对权重A不断调整,直到e接近零;表示权重变化率,其取值不能过大或过小,过大会影响权重的稳定,过小会使调整权重时收敛太慢
3.4 概述
我们的方法综合利用了以上三种思想。我们首先将话题的阅读量、评论数、粉丝数按照一定比例赋予固定的权重,存入基本库,得到热度基值;而对于一些比较抽象的影响因子,例如名人效应、时效性、内容生动性、国家政策等没有明显划分标准的因素,我们首先利用一些少量的数据来构建一个简单的函数,提取内容特征来并建立附加库,再通过神经网络算法思想利用训练数据来不断调整权重,丰富并完善附加库,最终得到热度附加值。最后,将热度基值与热度附加值相加得到话题热度
4 测试结果与分析
4.1 神经网络算法应用
输入训练数据,先根据当前的权重计算,看误差是否?_到训练要求,若没有则对权重进行调整,直到误差接近于零,计算出的结果与训练数据的结果一样,然后再进行下一组数据的读取,重复以上步骤,直到所有结果达到训练要求。其神经网络算法流程图如图2
4.2 模拟结果与分析
如图3,在做神经网络训练预测时,我们采取两个点做回归分析。横坐标为目标值target,纵坐标
您可能关注的文档
- 基于时空结构高校有效体育教学探究.doc
- 基于时空特性高速路短时交通流预测.doc
- 基于时间序列探析网络流量异常检测.doc
- 基于明辨性思维大学物理教学.doc
- 基于景区局域网数字广播系统设计及实现.doc
- 基于智慧校园平台热点话题发现方法探究.doc
- 基于智慧供应链沟通机制创新设计及应用.doc
- 基于时间序列探析股票价格趋势探究.doc
- 基于智能交通城市停车位管理系统.doc
- 基于智慧课堂小学数学教学互动行为特征.doc
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)