- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
博客信息挖掘
论文题目:B 博客信息挖掘
摘 要:
随着产blog的快速发展,对产品的推广宣传产生了有效的作用,现对某一年博客数据进行分析,从而预测出所发博客在基准时间未来24小时所收获的评论数。
针对问题一: 为研究博客发表后的跟帖和转载情况,根据训练数据表中所给属性,从表中列出可能与之相关的因素,包括200个常用单词,发表时间,源博客数量等因素,将该问题考虑为统计学中的多元回归问题,利用软件SPSS对其做因子变量分析。
针对问题二:利用控制变量法的思想,将众多因素分别考虑为自变量,将博客在基准时间未来24小时所获评论数作为因变量,然后把对训练数据进行筛选,剔除一些不合理数据,比如博客长度为0的数据,然后把剩余数据按因素分类累加,把具有相同因素的数据的因变量累加,使用SPSS进行聚类分析,然后以此为作出相应的图像,观察两者有没有关联。
针对问题三: 根据第二题的求解,在众多因素中剔除掉明显没有直接相关的因素。然后对剩余因素继续进行聚类分析求其相关系数,然后按照相关系数的大小进行排序。在第2问中通过初步的快捷方法得到的影响因素中,再对这些因素做逐步回归分析,更为精确地查找。
针对问题四: 根据前三问的求解所初步判断出影响目标变量的因素,综合这些因素,利用线性回归和逐步回归的方法,使用阻止增长模型来刻画影响因素对目标变量的关系,然后对应训练数据,对模型进行验证和修正,得出一个最符合的模型,然后利用该模型预测中2012年2月1日、15日、和29日的数据中所发博客在基准时间未来24小时所收获的评论数。
关键词:博客 因子变量 聚类分析 逐步回归 控制变量 微分方程法
参赛编号
(由组委会填写)
一、问题重述
博客,它的正式名称为网络日志,是一种通常由个人管理、不定期张贴新的文章的网站。BlogPost,作为动词,表示张贴的意思,作为名字,指张贴的文章)构成,这些帖子一般是按照年份和日期倒序排列的。
借助博客平台推广,需要设计一定精加工内容的帖子进行发表,引起众人的兴趣,并能够将待推广产品融入到所发帖子中。并且在后续的大众跟帖、转载过程中,需要不断跟进产品推广进程,从而更好的推动产品推广,以及总结经验,更好的对发帖进行改进。由此可见,一个帖子从发表开始,在特定时间段到底有多少人跟帖和转载并给与评论直接反应了这个帖子的发表是否成功。这对于产品推广人和产品所有者来说都是至关重要的。
附件给出了的调查数据,2010年和2011年之间。选择选定的基准日期/时间之前最多72小时内所发表的博客帖子。检验数据的基准时间是在2012年的2月某几天。然后,我们计算所选择博客文章在基准时间所提供的所有的特征信息,因此每个实例对应于一个博客。训练数据(blogdata_train)中,所给数据包含了281个属性信息和6万条数据。数据以excel格式输出,其中每一列代表一个属性信息,每一行代表一条博客信息。
下面给出所有属性信息的具体内容,其中前面的数字表示表格中的第几列:
现要求通过数学建模来完成以下任务:
1、研究所给数据分析博客发表后的跟帖和转载情况,对所给的200个常用单词(自行用代码表示)和发表时间等因素,分析它们之间的关联性和规律性,说明发表时间、常用内容单词等因素和跟帖与转载评论数之间是否相关,并给出理由?
2、给出一种快捷方法初步确定对博客在基准时间未来24小时所获得的评论数量有影响的因素?
3、根据第2问所确定的这些因素的影响度进行排序,并给出理由?在第2问中通过初步的快捷方法得到的影响因素中,是否有更精细的方法能够将重要的影响因素的范围缩小?如果可以,那么该如何做?
4、根据所搜集的2010年和2011年的数据(blogdata_train),对所发博客在基准时间未来24小时所收获的评论数进行建模,给出所建立的模型?利用所建立的模型对附件中2012年2月1日、15日、和29日的数据中所发博客在基准时间未来24小时所收获的评论数进行预测。
二、模型假设
对于博客发表后的跟帖和转载情况的影响因素之间是相互独立的
博客长度为0等属于不符合实际情况的数据可以剔除
三、符号说明
W:第i个博客所用200个常用单词的数量
T:第i个博客的发表时间
S:第个博客的源博客数
C:第i个博客的评论总数
P:第i个博客的转载数
C:第i个博客的 24小时内的评论数
P:第i个博客的24小时内的跟帖数
C:第i个博客的48-24小时的评论数
P:第i个1博客的48-24小时跟帖数
L:第i个博客长度
P:博客的跟帖数和转载评论数
Z:目标变量,博客在基准时间未来24小时所收获的评论数
四、问题一处理
4.1问题分析对训练数据表中的数据进行筛选,在表中整理出所有与可能相关的影响因素,综合考虑这些影响因素,分析各个影响因素之间的相关性,再利用进行因子分
文档评论(0)