- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学建模短信种子用户的评估体系
短信种子用户的评估体系
摘要
短信领袖的识别问题涉及到大量的数据处理与识别算法的选择。对于短信种子用户的评价指标体系,我们首先利用SQL对所给用户在2月每天所发的短信总量进行了统计,可知,短信领袖会在节日里大量发送短信,并且他们发送的短信会引起接收者的大量转发,所以我们以个体元宵节群发短信量,元宵节短信被转发量,情人节群发短信量,情人节短信被转发量作为评价指标。
种子用户的筛选,我们首先需要对大量数据进行预处理,用VC++访问SQL,按假设的要求对数据进行提取。采用最大值规格化法将原始数据规格化,用最大最小法构造模糊相似矩阵,用平方法合成传递闭包,取不同阈值进行聚类分析。
当对全省用户进行处理时,我们考虑的是增量式模糊聚类算法。当前的数据量只是某城市的部分用户,假如对某省份的全量用户进行挖掘,则数据量会变得很大,把这个过程看成动态的增加过程,分析新增数据所有可能的归类及对原有的聚类产生的可能影响,:基于模糊相似度的增量式模糊聚类算法只需计算新增数据和已聚类数据的相似度就能直接确定其分类,避免了其他算法计算相似度后进一步的计算的冗余,也不用计算已聚类数据之间的相似度,这样就使得增量式算法的计算量大为减少。
关键词: 评价指标 数据预处理 模糊聚类分析法 增量式模糊聚类算法
一、问题重述
每逢佳节,一些人会自创或下载节日祝福或幽默短信并群发给其他用户,收到此类短信的人有时也会随手将其转发给其他亲朋好友。有些颇具创意的短信可能会引起大量的转发,其中短信种子用户起到了重要的作用。
所谓短信种子用户,又称“短信领袖”,他们在大量发送短信之后,能引起接收者的大量转发,形成强大的传播能力。请根据附件所给用户信息,建立数学模型,解决如下问题:
设计短信种子用户的评估指标体系;
结合评估指标设计评分标准,对本运营商的各用户的短信传播能力进行评分,从中筛选出符合要求的种子用户;
当前的数据量只是某城市的部分用户,假如对某省份的全量用户(超过2000万户)进行挖掘,当前算法是否需要优化。并结合现有数据估算全量用户的计算复杂度。
二、问题分析
1、对问题1)的分析:
由题目可知,每逢佳节,短信领袖会自创或下载节日祝福或幽默短信并群发给其他用户,收到此类短信的人有时也会将其转发给其他亲朋好友,并且有些短信可能会引起大量的转发。现在要从所有的用户信息中寻找出可作为评估短信领袖的指标。我们考虑使用SQL、VC++等工具,找出2月份中群发短信量和转发短信量最大的两天,然后把这两天的群发量和转发量作为评估指标体系。
2、对问题2)的分析:
(1)群发短信量:根据实际情况和节假日发送短信经验,我们可以作此假设,当用户A1在1分钟内发送给其他用户的短信数量大于10条时,就可认为该用户有成为短信领袖的可能,并且记录下A1在1分钟内发送的短信数目,作为A1在当天的群发短信量。假如A1在当天的多个时间段内群发了短信,我们便选取该用户发送短信数目最大的一次作为其在当天的群发短信量。也就是说,对单个用户而言,记录下的当天群发短信的数量可以表明该用户的短信传播能力,由此可以筛选出有可能是短信领袖的用户。
(2)转发短信量:在前边已筛选出的用户中进一步寻找短信领袖。为了简化问题,在结合实际条件的情况下,我们还可以作以下假设,如果用户A2在接收到用户A1发送的短信后,在5分钟内A2又有把短信发送给了其他用户的行为,那么就认为A2发送的短信是转发的A1的短信,A2在规定的时间内发送的短信量记录为A1的短信被转发量分量。对于接收到A1的群发短信的其他用户也是做相同处理。最后统计得出当天A1的短信被转发量。默认前一用户发送短信的时间就是后一用户接收短信的时间,即短信传播所需要的时间可以忽略。而且只做一次转发的统计,因为在后边使用的聚类分析法中可以逐步筛选出符合要求的种子用户。此外,从已知数据中得知只有运营商1,即本运营商作为短信发送方,没有其他运行商作为短信发送方,所以在计算短信的被转发量时,我们可以剔除不是本运营商的用户,从而减少数据处理量。在通过前边步骤已经筛选出的用户中记录下其当天的短信被转发量,表明该用户在本运营商内的短信传播能力。
(3)通过使用模糊聚类分析法,可以多次聚类,最后筛选出符合要求的种子用户,即短信领袖。
下图表示的是短信传播过程:
A1
A2 A3 A4 A5 … Ai-3 Ai-2 Ai-1 Ai
Aj Aj+1 … Aj+m-1 Aj+m
3、对问题3)的分析:
假如要对某省份的全量用户进行挖掘,则数据量
您可能关注的文档
最近下载
- 光伏电站的运行与维护规范.pdf
- 危化企业加油加气站双重预防机制手册.doc VIP
- 《首批重点监管的危险化学品名录》.pdf VIP
- 设计的创造性思维和工程思维 课件 高中通用技术粤科版 必修 技术与设计 .ppt VIP
- 兄弟 HL-4150CDN 4570CDW 4150 4570 彩色激光打印机中文维修手册.pdf VIP
- 医护人员职业安全与防护.pptx VIP
- 常用量具、检具测量基础知识试题(附答案).docx VIP
- 建设工程造价鉴定规范.pdf VIP
- 2025年中国石化校园招聘确认笔试参考题库附带答案详解.docx
- 现代家政学概论-ppt6.1第一节服装搭配.pptx VIP
文档评论(0)