- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数学建模末考试
互联网论坛用户识别
摘要
随着互联网十年来的飞速发展,网络论坛的兴起给网民营造了一个群体交往的新空间,我们可以通过论坛随时取得国际最新的软件及信息,大型公司或中小型企业可把论坛开放给客户交流的平台,个人可以多方面与其他人讨论各种话题并准确的获取信息达到资源的共享等。在这样的互动氛围中衍生出了很多商业机会和运营难题,如何解决这些难题并充分挖掘其商业价值,就需要对论坛内的用户进行有效识别。
本文是根据中烧友会攒机区中故障有问必答专区提供的部分坛友数据为数据源,通过合理的假设并采用层次分析法、动态规划方法、集合分析方法建立识别论坛用户的模型;运用数据挖掘技术、excel电子表格处理技术以及matlab软件实现了数据的处理与模型的求解。从而定位出言论领袖、话题用户、活跃用户、关系圈及其他类型用户。
目录
一 问题的背景及分析 1
二 模型一 2
2.1 模型的假设 2
2.2 符号说明 2
2.3 模型的建立与求解 3
2.3.1 建立问题的层次结构图 3
2.3.2 确定准则层B对准则层A的权重 3
2.3.3 确定方案C层对准则B层的权重 3
2.3.4 确定方案C层对目标A层的组合权重 4
2.4 模型的实例求解 4
2.4.1 问题(1):判别用户为言论领袖 4
2.4.2 问题2:判别话题用户 6
2.4.3 问题3:判别活跃人物 8
3 模型二 9
3.0 问题4:关系圈的确立 9
3.1 模型的假设与符号说明 9
3.2 模型的建立与求解 9
3.3 模型的实例求解: 10
一 问题的背景及分析
在飞速发展的信息时代,网络技术已经对整个世界和人们的生活产生了极大的影响,我们可以通过论坛随时取得国际最新的软件及信息,论坛有很大的包容量,兼收并蓄广纳不同的意见,可供人们辩论和交流话题等等。根据联合国发布的资料,目前全世界共有12亿互联网用户,相当于全球人口的1/6,在这庞大的市场体系中会衍生出很多的运营难题同时也蕴涵着巨大的商业价值。比如一些聪明的企业家善于从市场论坛中客户的投诉中挖掘商机。如何通过用户的资料信息来有效识别论坛用户,是我们解决怎样扩大论坛市场、维持论坛热度并充分挖掘这些价值的关键。
本文是通过采用数据挖掘技术,从一个完整数据库做部份取样,然后根据历史经验研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。然后通过层次分析法建立数学模型,提炼出更有效的市场信息。
登陆一论坛,我们可以获取每个用户的信息资料,帖子总数、精华帖数、参与话题数、活跃积分、在线时间、注册与最后登陆时间等。根据统计分析,可以得出登陆频率、跟帖数目、用户常登陆系数等。
登陆频率=在线时间/(最后登陆时间-注册时间))
跟帖数目=[sqrt((max(t)+min(t))/2)],其中t为某一话题的跟帖数。
用户常登陆系数=1/((现在时间-最后登陆时间))+1),其中的时间按天数算。
本模型比较完满地解决了用户识别问题,通用性较强,基本适应能与各种论坛。
二 模型一
2.1 模型的假设
(1)、假设题中变量相关性相等
(2)、假设在一段时间内各变量的值不会发生很大的改变
(3)、假设所选的论坛具有代表性
(4)、假设选择的用户能够基本反映整个论坛
2.2 符号说明
设x1个人为发贴的总数目。
x2精华的贴数。
x3登录频率。(登陆的总时间除以最后登陆时间减去注册时间)除以24
X4 置顶时间
X5跟帖数目
X6参与话题的数目。
X7用户最后登陆时间参数。(x6为距离现在多少天的倒数)
X8帖子关联关系参数。
A1表示登陆频率参与话题数量比活跃积分比用户常登陆系数
是m阶的正反矩阵。
求出矩证N的最大特征值为Rmax以及相应的特征向量为W0
即为准则层B对准则层A的权重(把权数放到[0,1]的区间。
2.3.3 确定方案C层对准则B层的权重
根据问题的定义和实际情况(户联网提供)和假设中的条件论员的各项条件的比构造相应的比较矩阵.
设Nk=(a1k,a2k,……ank)T为准则 Bk(k项条件的相关数据)记 dijk =(aik/ajk)(i,j=1,2……n),则
Bk —C的比较矩证Dk=(dijk)n*n且Dk均为一致阵 (k=1,2,3……n).
易有Dk的非零特值为 r=100相应的特征向量取第一列向量
即(d11k,d21k……dn1k)=(a1k/a1k,a2K/a1k……ank/a1k)T
=(a1k,a2k……ank)T/a1k
=Nk/a1k
此时向量 Nk仅差一个比例常数 1/a1k 显然Nk也是的特向量
aij代表第i号论员在xj下的具体值
编号 X1 X2 X3 X4 X5 X6 Xi-1 Xi 01 a11 a12 a13 a14 a1
文档评论(0)