- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛承 诺 书
我们仔细阅读了第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛的竞赛细则。
我们完全明白,在竞赛开始后参赛队员不能以任何方式包括电话、电子邮件、网上咨询等)与队外的任何人包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们的参赛报名号为: 0362
参赛队员 (签名 :
队员1:
队员2:
队员3:
武汉工业与应用数学学会
第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛组委会
第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛编 号 专 用 页
选择的题号: A
参赛的编号:
以下内容参赛队伍不需要填写)
竞赛评阅编号:
第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛
题目: 互联网论坛用户识别
【摘 要】
中国互联网发展经历了10年的快速增长期,已经形成较为成熟的应用。现在的互联网正从信息单向推送模式向互动模式转型,互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。在这样的互动氛围中衍生出了很多商业机会和运营难题,那么企业怎样才能够对论坛内的用户进行有效识别。
首先,我们对文本挖掘技术的过程、原理和算法进行了透彻分析,因为文本挖掘技术是识别话题用户、活跃用户、言论领袖及关系圈的基础。
其次,针对这三类用户不同对特点进行有效的分析,再通过数据采集器获取数据并加以归一化处理,运用主成分分析法对话题用户进行了有效的识别;建立了以发帖数量、跟帖数量、登录时长、页面访问量、登录频率为指标对活跃指数模型和以普通帖的影响力、精华帖的影响力、威望和被访问量为影响因素的言论领袖指数模型。
再者,通过对BBS论坛关系圈的分析,我们归纳出三种理想类型模式,即链条状模式、星状模式以及网状模式,并对它们对结构进行讨论,得出了BBS论坛关系圈密度与凝聚度计算方法。
最后还用BP神经网络对活跃指数模型进行了改进和仿真,仿真结果与实际值吻合度高,误差仅有2.705%。
关键词:数据挖掘;文本聚类;BP神经网络;用户识别;仿真1问题的提出及假设
1.1问题的提出
中国互联网发展经历了10年的快速增长期,已经形成较为成熟的应用。现在的互联网正从信息单向推送模式向互动模式转型,互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。在这样的互动氛围中衍生出了很多商业机会和运营难题。比如,企业如何通过论坛发掘出有商业价值的用户?互联网公司如何通过激励用户来维持论坛热度?回答这些问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有效识别。
这些识别需要达到如下四个结果:
言论领袖:发现论坛言论领袖,即最具影响力的论坛人物;
话题用户:精确定位关注某一特定话题的用户;
活跃用户:识别论坛活跃用户;
关系圈:发掘论坛人际关系圈。
最后通过提炼形成通用模型,并针对言论领导、话题用户、活跃用户、关系圈四个要求提出实例说明。例如,在论坛上关注游戏话题的话题用户的识别,在论坛上的活跃用户等。
1.2 问题的假设
1)网上搜寻的用户信息是等可能的;
2)同一个网站论坛的结构上相差不大,便于批量提取信息;
3)活跃用户与发帖数量、跟帖数量、登录时长、页面访问量、登录频率有关;
4)言论领袖的判断主要与普通帖的影响力、精华帖的影响力、威望和被访问量四个因素有关。
2 文本挖掘的技术[1]
要解决用户的有效识别,首先要有效地提取用户信息,并筛选出有用的用户信息。将得到的信息进行处理,提取有效的信息特征,并对信息特征进行分类和聚类分析。本文主要是要识别论坛的言论领袖、话题用户、活跃用户和关系圈,所以只需提取相关的文本信息就行了,下面我们来讨论如何挖掘和处理文本信息。
2.1Web文本挖掘的过程
Web文本挖掘的过程可以分为如下几个步骤:Web文档的采集和预处理、特征的表示和特征的提取、数据挖掘、挖掘结果评价、信息表示和信息导航,如图1
预处理
预处理
特征表示
Web文档的采集
特征提取
数据挖掘
挖掘结果
评价
信息表示和信息导航
图1 Web文本挖掘的过程
(1web文档的采集和预处理
一般采用爬虫机器人程序实现Web文档的采集。爬虫机器人能自动利用网页中的超链接来采集相关主题的网页,为了提高数据的质量,可以对文本作一些预处理,将缓存中的一些无用数据清除,如清除GIF和JPEG等格式的图像文件、清除
您可能关注的文档
最近下载
- 《高血压患者的居家护理》课件.ppt VIP
- 第4课 观察洋葱表皮细胞(教学设计)教科版六年级科学上册.pdf VIP
- 年产10万吨铝电解车间设计毕业(设计)论文.doc VIP
- 新统编版七年级历史上册全册课件(2024年秋新教材).pptx
- 7.1《短歌行》课件(共21张PPT) 2025-2026学年统编版高中语文必修上册.pptx VIP
- 新房屋装修预算明细表.pdf VIP
- 四年级上册信息技术第一单元第3课《会讲故事的数据》第2课时 川教版2024 教案.docx VIP
- 同济启明星软件:深基坑支挡结构分析计算软件(FRWS v7.1)用户手册.doc VIP
- 放射物理与防护 放射治疗剂量学 放射治疗剂量学.ppt VIP
- 2025年广西专业技术人员继续教育公需科目(一)答案.pdf
文档评论(0)