互联网论坛用户识别.docVIP

下载本文档

4
0
约2.05万字
约 38页
2016-03-30 发布于安徽
举报
版权申诉

互联网论坛用户识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

互联网论坛用户识别.doc

第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛承诺书我们仔细阅读了第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛的竞赛细则。我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们的参赛报名号为： 0362 参赛队员 (签名) ：队员1：队员2：队员3：武汉工业与应用数学学会第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛组委会第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛编号专用页选择的题号： A 参赛的编号：（以下内容参赛队伍不需要填写）竞赛评阅编号：第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛题目：互联网论坛用户识别【摘要】中国互联网发展经历了10年的快速增长期，已经形成较为成熟的应用。现在的互联网正从信息单向推送模式向互动模式转型，互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。在这样的互动氛围中衍生出了很多商业机会和运营难题，那么企业怎样才能够对论坛内的用户进行有效识别。首先，我们对文本挖掘技术的过程、原理和算法进行了透彻分析，因为文本挖掘技术是识别话题用户、活跃用户、言论领袖及关系圈的基础。其次，针对这三类用户不同对特点进行有效的分析，再通过数据采集器获取数据并加以归一化处理，运用主成分分析法对话题用户进行了有效的识别；建立了以发帖数量、跟帖数量、登录时长、页面访问量、登录频率为指标对活跃指数模型和以普通帖的影响力、精华帖的影响力、威望和被访问量为影响因素的言论领袖指数模型。再者，通过对BBS论坛关系圈的分析，我们归纳出三种理想类型模式，即链条状模式、星状模式以及网状模式，并对它们对结构进行讨论，得出了BBS论坛关系圈密度与凝聚度计算方法。最后还用BP神经网络对活跃指数模型进行了改进和仿真，仿真结果与实际值吻合度高，误差仅有2.705%。关键词：数据挖掘；文本聚类；BP神经网络；用户识别；仿真1问题的提出及假设 1.1问题的提出中国互联网发展经历了10年的快速增长期，已经形成较为成熟的应用。现在的互联网正从信息单向推送模式向互动模式转型，互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。在这样的互动氛围中衍生出了很多商业机会和运营难题。比如，企业如何通过论坛发掘出有商业价值的用户？互联网公司如何通过激励用户来维持论坛热度？回答这些问题和解决运营难题的首要条件是，企业能够对论坛内的用户进行有效识别。这些识别需要达到如下四个结果：言论领袖：发现论坛言论领袖，即最具影响力的论坛人物话题用户：精确定位关注某一特定话题的用户活跃用户：识别论坛活跃用户关系圈：发掘论坛人际关系圈。最后通过提炼形成通用模型，并针对言论领导、话题用户、活跃用户、关系圈四个要求提出实例说明。例如，在论坛上关注游戏话题的话题用户的识别，在论坛上的活跃用户等。言论领袖话题用户活跃用户关系圈 2.2 Web信息抽取 Web信息抽取 (Web Information Extraction，WebIE)是将Web作为信息源的一类信息抽取。信息抽取(Information Extraction，IE)是近十几年来发展起来的新领域，起源于文本理解，是自然语言处理领域里特别有用的一个子领域。信息抽取的普遍定义为:从各种不同的文本里定位、识别和提取出需要的信息点，表示成一种统一的、结构化的形式。信息抽取的目标是把文本里包含的信息进行结构化处理。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。 Web信息抽取的对象是Web文档，目前大部分Web网页都是以超文本标记语言(Hyper Text Markup Language，HTML)描述的，主要目的是为了显示，方便用户通过浏览器浏览。但HTML缺乏对数据本身的描述，没有清晰的语义