- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
非线性回归模型第二组
基于CART决策树的网络问答社区新兴话题识别研究方法提出网络问答社区中新兴话题的识别标准和依据,并基于知乎问答社区,利用CART决策树对识别过程进行实证研究。结论基于CART决策树的网络问答社区新兴话题识别方法能够有效预测新兴话题,可为网络问答社区的热点话题筛选机制提供参考。目的协助相关决策部门监督和管理网络舆情,探测可能成为舆情关注焦点的新兴话题。文献1程秀峰,张心怡,王宁.基于CART决策树的网络问答社区新兴话题识别研究[J].数据分析与知识发现,2018,2(12):52-59.
决策树机器学习中的决策树(DecisionTree)是一种通过计算已知事件概率构建分类树判断可能事件概率的一种监督学习方法,被广泛用于分类与回归任务中,具有直观、高效、可测等优点,十分适合对网络问答社区中的话题进行分类与识别。在数据挖掘领域,大多数复杂的机器学习算法计算过程晦涩难懂,无法满足简明性需求。而决策树具备简洁高效的特点,适合商业部署与应用。机器学习中的决策树
1新型话题的特征234吸引力较强参与度较高影响力较大56内容多样性间隔时间短具备关键节点7传播速度快
问题关注度笔者采用浏览次数、关注人数和回答数量三个二级标准对问题关注度进行描述,公式如下:问题内聚度一个问题的不同回答与问题本身的相关度是一个重要判断标准。采用问题内聚度对此进行描述,如下:问题影响度拥有大量追随者的关键用户比普通用户影响力更大,其行为会产生扩散效应。因此,关键用户的相关特征是判断该问题影响度的重要因素新型话题识别标准
新型话题识别标准
传统决策树而C4.5算法是ID3算法的扩展,能够处理连续值,并且通过信息增益率选择属性,消除信息增益指标导致的问题。然而,决策树C4.5算法也存在不足,遇到连续属性要进行多次的顺序扫描和排序,生成多叉树的效率不高,此外,由于C4.5算法生成的决策树模型复杂度过大,还会出现过度拟合的情况,导致决策树生成规则难于理解。CART算法本文采用的CART算法可以处理高度倾斜或多态的数值型数据,也可处理顺序或无序的类属型数据。与传统的C4.5算法相比,CART算法的优势在于:①样本数量较多时,二叉树模型的运算效率高于多叉树的运算效率;②由于二叉树不易产生数据碎片,精确度往往高于多叉树;③二叉树模型简单,生成的规则易于理解。CART决策树选择具有最小Gini系数值的属性作为测试属性,并按照节点的测试属性采用二元递归分割的方式把每个内部节点分割成两个子节点,递归形成一棵结构简洁的二叉树。Gini系数用下式计算。基于CART决策树的新兴话题识别方法
1.数据集2018年3月9日,采集在上述话题板块中用户提出的共718个新问题作为实验数据,获取问题的关注人数、浏览次数、回答数量等相关内容。2018年3月13日,采集上述问题中进入知乎话题排行榜前300名的具体排名情况,以此为参考构建决策树Tree1,并通过计算所有问题的问题关注度、问题内聚度以及问题影响度进行重新排名,选取合适的问题构建决策树Tree2。实验过程
2.构建决策树Tree12018年3月13日,在知乎上述话题板块的热门问题中,取进入排行榜前136名的问题(记为T1)作为知乎话题分类机制所识别的新兴话题,取位于排行榜137-250名的问题(记为T2)作为知乎话题分类机制所识别的非新兴话题。构建决策树之前将知乎问题数据进行格式化处理,具体如表2和表3所示。实验过程
3.构建决策树Tree22018年3月13日,计算所有问题的问题关注度、问题内聚度和问题影响度,将不同数据按统一标准归一化得出综合排名,在所有话题中等间距取前15名作为本文话题机制所识别出的新兴话题(记为T3),再取16-30名作为本文机制所识别出的非新兴话题(记为T4)。对Focus、Impact和Cohesion分别赋权重为2:2:1,然后将每一类具体值从大到小排序,最大值记为1,以此类推,最后计算各值之和得出新兴话题排名。实验过程
在分别对问题数据进行预处理后,利用训练集构建决策树Tree1和决策树Tree2,结果如图1和图2所示。其中,Gini表示基尼值,Samples表示样本量,Value表示类别区间,Yes表示该类别下的话题均为新兴话题。实验过程
建立基于评论树的知乎热点话题评判标准,计算方法如公式(9)所示。于2018年3月19日在上述相同的知乎问答社区10个话题板块下采集670个新问题进行持续观测,并于2018年3月
文档评论(0)