中文问答社区答案质量的评价研究以知乎为例.PDF

中文问答社区答案质量的评价研究以知乎为例.PDF

中文问答社区答案质量的评价研究以知乎为例

第61卷 第22期 2017年11月 中文问答社区答案质量的评价研究:以知乎为例 1 2 2 3 ■ 王伟  冀宇强  王洪伟  郑丽娟 1 2 华侨大学工商管理学院 泉州362021  同济大学经济与管理学院 上海200092 3聊城大学商学院 聊城252000 摘要:[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质 量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一“知乎”为研究对象,采用数据挖 掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结 构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着 特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况 下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加 出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价 答案质量,构建的特征体系和模型可以较为全面地预测答案质量。 关键词:答案质量 质量评价 机器学习 文本挖掘 知乎 分类号:TP181   DOI:10.13266/j.issn.0252-3116.2017.22.005 [5] 1 引言 明在一定条件下是有效的 。但是,在网络环境下,由 于马太效应以及网络正反馈效应,如果不能积累足够   问答系统的出现在一定程度上解决了用户精确查 的用户投票,高质量的答案可能就此湮没。尤其是对 询的需求,问答系统是一个能回答任意自然语言形式 于已有大量回答并得到用户投票的问题,新答案由于 [1] 问题的自动机 。在线问答社区是由用户根据自己的 没有获得足够投票而很难得到用户的关注,失去更多 实际需求提出问题,由社区中其他用户针对此问题给 潜在用户的关注和投票,从而损失高质量的内容。 出回答,这种“一人提问多人参与回答”的形式为用户   知乎是知名的中文网络问答社区,截至2017年3 在互联网上查找和分享信息与知识提供了一种途径, 月,已拥有6900万注册用户,创造了1500万个问题、 在问答社区中,用户可以提出问题,给出答案,并且通 5500万个回答和25万个话题,月访问量超过90亿, 过投票、评论、选取最佳答案等形式提供反馈[2]。 Alexa全球排名 139位,中国区排名30位。笔者以国   对于问答社区平台来说,要尽可能地向用户展现 内最具影响力的在线问答社区之一“知乎”为研究对 高质量的答案,以此提高用户的浏览体验,同时促进优 象,采用知乎数据,通过数据挖掘和机器学习等方法, 质内容的传播。对用户来说,用户生成的内容具有较 旨在构建能够客观反映答案质量的评价体系。首先从 [3] 高的可信度和可靠性 。为此,需要根据高质量答案 知乎上采集研究数据,然后构建答案特征体系,建

文档评论(0)

1亿VIP精品文档

相关文档