中文问答社区答案质量的评价研究以知乎为例
第61卷 第22期 2017年11月
中文问答社区答案质量的评价研究:以知乎为例
1 2 2 3
■ 王伟 冀宇强 王洪伟 郑丽娟
1 2
华侨大学工商管理学院 泉州362021 同济大学经济与管理学院 上海200092
3聊城大学商学院 聊城252000
摘要:[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质
量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一“知乎”为研究对象,采用数据挖
掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结
构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着
特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况
下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加
出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价
答案质量,构建的特征体系和模型可以较为全面地预测答案质量。
关键词:答案质量 质量评价 机器学习 文本挖掘 知乎
分类号:TP181
DOI:10.13266/j.issn.0252-3116.2017.22.005
[5]
1 引言 明在一定条件下是有效的 。但是,在网络环境下,由
于马太效应以及网络正反馈效应,如果不能积累足够
问答系统的出现在一定程度上解决了用户精确查
的用户投票,高质量的答案可能就此湮没。尤其是对
询的需求,问答系统是一个能回答任意自然语言形式
于已有大量回答并得到用户投票的问题,新答案由于
[1]
问题的自动机 。在线问答社区是由用户根据自己的
没有获得足够投票而很难得到用户的关注,失去更多
实际需求提出问题,由社区中其他用户针对此问题给
潜在用户的关注和投票,从而损失高质量的内容。
出回答,这种“一人提问多人参与回答”的形式为用户
知乎是知名的中文网络问答社区,截至2017年3
在互联网上查找和分享信息与知识提供了一种途径,
月,已拥有6900万注册用户,创造了1500万个问题、
在问答社区中,用户可以提出问题,给出答案,并且通
5500万个回答和25万个话题,月访问量超过90亿,
过投票、评论、选取最佳答案等形式提供反馈[2]。
Alexa全球排名 139位,中国区排名30位。笔者以国
对于问答社区平台来说,要尽可能地向用户展现
内最具影响力的在线问答社区之一“知乎”为研究对
高质量的答案,以此提高用户的浏览体验,同时促进优
象,采用知乎数据,通过数据挖掘和机器学习等方法,
质内容的传播。对用户来说,用户生成的内容具有较
旨在构建能够客观反映答案质量的评价体系。首先从
[3]
高的可信度和可靠性 。为此,需要根据高质量答案
知乎上采集研究数据,然后构建答案特征体系,建
您可能关注的文档
最近下载
- 新概念第一册35课文注解和主要语法及词汇拓展.pdf VIP
- 人教版四年级上册数学期中测试卷5套(带答案) .docx VIP
- 2025届重庆康德三诊英语+答案.docx VIP
- 2025《CRH2A型动车组转向架常见故障与诊断浅析》12000字.doc
- 广东省三支一扶考试真题2025.docx VIP
- 党的二十届四中全会PPT课件.ppt VIP
- 2025年初级卫生职称-初级技师-眼视光技术(师)[代码:216]历年参考题库含答案解析(5套).docx VIP
- 2025届重庆市康德卷高考压轴卷化学试卷含解析.doc VIP
- 2025届重庆康德三诊物理+答案.docx VIP
- 河南省开封市兰考县2025届九年级下学期中考一模数学试卷(含解析).docx VIP
原创力文档

文档评论(0)