基于GBDT的社区问题标签推荐技术研究-计算机科学与技术专业论文.docxVIP

基于GBDT的社区问题标签推荐技术研究-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GBDT的社区问题标签推荐技术研究-计算机科学与技术专业论文

Classified Index: TP391.2 U.D.C: 681.37 Dissertation for the Master Degree in Engineering RESEARCH ON TAG RECOMMENDATION FOR COMMUNITY QUESTIONS BASED ON GBDT Candidate: Sun Wanlong Supervisor: Associate Prof. Zheng Dequan Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: June, 2015 Degree-Conferring-Institution: Harbin Institute of Technology 摘 要 随着互联网技术的发展,信息以爆炸式的速度发布、更新、传播。由于人 们对于信息的需求,百科性质的在线平台迅速崛起,以满足人们对各种领域专 业知识的需求。然而,更多开放性的问题才是人们关注的热点,问答式社区便 是根据这一需求产生的。 伴随着问答社区中问题的积累,如何高效简洁地组织问题资源成为社区管 理者必须面对的问题。早期的问答社区采用分众分类法对问题进行类别标记, 以标签的形式组织问题。然而,这种分类方法在解决问题的同时,也存在着缺 陷。于是,人们探索是否可以采用自动推荐问题标签的方法,取代过去用户自 主定义问题标签的形式。在相关研究愈发深入的同时,研究者不得不面对推荐 系统存在的共性问题:推荐系统的冷启动问题、数据稀疏问题以及向量矩阵维 数灾难问题等。不同的模型针对这些问题有着相应的处理办法,但也同样有着 相应的缺陷。将多个模型的结果融合,从而获取一个更准确的结果便成为一种 研究趋势。在这种背景下,本文采用一种称为 GBDT(Gradient Boosting Decision Tree)的机器学习方法,对问答社区标签推荐问题进行了探索和研究。本文主要 研究内容与研究成果如下: (1) 本文首先研究了问题候选标签的获取方法。通过对问题关键词抽取过 程的介绍和分析,分别讲述了中文分词、词性标注、TextRank、TFIDF 等一系 列关键词抽取过程中涉及到的自然语言处理方法,通过对不同的方法进行比较 分析,提出了适合本文的方法。 (2) 在问题特征的抽取方面,本文阐释了如何使用词向量、条件概率等模型 将标签与问题建立关系,包括如何进行相似度计算以及问题标签扩展等技术的 研究。通过实验分析,发现将问题类别信息引入特征可以提高标签推荐的准确 率。 (3) 在模型的选择方面,本文提出了使用机器学习方法将不同模型获取的 特征进行组合的思想,并最终使用 GBDT 解决问题推荐标签排序问题。通过实 验对比分析,得出本文提出的方法比某问答平台的准确率高 8 个百分点。 关键词:问答社区;问题标签;推荐;GBDT ABSTRACT With the development of Internet technology , information posts , updates , spreads with booming speed . According to the demand of information from the people , some kind of encyclopedia platform appears rapidly , which satisfies people’s demands for different professional knowledge . However , people pay more attention to open questions and QA communities are built for this reason . Because of the accumulation of the questions in QA community , how to deal with the questions efficiently and briefly becomes a problem community administrator has to face . Early communities mark questions by tag based on a method known as Folksonomy . Unfortunately

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档