- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GBDT的社区问题标签推荐技术研究-计算机科学与技术专业论文
Classified Index: TP391.2 U.D.C: 681.37
Dissertation for the Master Degree in Engineering
RESEARCH ON TAG RECOMMENDATION FOR COMMUNITY QUESTIONS BASED ON GBDT
Candidate: Sun Wanlong
Supervisor: Associate Prof. Zheng Dequan
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science and Technology
Affiliation: School of Computer Science and
Technology
Date of Defence: June, 2015
Degree-Conferring-Institution: Harbin Institute of Technology
摘 要
随着互联网技术的发展,信息以爆炸式的速度发布、更新、传播。由于人 们对于信息的需求,百科性质的在线平台迅速崛起,以满足人们对各种领域专 业知识的需求。然而,更多开放性的问题才是人们关注的热点,问答式社区便 是根据这一需求产生的。
伴随着问答社区中问题的积累,如何高效简洁地组织问题资源成为社区管 理者必须面对的问题。早期的问答社区采用分众分类法对问题进行类别标记, 以标签的形式组织问题。然而,这种分类方法在解决问题的同时,也存在着缺 陷。于是,人们探索是否可以采用自动推荐问题标签的方法,取代过去用户自 主定义问题标签的形式。在相关研究愈发深入的同时,研究者不得不面对推荐 系统存在的共性问题:推荐系统的冷启动问题、数据稀疏问题以及向量矩阵维 数灾难问题等。不同的模型针对这些问题有着相应的处理办法,但也同样有着 相应的缺陷。将多个模型的结果融合,从而获取一个更准确的结果便成为一种 研究趋势。在这种背景下,本文采用一种称为 GBDT(Gradient Boosting Decision Tree)的机器学习方法,对问答社区标签推荐问题进行了探索和研究。本文主要 研究内容与研究成果如下:
(1) 本文首先研究了问题候选标签的获取方法。通过对问题关键词抽取过 程的介绍和分析,分别讲述了中文分词、词性标注、TextRank、TFIDF 等一系 列关键词抽取过程中涉及到的自然语言处理方法,通过对不同的方法进行比较 分析,提出了适合本文的方法。
(2) 在问题特征的抽取方面,本文阐释了如何使用词向量、条件概率等模型 将标签与问题建立关系,包括如何进行相似度计算以及问题标签扩展等技术的 研究。通过实验分析,发现将问题类别信息引入特征可以提高标签推荐的准确 率。
(3) 在模型的选择方面,本文提出了使用机器学习方法将不同模型获取的 特征进行组合的思想,并最终使用 GBDT 解决问题推荐标签排序问题。通过实 验对比分析,得出本文提出的方法比某问答平台的准确率高 8 个百分点。
关键词:问答社区;问题标签;推荐;GBDT
ABSTRACT
With the development of Internet technology , information posts , updates , spreads with booming speed . According to the demand of information from the people , some kind of encyclopedia platform appears rapidly , which satisfies people’s demands for different professional knowledge . However , people pay more attention to open questions and QA communities are built for this reason .
Because of the accumulation of the questions in QA community , how to deal with the questions efficiently and briefly becomes a problem community administrator has to face . Early communities mark questions by tag based on a method known as Folksonomy . Unfortunately
您可能关注的文档
- 基于FWD的沥青路面反算模量修正系数研究-道路与铁道工程专业论文.docx
- 基于GA-NN的旋转机械故障逐次诊断研究机械设计及理论专业论文.docx
- 基于GA-BPNN的PID调节器实现实时调速的研究-控制理论与控制工程专业论文.docx
- 基于GA-PSO算法优化BP网络的短期电力负荷预测-计算机应用技术专业论文.docx
- 基于F类功率放大器的Outphasing发射机研究-电路与系统专业论文.docx
- 基于GA-BP神经网络的结构损伤识别研究-计算机技术专业论文.docx
- 基于GAAA算法的给水管网优化设计研究-市政工程专业论文.docx
- 基于GA-FKCN聚类的图像分割-应用数学专业论文.docx
- 基于GA-PSO优化支持向量机的漏洞分类器-计算机应用技术专业论文.docx
- 基于GaAs光导开关和火花隙的新型组合开关实验及机理分析-物理电子学专业论文.docx
- 基于GA祖糙集和贝叶斯网络的高压断路器故障诊断-电力系统及其自动化专业论文.docx
- 基于GA的多重时滞辨识方法研究及其在碳分过程中的应用-控制科学与工程专业论文.docx
- 基于GBIM的绿色建筑设计过程信息流仿真模拟研究供热、供燃气、通风及空调工程专业论文.docx
- 基于GB-RBAC的嵌入式安全内核的设计与实现计算机科学与技术专业论文.docx
- 基于GA的矩阵式TSP算法及在飞针测试机上的应用研究-控制理论与控制工程专业论文.docx
- 基于GC-MS的高速谱库探索算法研究-模式识别与智能系统专业论文.docx
- 基于GC-MS的烟草代谢谱分析方法研究食品科学专业论文.docx
- 基于GC-MS的代谢组学方法筛选辐射生物剂量血浆标志物的初步研究-放射医学专业论文.docx
- 基于GCC抽象语法树文本的C源程序语义分析方法研究-计算机科学与技术专业论文.docx
- 基于GCC抽象语法树文本的C源程序语义分析方法研究计算机科学与技术专业论文.docx
原创力文档


文档评论(0)