- 5
- 0
- 约1.23万字
- 约 20页
- 2024-03-01 发布于北京
- 举报
基于孪生神经网络的代码文本对齐数据集的开发研究
摘要
为了训练代码自动生成和代码摘要生成的深度机器学习模型,需要提供较大规模的程序代码和自然语言描述文本对齐的数据集,数据集中的每个实例为一个程序代码片段和对应的自然语言描述文本。本课题以python语言为目标语言,要求制作基于python代码的程序代码与自然语言描述文本对齐的数据集,主要是从大规模代码库Github、StackOverflow等自动爬取程序代码和自然语言描述,搜集代码片段和自然语言文本的实例集合,并运用孪生神经网络中的伪孪生神经网络机器学习模型做进一步的分析、优化和处理,筛选出质量较高的程序代码/自然描述语言对,从而最终构造一个高质量的程序代码与自然语言描述文本对齐的语料库。这个语料库对于代码自动生成和根据代码生成摘要的深度学习模型会有很大帮助。
关键词:数据集;代码文本;伪孪生神经网络;数据爬取
第1章绪论
本章主要介绍本论文的研究目的、研究背景以及研究意义,分析代码/文本对数据集开发研究领域目前的国内外的研究现状并给出本论文的主要工作内容与研究内容。
1.1本课题的研究目的与研究意义
开发研究程序代码与自然语言描述文本对齐的数据集对于代码摘要生成任务和代码自动生成任务的深度机器学习模型具有十分重要的意义和作用,在进行相关任务中,需要高质量的程序代码与自然语言描述文本对齐的语料库对任务运用的模型进行训练与优化。
随着软件开发的高速发展,大量开源代码库不断产生。如果代码内部缺少良好的文档记录,如有意义的名称和
参数、清晰的注释、对代码功能的解释、对函数用法的说明等,在这种情况下,当开发人员在阅读开源的代码库时,理解他人的代码,或者基于他人已有的项目进行移植或改进时,就需要花费大量的时间和精力来阅读、浏览和理解代码。如果能够为开发人员提供源代码的描述文本,他们就能够通过描述文本快速理解一段代码的含义,并对需要详细分析的源代码部分做出正确的理解和确切的决策,辅助程序开发工作,方便维护代码的工作。同样地,在目前的程序开发中,有大量的代码是繁琐且重复的,如果说能根据对程序的摘要即自然语言描述文本来自动生成代码,那么可以帮助程序员写重复繁琐的代码,将精力时间集中在逻辑、功能的实现而不是繁琐的代码细节,可以大大提高程序员写代码的效率,这对于程序员的开发工作会有十分重要的意义和作用。
而要借助深度机器学习模型来完成上述的代码摘要生成的任务与代码自动生成的任务,与之紧密相关的程序代码和自然语言描述文本对齐的数据集是必不可少的,并且对于代码和与之对齐的描述文本有质量上的要求。而目前,现有的相关数据集大都规模不够大,质量不够高。本课题意在运用爬虫技术从相关网站上爬取大量数据对即程序代码和自然语言描述文本,然后基于孪生神经网络中的伪孪生神经网络框架来设计深度机器学习网络模型来对代码/文本对打分,将高分的代码/文本对提取出来,对数据集进行筛选、优化,挑选出高质量的数据对,从而构造出一个较高质量的程序代码和自然语言描述文本对齐的数据集语料库。而这对于上述提到的相关任务是有重大帮助和重大意义的。
1.2国内外的研究现状
目前国际上现有的针对程序与自然语言描述的代码/文本数据集的相关研究所运用的主要流程是先从Stack
Overflow或GitHub这样的代码库上爬取搜集代码与程序描述的文本,后续再通过设计神经网络模型机器学习或其它方法对数据做优化处理,其中一部分的数据集的制作方法参考如下:
CODE-NN[1]
该数据集的作者主要从StackOverflow中挖掘数据,其中包含SQL和C#语言的代码/文本对。对于SQL语言的数据集,作者从StackOverflow网站中提取标记为sql、database或oracle的问题的标题,作为自然语言;然后,将问题标题与其接受的答案中的一个代码片段配对,添加到语料库中,生成数据集。之后使用半监督引导方法进一步处理数据集,以过滤与相应代码段没有关系的标题。最终SQL数据集包含32337对,C#数据集包含66015对。
StaQC[2]
该数据集的作者系统地从StackOverflow中挖掘数据集,包括python和sql语言。作者通过StackOverflow上的标记来识别SQL和python的文章,通过使用有监督的二进制分类器将“how-to”的问题筛选出来,因为其他类型的问题答案不太可能是独立的代码解决方案。从这个筛选后的数据集中,作者先直接挖掘包含一个代码段的答案帖子,问题和答案就构成了代码和文本对。然后再处理包含多个代码片段的答案帖子,针对此,作者提出了一种新的双视图层次神经网络BIV-HNN模型。BIV-HNN模型由两个不同的模块组成,它们从文本上下文和代码片段的代码内容中捕获特征,并
您可能关注的文档
最近下载
- 信息科技风险管理策略.docx VIP
- 《食品经营许可证》授权委托书.docx VIP
- TB∕T 10429-2014 -绿色铁路客站评价标准.pdf VIP
- (正式版)H-Y-T 104-2008 陶瓷微孔滤膜组件(正式版).docx VIP
- 沥青面层摊铺碾压标准化施工方法.docx VIP
- 西方文明史课件第五章模版课件.ppt VIP
- 2026江西水利投资集团招聘试题及答案.doc VIP
- 道路沥青压实专项施工方案.docx VIP
- 二篇:2026年党支部班子在对照加强理论武装、抓好自身建设、执行上级组织决定、严格组织生活等“六个对照方面”检查材料.docx VIP
- 围堰施工监理细则.doc VIP
原创力文档

文档评论(0)