- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
分类开源GitHub仓库中的问题
AmirHossainRaaj,FairuzNawerMeem,SadiaAfrinMim
DepartmentofComputerScience,GeorgeMasonUniversity
araj20@,fmeem@,safrinmi@,
摘要—GitHub是开源社区中最广泛使用的软件维护平台。颈,因此特别受益于此。通过标记对数据进行分析也提
开发人员在遇到困难时会不时地在GitHub上报告问题。对这高了项目团队的能力。维护者可以通过使用标签对问题
些问题进行标记可以帮助开发人员利用已有的标签知识轻松解进行分类来了解常见的问题类型、跟踪每个类别所花费
决这些问题。然而,大多数GitHub存储库并不定期为问题添
的时间,并确定可能的改进领域。这些数据极大地有助
加标签。这项工作的目标是使用ML和DNN模型来分类开
源社区中的问题。GitHub上有成千上万的开源存储库。有些于规划下一次开发和改进项目管理技术。
存储库对其问题进行了适当的标记,而有些则没有。当问题预先在开源项目中,标签对于社区参与来说极其重要。通过
本被标记时,这将有助于团队简化解决问题的过程并立即分配相应识别适合新手的任务,“新手任务”这样的标签可以吸
译的人员,从而加快开发进度。在这项工作中,我们对一些著名的引新贡献者。这不仅促进了围绕项目的社区的发展,还
中GitHub开源存储库进行了分析。我们将这些问题分类为常见帮助了新成员的融合。准确地对GitHub问题进行标记
的标签:API、文档、增强功能、问题、简单、寻求帮助、依赖
1不仅仅是为了组织。它有助于自动分类,通过改进优先
v关系、CI、等待OP回应、测试、错误等。我们的研究表明,
级提升生产力,促进沟通,提供分析洞察数据,并推动
2DNN模型在分类GitHub问题方面优于ML模型,准确率
8高达83.75%。社区参与。所有这些因素都有助于建立一个更有效和成
9
8功的项目管理环境。
1.I.介绍在这项工作中,我们对来自GitHub上星标最多的100
7
0组织软件项目中的任务、改进和错误的一个重要工个仓库中的未标记问题进行了分类。我们只收集了具有
59个默认的GitHub标签的问题:文档、增强功能、问
2具是GitHub问题。有效地分类和命名这些问题的方法
:题、求帮助、重复、无效、错误、新手任务、不修复。
v对于保持一个井然有序的工作流程至关重要。通过使
i我们从这些仓库中收集了大约568,000个带有这些标签
x用标签(如bug、功能请求或文档更新)对问题进行分
r且已打开和关闭的问题。这项工作的主要贡献包括:
a类,团队可以更高效地优先处理并安排工作,从而提高
效率。创建一个带有默认GitHub标签的大型问题数据
标签也有助于项目中团队之间的沟通。它们能够迅速通集。
知所有贡献
您可能关注的文档
- 分布式存储系统:AmazonS3:S3生命周期策略与成本管理.docx
- 分布式存储系统:Cassandra:Cassandra的集群管理与运维实践.docx
- 分布式存储系统:Cassandra:分布式存储系统概论:Cassandra的架构与特性.docx
- 实时计算:Apache Flink:Flink机器学习流处理应用.docx
- 大数据基础:大数据的应用领域:大数据与物联网技术融合.docx
- 分布式存储系统:Google Cloud Storage:GCSAPIs与SDKs使用.docx
- 分布式存储系统:Google Cloud Storage:GCS性能优化与最佳实践.docx
- 分布式存储系统:HBase:HBase安全与权限管理.docx
- 实时计算:Apache Storm:Apache Storm在大数据生态系统中的角色.docx
- 数据仓库:Hive:Hive索引与优化.docx
- 数据仓库:Redshift:Redshift与BI工具集成.docx
- 数据仓库:Redshift:数据仓库原理与设计.docx
- 数据仓库:Snowflake:数据仓库成本控制与Snowflake定价策略.docx
- 大数据基础:大数据概述:大数据处理框架MapReduce.docx
- 实时计算:GoogleDataflow服务架构解析.docx
- 分布式存储系统:HDFS与MapReduce集成教程.docx
- 实时计算:Azure Stream Analytics:数据流窗口与聚合操作.docx
- 实时计算:Kafka Streams:Kafka Streams架构与原理.docx
- 实时计算:Kafka Streams:Kafka Streams连接器开发与使用.docx
- 数据仓库:BigQuery:BigQuery数据分区与索引优化.docx
文档评论(0)