SANER 2021 https://ieeexplore.ieee.org/document/9426063
项目地址 github

1. 背景

为了执行各种开发和维护任务,开发人员经常在各种来源(如邮件列表、Stack Overflow (SO) 和 Quora)上寻找信息。 研究人员分析这些来源以了解这些任务中的开发人员信息需求。

然而,从各种来源提取和预处理非结构化数据、构建和维护可重用的数据集通常是一个耗时且反复的过程。 此外,缺乏用于自动化此数据分析过程的工具使重现先前结果或数据集的任务复杂化。

为了解决这些问题,我们提出了 Makar,它提供了各种数据提取和预处理方法,以支持研究人员进行可重复的多源研究。 为了评估 Makar,我们进行了一个案例研究,分析来自 SO、Quora 和邮件列表的代码注释相关讨论。 我们的结果表明,与最先进的工具相比,Makar 有助于轻松地从多个来源准备可重复的数据集,并有助于识别相关数据以在更短的时间内回答特定的研究问题,这对于 基于非结构化数据的研究。