在线和离线数据增强是用于提高机器学习模型训练数据集的两种策略,特别是在计算机视觉领域。这两者之间的主要区别在于增强的应用时间和方式。在离线数据增强中,原始数据集提前被增强,生成一个包含原始图像和变换图像的新数据集。这个扩展的数据集随后用于训练模型。相对而言,在线数据增强是在训练过程中实时应用变换。这意味着每次模型访问图像时,都可以根据指定的增强技术接收该图像的不同版本。
例如,离线数据增强可能涉及通过旋转、缩放或应用颜色变化来创建图像的多个版本,并将这些版本保存到磁盘。这个新创建的数据集可以包含成千上万或百万个增强例子。由于这种增强是在之前进行的,它往往需要占用更多的存储空间,并需要额外的时间来生成这些文件。开发者可以在预处理阶段实验各种变换,选择最有效的配置。
另一方面,在线数据增强通常使用库在训练过程中实时修改图像,这些图像在加载到模型时进行处理。这种方法在磁盘空间方面更高效,因为变换不会被永久保存,不同的训练周期可以使用相同图像的不同版本,这有助于防止过拟合。例如,在训练过程中,每次获取单张图像时,图像可能会随机翻转或调整亮度,从而引入可变性。通过这种方式,模型可以更好地泛化,同时需要更少的存储空间。然而,在线增强可能会引入一些计算开销,因为变换是在训练过程中实时应用的。