在机器学习中,增强(Augmentation)指的是用于增加数据集多样性和规模的技术,而不需要实际收集新的数据。由于有监督学习和无监督学习在如何使用标记数据和未标记数据上的根本差异,数据增强的方式在这两者之间存在显著差异。在有监督学习中,增强通常涉及通过变换现有的标记数据来创建新的标记样本。相反,无监督学习则专注于增强未标记数据,其目标是提升数据本身的表示,而不是标签。
在有监督学习中,增强的常见方法是对训练图像应用变换。例如,在图像分类任务中,开发者可能会对图像进行旋转、翻转或裁剪。这些方法在保持每幅图像正确标签的同时丰富了数据集。例如,如果一幅猫的图像稍微旋转,它仍然是一幅猫的图像,因此标签保持不变。这种增强可以帮助模型更好地泛化,使其接触到更广泛的变异范围。其主要目标是通过教会模型在不同条件下识别对象,从而提高其在未见数据上的性能。
另一方面,无监督学习中的增强则集中在提升对数据本身的理解上。例如,在没有可用标签的聚类任务中,增强可能涉及将数据投影到不同的特征空间或对数据点施加噪声。这些操作有助于揭示数据内在的模式和关系。例如,添加高斯噪声等变换可以帮助模型对数据的变化变得更鲁棒。无监督学习的关注点较少在标签上,而更多地在于创建更丰富的表示,以帮助模型在没有预定义类别的情况下学习有意义的结构。