前言

特征工程与特征提取

之前混淆了特征工程与特征提取的区别，以为是一个东西，实际上是不一样的。所以有时看到深度学习的论文使用特征选择算法时有点懵，这不是机器学习的东西吗？混淆了机器学习和深度学习的本质特征，搞得很乱，需要梳理一下。

机器学习中的特征工程

机器学习依赖手工设计特征，在机器学习工作流中占据重要地位，大多数传统机器学习算法（如逻辑回归、支持向量机、随机森林）对输入特征的表达形式敏感，需要通过手工设计特征来提高模型性能。

特定场景下仍需手工特征工程，例如很多论文中使用了特征选择算法来选取最有特征，那是在深度学习模型之前进行的，将选取的特征放入深度学习模型之中进行特征提取。

深度学习是否需要特征工程？

可以灵活选择。深度学习模型具有自动特征提取的强大能力。在某些特定任务中，手工特征工程可以与深度学习结合使用，以提升性能和效率。例如处理稀疏、高维或包含大量噪声的数据时，可以进行特征工程清除噪声、异常值或无效数据。如果直接对原始数据进行特征选择，可能会因为数据质量问题导致选择的特征不准确。

特征选择（Feature Selection）：
- 目标是从现有特征中选择最有用的特征，剔除冗余或无关特征。
- 这是一个显式的、独立于模型的操作，通常在数据预处理阶段完成
特征提取（Feature Extraction）：
- 在训练过程中会自动学习新的特征表示，这些特征是从输入数据中提取的、对分类任务最有用的深层表示。
- 这种过程并不是直接选择输入数据中的原始特征，而是通过多层非线性变换生成新的高维特征。

即使深度学习具备强大的特征提取能力，结合特征选择仍然有以下好处：

如果不进行特征选择,直接将原数据传入神经网络,深度学习也不会进行特征选择而是进行特征提取吗?

如果不进行特征选择，直接将原始数据传入深度神经网络，深度学习不会显式地进行特征选择，而是通过其多层结构自动进行特征提取。

深度学习的核心能力在于自动特征提取， 不进行显式特征选择。它能够从原始输入数据中学习到适合特定任务的特征，而无需手工设计或选择特征。直接将原始数据传入深度神经网络，可以充分利用深度学习的特征提取能力，但会出现上述提到的多种问题，例如影响训练效率、导致欠拟合、泛化能力受限等。

一句话总结：特征选择是“从中挑选”，特征提取是“生成新特征”

将原始数据输入到自动编码器（Autoencoder, AE）中进行降维，并将降维后的数据输入到深度学习模型中进行训练，这个过程属于特征提取（Feature Extraction），而不是特征选择。

自动编码器通过训练生成的低维特征表示是新的特征，通常是原始特征的非线性组合,并非从原始特征中直接挑选出来的子集。

自动编码器降维后生成的特征可以理解为：

新特征空间：
- 它是原始特征的重新表示，捕获了数据的主要模式或特征。
- 例如，图片的像素值经过自动编码器后，可能生成“边缘强度”、“纹理模式”等新特征。
压缩特征表示：
- 保留了原始数据的大部分信息，但维度更低。
- 例如，将100维数据压缩到10维后，这10个新特征可能是原始特征的主要线性或非线性组合。

虽然自动编码器输出的维度数量是固定的，但这些维度是基于全新的特征空间生成的，而不是从原始特征中直接挑选出来的。