《python机器学习》5.3.3 映射新的数据点_python机器学习全本免费在线阅读

在上述两个核PCA应用的例子（半月形和同心圆）中，我们都将单一数据集映射到一个新的特征上。但在实际应用中，我们可能需要转换多个数据集，例如，训练数据、测试数据，以及在完成模型构建和评估后所要收集的新样本。本节将介绍如何映射训练数据集以外的数据点。

在本章开始时介绍过的标准PCA方法中，我们通过转换矩阵和输入样本之间的点积来对数据进行映射；映射矩阵的列是协方差矩阵中k个最大特征值所对应的特征向量（v）。现在的问题是：如何将此概念应用于核PCA？回忆一下核PCA的原理可以记得，我们从聚集核矩阵（不是协方差矩阵）中得到了特征向量（a），这意味着样本已经映射到了主成分轴v。由此，如果我们希望将新的样本（x′）映射到此主成分轴，需要进行如下计算：

幸运的是，我们可以使用核技巧，这样就无需精确计算映射φ（x′）Tv。然而值得注意的是：与标准PCA相比，核PCA是一种基于内存的方法，这意味着每次映射新的样本前，必须再次使用原始训练数据。我们需要计算训练数据集中每一个训练样本和新样本x′之间的RBF核（相似度）：

其中，核矩阵K的特征向量a及特征值λ需满足如下等式：

Ka＝λa

在完成新样本与训练数据集内样本间相似度的计算后，我们还需通过特征向量对应的特征值来对其进行归一化处理。可以通过修改早前实现过的rbf_kernel_pca函数来让其返回核矩阵的特征值：

至此，我们可以创建一个新的半月形数据集，并使用更新过的RBF核PCA实现来将其映射到一个一维的子空间上：

为了确保我们已经完成了实现新样本映射的代码，假定半月形数据集中的第26个点是一个新的数据点x′，现在要将其映射到新的子空间中：

通过执行下面的代码，我们可以重现原始映射。使用project_x函数，还可以映射新的数据样本。代码如下：

最后，将第一主成分上的映射进行可视化：

从下图可见，我们将样本x′正确映射到了第一主成分上：