在 CIFAR10 小型图像数据集上训练一个简单的 CNN-Capsule Network。

无数据增益的情况下：在 10 轮迭代后验证集准确率达到 75%，在 15 轮后达到 79%，在 20 轮后过拟合。
有数据增益情况下: 在 10 轮迭代后验证集准确率达到 75%，在 15 轮后达到 79%，在 30 轮后达到 83%。在我的测试中，50 轮后最高的验证集准确率为 83.79%。
这是一个快速版的实现，在 GTX 1070 GPU 上迭代只需 20s/epoch。
from __future__ import print_function
from keras import backend as K
from keras.layers import Layer
from keras import activations
from keras import utils
from keras.datasets import cifar10
from keras.models import Model
from keras.layers import *
from keras.preprocessing.image import ImageDataGenerator


# 挤压函数
# 我们在此使用 0.5，而不是 Hinton 论文中给出的 1
# 如果为 1，则向量的范数将被缩小。
# 如果为 0.5，则当原始范数小于 0.5 时，范数将被放大，
# 当原始范数大于 0.5 时，范数将被缩小。
def squash(x, axis=-1):
    s_squared_norm = K.sum(K.square(x), axis, keepdims=True) + K.epsilon()
    scale = K.sqrt(s_squared_norm) / (0.5 + s_squared_norm)
    return scale * x


# 使用自定义的 softmax 函数，而非 K.softmax，
# 因为 K.softmax 不能指定轴。
def softmax(x, axis=-1):
    ex = K.exp(x - K.max(x, axis=axis, keepdims=True))
    return ex / K.sum(ex, axis=axis, keepdims=True)


# 定义 margin loss，类似于 hinge loss
def margin_loss(y_true, y_pred):
    lamb, margin = 0.5, 0.1
    return K.sum(y_true * K.square(K.relu(1 - margin - y_pred)) + lamb * (
        1 - y_true) * K.square(K.relu(y_pred - margin)), axis=-1)


class Capsule(Layer):
    """一个由纯 Keras 实现的 Capsule 网络。
    总共有两个版本的 Capsule。
    一个类似于全连接层 (用于固定尺寸的输入)，
    另一个类似于时序分布全连接层 (用于变成输入)。

    Capsure 的输入尺寸必须为 (batch_size,
                             input_num_capsule,
                             input_dim_capsule
                            )
    以及输出尺寸必须为 (batch_size,
                      num_capsule,
                      dim_capsule
                     )

    Capsule 实现来自于 https://github.com/bojone/Capsule/
    Capsule 论文: https://arxiv.org/abs/1710.09829
    """

    def __init__(self,
                 num_capsule,
                 dim_capsule,
                 routings=3,
                 share_weights=True,
                 activation='squash',
                 **kwargs):
        super(Capsule, self).__init__(**kwargs)
        self.num_capsule = num_capsule
        self.dim_capsule = dim_capsule
        self.routings = routings
        self.share_weights = share_weights
        if activation == 'squash':
            self.activation = squash
        else:
            self.activation = activations.get(activation)

    def build(self, input_shape):
        input_dim_capsule = input_shape[-1]
        if self.share_weights:
            self.kernel = self.add_weight(
                name='capsule_kernel',
                shape=(1, input_dim_capsule,
                       self.num_capsule * self.dim_capsule),
                initializer='glorot_uniform',
                trainable=True)
        else:
            input_num_capsule = input_shape[-2]
            self.kernel = self.add_weight(
                name='capsule_kernel',
                shape=(input_num_capsule, input_dim_capsule,
                       self.num_capsule * self.dim_capsule),
                initializer='glorot_uniform',
                trainable=True)

    def call(self, inputs):
        """遵循 Hinton 论文中的路由算法，
        但是将 b = b + <u,v> 替换为 b = <u,v>。

        这一改变将提升 Capsule 的特征表示能力。

        然而，你仍可以将
            b = K.batch_dot(outputs, hat_inputs, [2, 3])
        替换为
            b += K.batch_dot(outputs, hat_inputs, [2, 3])
        来实现一个标准的路由。
        """

        if self.share_weights:
            hat_inputs = K.conv1d(inputs, self.kernel)
        else:
            hat_inputs = K.local_conv1d(inputs, self.kernel, [1], [1])

        batch_size = K.shape(inputs)[0]
        input_num_capsule = K.shape(inputs)[1]
        hat_inputs = K.reshape(hat_inputs,
                               (batch_size, input_num_capsule,
                                self.num_capsule, self.dim_capsule))
        hat_inputs = K.permute_dimensions(hat_inputs, (0, 2, 1, 3))

        b = K.zeros_like(hat_inputs[:, :, :, 0])
        for i in range(self.routings):
            c = softmax(b, 1)
            o = self.activation(K.batch_dot(c, hat_inputs, [2, 2]))
            if i < self.routings - 1:
                b = K.batch_dot(o, hat_inputs, [2, 3])
                if K.backend() == 'theano':
                    o = K.sum(o, axis=1)

        return o

    def compute_output_shape(self, input_shape):
        return (None, self.num_capsule, self.dim_capsule)


batch_size = 128
num_classes = 10
epochs = 100
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
y_train = utils.to_categorical(y_train, num_classes)
y_test = utils.to_categorical(y_test, num_classes)

# 一个常规的 Conv2D 模型
input_image = Input(shape=(None, None, 3))
x = Conv2D(64, (3, 3), activation='relu')(input_image)
x = Conv2D(64, (3, 3), activation='relu')(x)
x = AveragePooling2D((2, 2))(x)
x = Conv2D(128, (3, 3), activation='relu')(x)
x = Conv2D(128, (3, 3), activation='relu')(x)


"""现在我们将其尺寸重新调整为 (batch_size, input_num_capsule, input_dim_capsule)，再连接一个 Capsule 网络。

最终模型的输出为长度为 10 的 Capsure，其 dim=16。

Capsule 的长度表示为 proba，
因此问题变成了一个『10个二分类』的问题。
"""

x = Reshape((-1, 128))(x)
capsule = Capsule(10, 16, 3, True)(x)
output = Lambda(lambda z: K.sqrt(K.sum(K.square(z), 2)))(capsule)
model = Model(inputs=input_image, outputs=output)

# 使用 margin loss
model.compile(loss=margin_loss, optimizer='adam', metrics=['accuracy'])
model.summary()

# 可以比较有无数据增益对应的性能
data_augmentation = True

if not data_augmentation:
    print('Not using data augmentation.')
    model.fit(
        x_train,
        y_train,
        batch_size=batch_size,
        epochs=epochs,
        validation_data=(x_test, y_test),
        shuffle=True)
else:
    print('Using real-time data augmentation.')
    # 这一步将进行数据处理和实时数据增益:
    datagen = ImageDataGenerator(
        featurewise_center=False,  # 将整个数据集的均值设为 0
        samplewise_center=False,  # 将每个样本的均值设为 0
        featurewise_std_normalization=False,  # 将输入除以整个数据集的标准差
        samplewise_std_normalization=False,  # 将输入除以其标准差
        zca_whitening=False,  # 运用 ZCA 白化
        zca_epsilon=1e-06,  # ZCA 白化的 epsilon值
        rotation_range=0,  # 随机旋转图像范围 (角度, 0 to 180)
        width_shift_range=0.1,  # 随机水平移动图像 (总宽度的百分比)
        height_shift_range=0.1,  # 随机垂直移动图像 (总高度的百分比)
        shear_range=0.,  # 设置随机裁剪范围
        zoom_range=0.,  # 设置随机放大范围
        channel_shift_range=0.,  # 设置随机通道切换的范围
        # 设置填充输入边界之外的点的模式
        fill_mode='nearest',
        cval=0.,  # 在 fill_mode = "constant" 时使用的值
        horizontal_flip=True,  # 随机水平翻转图像
        vertical_flip=False,  # 随机垂直翻转图像
        # 设置缩放因子 (在其他转换之前使用)
        rescale=None,
        # 设置将应用于每一个输入的函数
        preprocessing_function=None,
        # 图像数据格式，"channels_first" 或 "channels_last" 之一
        data_format=None,
        # 保留用于验证的图像比例（严格在0和1之间）
        validation_split=0.0)

    # 计算特征标准化所需的计算量
    # (如果应用 ZCA 白化，则为 std，mean和主成分)。
    datagen.fit(x_train)

    # 利用由 datagen.flow() 生成的批来训练模型。
    model.fit_generator(
        datagen.flow(x_train, y_train, batch_size=batch_size),
        epochs=epochs,
        validation_data=(x_test, y_test),
        workers=4)