Modèles à sorties multiples

Deep learning intermédiaire avec PyTorch

Michal Oleszak

Machine Learning Engineer

Pourquoi des sorties multiples ?

Apprentissage multi-tâches Schéma du modèle : image d’une voiture en entrée, marque et modèle en deux sorties.

Classification multi-labels Schéma du modèle : image unique en entrée, prédictions multiples en sortie.

Régularisation Schéma du modèle : plusieurs blocs de couches, avec une sortie prédite après chacun.

Classification du caractère et de l’alphabet

Schéma du modèle : une image de caractère est passée à un réseau de neurones.

Classification du caractère et de l’alphabet

Schéma du modèle : deux classifieurs prédisent le caractère et l’alphabet à partir de l’embedding d’image.

Dataset à deux sorties

class OmniglotDataset(Dataset):
    def __init__(self, transform, samples):
        self.transform = transform
        self.samples = samples

    def __len__(self):
        return len(self.samples)

    def __getitem__(self, idx):
        img_path, alphabet, label = \
            self.samples[idx]
        img = Image.open(img_path).convert('L')
        img = self.transform(img)
        return img, alphabet, label

On peut réutiliser le même Dataset…
…avec des échantillons mis à jour :

  print(samples[0])

  [(
    'omniglot_train/.../0459_14.png',
     0,
     0,
   )]

Architecture à deux sorties

class Net(nn.Module):
    def __init__(self, num_alpha, num_char):
        super().__init__()
        self.image_layer = nn.Sequential(
            nn.Conv2d(1, 16, kernel_size=3, padding=1),
            nn.MaxPool2d(kernel_size=2),
            nn.ELU(),
            nn.Flatten(),
            nn.Linear(16*32*32, 128)
        )

        self.classifier_alpha = nn.Linear(128, 30)
        self.classifier_char = nn.Linear(128, 964)


    def forward(self, x):
        x_image = self.image_layer(x)

        output_alpha = self.classifier_alpha(x_image)
        output_char = self.classifier_char(x_image)

        return output_alpha, output_char

Définir le sous-réseau de traitement d’image
Définir les classifieurs spécifiques à chaque sortie
Passer l’image dans le sous-réseau dédié
Passer le résultat dans chaque couche de sortie
Renvoyer les deux sorties

Boucle d’entraînement

for epoch in range(10):
    for images, labels_alpha, labels_char \
    in dataloader_train:
        optimizer.zero_grad()
        outputs_alpha, outputs_char = net(images)

        loss_alpha = criterion(
          outputs_alpha, labels_alpha
        )
        loss_char = criterion(
          outputs_char, labels_char
        )

        loss = loss_alpha + loss_char

        loss.backward()
        optimizer.step()

Le modèle produit deux sorties
Calculer la perte pour chaque sortie
Combiner en une perte totale
Rétropropager et optimiser avec la perte totale

Passons à la pratique !

Deep learning intermédiaire avec PyTorch