Modelos com múltiplas saídas

Aprendizagem profunda intermediária com PyTorch

Michal Oleszak

Machine Learning Engineer

Por que múltiplas saídas?

Aprendizado multi-tarefa Esquema do modelo: imagem de um carro como entrada; marca e modelo como duas saídas.

Classificação multi-rótulo Esquema do modelo: única imagem como entrada; várias previsões como saídas.

Regularização Esquema do modelo: vários blocos de camadas; após cada um, é feita uma saída.

Aprendizagem profunda intermediária com PyTorch

Classificação de caractere e alfabeto

 

Esquema do modelo: imagem de caractere passa por uma rede neural.

Aprendizagem profunda intermediária com PyTorch

Classificação de caractere e alfabeto

 

Esquema do modelo: dois classificadores preveem caractere e alfabeto a partir do embedding da imagem.

Aprendizagem profunda intermediária com PyTorch

Dataset com duas saídas

class OmniglotDataset(Dataset):
    def __init__(self, transform, samples):
        self.transform = transform
        self.samples = samples

    def __len__(self):
        return len(self.samples)

    def __getitem__(self, idx):
        img_path, alphabet, label = \
            self.samples[idx]
        img = Image.open(img_path).convert('L')
        img = self.transform(img)
        return img, alphabet, label
  • Podemos usar o mesmo Dataset...
  • ...com amostras atualizadas:
  print(samples[0])
  [(
    'omniglot_train/.../0459_14.png',
     0,
     0,
   )]
Aprendizagem profunda intermediária com PyTorch

Arquitetura com duas saídas

class Net(nn.Module):
    def __init__(self, num_alpha, num_char):
        super().__init__()
        self.image_layer = nn.Sequential(
            nn.Conv2d(1, 16, kernel_size=3, padding=1),
            nn.MaxPool2d(kernel_size=2),
            nn.ELU(),
            nn.Flatten(),
            nn.Linear(16*32*32, 128)
        )

self.classifier_alpha = nn.Linear(128, 30) self.classifier_char = nn.Linear(128, 964)
def forward(self, x): x_image = self.image_layer(x)
output_alpha = self.classifier_alpha(x_image) output_char = self.classifier_char(x_image)
return output_alpha, output_char
  • Definir sub-rede de processamento de imagem
  • Definir classificadores por saída
  • Passar a imagem pela sub-rede
  • Passar o resultado por cada camada de saída
  • Retornar as duas saídas
Aprendizagem profunda intermediária com PyTorch

Loop de treino

for epoch in range(10):
    for images, labels_alpha, labels_char \
    in dataloader_train:
        optimizer.zero_grad()
        outputs_alpha, outputs_char = net(images)

loss_alpha = criterion( outputs_alpha, labels_alpha ) loss_char = criterion( outputs_char, labels_char )
loss = loss_alpha + loss_char
loss.backward() optimizer.step()
  • O modelo gera duas saídas
  • Calcular a loss de cada saída
  • Somar as losses em uma loss total
  • Backprop e otimização com a loss total
Aprendizagem profunda intermediária com PyTorch

Vamos praticar!

Aprendizagem profunda intermediária com PyTorch

Preparing Video For Download...