Semantische segmentatie met U-Net

Deep Learning voor afbeeldingen met PyTorch

Michal Oleszak

Machine Learning Engineer

Semantische segmentatie

Geen onderscheid tussen verschillende instanties van dezelfde klasse
Nuttig voor medische of satellietbeelden
Populaire architectuur: U-Net

U-Net-architectuur

U-Net-architectuurschema

Encoder:

Convolutie- en pooling-lagen
Downsampling: verkleint ruimtelijke afmetingen en vergroot diepte

U-Net-architectuur

U-Net-architectuurschema

Decoder:

Symmetrisch aan de encoder
Upsampelt featuremaps met getransponeerde convoluties

U-Net-architectuur

U-Net-architectuurschema

Skip-verbindingen:

Koppelingen van encoder naar decoder
Behouden details die verloren gaan bij downsampling

Getransponeerde convolutie

Diagram van getransponeerde convolutie

Upsampelt featuremaps in de decoder: vergroot hoogte en breedte en vermindert diepte
Proces van getransponeerde convolutie:
1. Voeg nullen in tussen of rond de input-featuremap
2. Voer een gewone convolutie uit op de met nullen opgevulde input

Getransponeerde convolutie in PyTorch

import torch.nn as nn

upsample = nn.ConvTranspose2d(
    in_channels=in_channels,
    out_channels=out_channels,
    kernel_size=2,
    stride=2,
)

U-Net: laagdefinities

class UNet(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(UNet, self).__init__()


        self.enc1 = self.conv_block(in_channels, 64)
        self.enc2 = self.conv_block(64, 128)
        self.enc3 = self.conv_block(128, 256)
        self.enc4 = self.conv_block(256, 512)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)


        self.upconv3 = nn.ConvTranspose2d(512, 256,
                                          kernel_size=2, stride=2)
        self.upconv2 = nn.ConvTranspose2d(256, 128,
                                          kernel_size=2, stride=2)
        self.upconv1 = nn.ConvTranspose2d(128, 64,
                                          kernel_size=2, stride=2)


        self.dec1 = self.conv_block(512, 256)
        self.dec2 = self.conv_block(256, 128)
        self.dec3 = self.conv_block(128, 64)
        self.out = nn.Conv2d(64, out_channels, kernel_size=1)

Encoder:

Convolutionele blokken

def conv_block(self, in_channels, out_channels):
return nn.Sequential(
  nn.Conv2d(in_channels, out_channels),
  nn.ReLU(inplace=True),
  nn.Conv2d(out_channels, out_channels),
  nn.ReLU(inplace=True)
)

Pooling-laag

Decoder:
- Getransponeerde convoluties
- Convolutionele blokken

U-Net: forward-methode

def forward(self, x):

    x1 = self.enc1(x)
    x2 = self.enc2(self.pool(x1))
    x3 = self.enc3(self.pool(x2))
    x4 = self.enc4(self.pool(x3))


    x = self.upconv3(x4)

    x = torch.cat([x, x3], dim=1)

    x = self.dec1(x)


    x = self.upconv2(x)
    x = torch.cat([x, x2], dim=1)
    x = self.dec2(x)

    x = self.upconv1(x)
    x = torch.cat([x, x1], dim=1)
    x = self.dec3(x)


    return self.out(x)

Geef de input door de convolutionele blokken en pooling-lagen van de encoder
Decoder en skip-verbindingen:
- Geef gecodeerde input door getransponeerde convolutie
- Concateneer met overeenkomstige encoder-uitvoer
- Geef door convolutioneel blok
- Herhaal voor alle decoderstappen
Retourneer de uitvoer van de laatste decoderstap

Inferentie uitvoeren

model = UNet()
model.eval()


image = Image.open("car.jpg")
transform = transforms.Compose([transforms.ToTensor()])
image_tensor = transform(image).unsqueeze(0)


with torch.no_grad():
    prediction = model(image_tensor).squeeze(0)


plt.imshow(prediction[1, :, :])
plt.show()

Originele auto-afbeelding

Semantisch masker over de auto-afbeelding

Laten we oefenen!

Deep Learning voor afbeeldingen met PyTorch