Modifica immagini con modelli di diffusione

Modelli multi-modali con Hugging Face

James Chapman

Curriculum Manager, DataCamp

Diffusers

Fasi di un modello di diffusione che crea un'immagine dal rumore

  • Addestrato a mappare rumore → immagine
  • CLIP + Diffusion → 2 tipi di generazione condizionata
    • Generazione: testo → immagine
    • Modifica: testo+immagine → immagine
1 https://huggingface.co/docs/diffusers
Modelli multi-modali con Hugging Face

Modifica immagine personalizzata

ControlNet: generazione condizionata guidata da immagine e testo

Diagramma che mostra l'approccio di modifica personalizzata con filtro Canny e ControlNet

1 https://stable-diffusion-art.com/controlnet/
Modelli multi-modali con Hugging Face

Modifica immagine personalizzata

from diffusers.utils import load_image

image = load_image("http://301.nz/o81bf")

import cv2 from PIL import Image import numpy as np image = cv2.Canny(np.array(image), 100, 200)
image = image[:, :, None] image = np.concatenate([image, image, image], axis=2)

Immagine della Gioconda

Modelli multi-modali con Hugging Face

Modifica immagine personalizzata

from diffusers.utils import load_image

image = load_image("http://301.nz/o81bf")

import cv2
from PIL import Image
import numpy as np

image = cv2.Canny(np.array(image), 100, 200)
image = image[:, :, None]
image = np.concatenate([image, image, image], 
                       axis=2)
canny_image = Image.fromarray(image)

Immagine della Gioconda e versione con filtro Canny

Modelli multi-modali con Hugging Face

Modifica immagine personalizzata

from diffusers import StableDiffusionControlNetPipeline
from diffusers import ControlNetModel
import torch

controlnet = ControlNetModel.from_pretrained("lllyasviel/sd-controlnet-canny", 
                                             torch_dtype=torch.float16)


pipe = StableDiffusionControlNetPipeline.from_pretrained( "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16 )
pipe = pipe.to("cuda")
Modelli multi-modali con Hugging Face

Modifica immagine personalizzata

prompt = ["Albert Einstein, 
          best quality, 
          extremely detailed"]

generator = [ torch.Generator(device="cuda").manual_seed(2)]
output = pipe( prompt, canny_image, negative_prompt=["monochrome, lowres, bad anatomy, worst quality, low quality"], generator=generator, num_inference_steps=20)

Albert Einstein nella posa della Gioconda

Modelli multi-modali con Hugging Face

Inpainting dell'immagine

  • Genera nuovo contenuto in una regione specifica

Gioconda senza maschera

Modelli multi-modali con Hugging Face

Inpainting dell'immagine

  • Genera nuovo contenuto in una regione specifica
  • Maschera binaria: bianco (1), nero (0)
  • Maschere da segmentazione o definite dall'utente (es. con InpaintingMask-Generation)

Gioconda con la nostra maschera

Modelli multi-modali con Hugging Face

Inpainting dell'immagine

from diffusers import StableDiffusionControlNetInpaintPipeline, ControlNetModel


controlnet = ControlNetModel.from_pretrained("lllyasviel/control_v11p_sd15_inpaint", torch_dtype=torch.float16, use_safetensors=True)
pipe = StableDiffusionControlNetInpaintPipeline.from_pretrained( "stable-diffusion-v1-5/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16, use_safetensors=True )
Modelli multi-modali con Hugging Face

Inpainting dell'immagine

def make_inpaint_condition(image, image_mask):
    image = np.array(image.convert("RGB")).astype(np.float32) / 255.0
    image_mask = np.array(image_mask.convert("L")).astype(np.float32) / 255.0


image[image_mask > 0.5] = -1.0
image = np.expand_dims(image, 0).transpose(0, 3, 1, 2) image = torch.from_numpy(image) return image control_image = make_inpaint_condition(init_image, mask_image)
Modelli multi-modali con Hugging Face

Inpainting dell'immagine

output = pipe(
    "La testa della Monna Lisa 
  nello stesso stile e qualità 
  dell'originale, con un sorriso chiaro 
  e una testa leggermente più piccola",

num_inference_steps=40,
eta=1.0,
image=init_image, mask_image=mask_image, control_image=control_image, ).images[0]

Gioconda ora con un sorriso

Modelli multi-modali con Hugging Face

Vamos praticar!

Modelli multi-modali con Hugging Face

Preparing Video For Download...