EL ExpertLab

CNN – Konvolúciós neurális hálózatok

A konvolúciós hálózatok a képfeldolgozás alaparchitektúrái. A biológiai látókéreg mintázatfelismerési mechanizmusát emulálják strukturált adatokon.

Konvolúciós hálózat előreterjesztés

A konvolúciós művelet

A konvolúció egy szűrőmátrix (kernel) eltolásával (stride) kinyeri a lokális jellemzőket a bemeneti adatból. Pl. 3×3-as kernel végigcsúszik a képen, és minden pozíción egy skaláris értéket számol (dot product).

Feature Map(i,j) = Σ Σ Input(i+m, j+n) × Kernel(m,n)

A szűrők automatikusan tanulódnak a backpropagation során.

CNN rétegek

Konvolúciós réteg (Convolutional Layer)

Több szűrőt alkalmaz a bemeneten, így több jellemzőtérképet (feature map) hoz létre. Fontos paraméterek:

  • Kernel size: A szűrő mérete (pl. 3×3, 5×5)
  • Stride: A szűrő lépésköze – nagyobb stride kisebb feature map
  • Padding: Nulla értékű keretek hozzáadása, hogy a kimeneti méret szabályozható legyen
  • Filters (channels): Párhuzamos szűrők száma

Pooling réteg

Csökkenti a térbeli felbontást, ezzel az eltolás-invarianciát növeli. Típusok:

  • Max pooling: Maximumot vesz egy ablakból – éles jellemzők megtartása
  • Average pooling: Átlagot vesz – simításra
  • Global average pooling: Teljes feature map-et egyetlen értékre csökkenti

Teljesen összekötött (Fully Connected) réteg

A CNN végén a kibontott jellemzőket osztályozó/regressziós döntéshozóba csatorna. Általában 1-2 FC réteg és egy softmax/sigmoid kimenet.

Fontos architektúrák

ArchitektúraÉvKulcs innováció
LeNet-51998Az első modern CNN, kézírásos számjegyekre
AlexNet2012ReLU, Dropout, GPU tanítás – ImageNet áttörés
VGG16/192014Egységes 3×3 kernel-ek mély architektúrában
ResNet2015Residual connection (skip connection) – nagyon mély hálók
EfficientNet2019Skálázott architektúra komplex és könnyű egyenlegért

Alkalmazások

  • Képosztályozás (ImageNet, medicinális képanalízis)
  • Tárgyfelismerés (YOLO, SSD, Faster R-CNN)
  • Szegmentáció (U-Net, Mask R-CNN)
  • Arcfelismerés
  • Autonóm járművek látórendszerei
Mi az a skip connection (maradékkapcsolat)?
A ResNet-ben bevezetett technika: a bemenetet az n-edik rétegen "átugratva" direkt összeadják a kimenettel (output = F(x) + x). Ez lehetővé teszi, hogy a gradiens közvetlenül terjedjen vissza, megakadályozza a gradiensvesztést mély hálókban.