CNN – Konvolúciós neurális hálózatok

A konvolúciós hálózatok a képfeldolgozás alaparchitektúrái. A biológiai látókéreg mintázatfelismerési mechanizmusát emulálják strukturált adatokon.

A konvolúciós művelet

A konvolúció egy szűrőmátrix (kernel) eltolásával (stride) kinyeri a lokális jellemzőket a bemeneti adatból. Pl. 3×3-as kernel végigcsúszik a képen, és minden pozíción egy skaláris értéket számol (dot product).

Feature Map(i,j) = Σ Σ Input(i+m, j+n) × Kernel(m,n)

A szűrők automatikusan tanulódnak a backpropagation során.

CNN rétegek

Konvolúciós réteg (Convolutional Layer)

Több szűrőt alkalmaz a bemeneten, így több jellemzőtérképet (feature map) hoz létre. Fontos paraméterek:

Kernel size: A szűrő mérete (pl. 3×3, 5×5)
Stride: A szűrő lépésköze – nagyobb stride kisebb feature map
Padding: Nulla értékű keretek hozzáadása, hogy a kimeneti méret szabályozható legyen
Filters (channels): Párhuzamos szűrők száma

Pooling réteg

Csökkenti a térbeli felbontást, ezzel az eltolás-invarianciát növeli. Típusok:

Max pooling: Maximumot vesz egy ablakból – éles jellemzők megtartása
Average pooling: Átlagot vesz – simításra
Global average pooling: Teljes feature map-et egyetlen értékre csökkenti

Teljesen összekötött (Fully Connected) réteg

A CNN végén a kibontott jellemzőket osztályozó/regressziós döntéshozóba csatorna. Általában 1-2 FC réteg és egy softmax/sigmoid kimenet.

Fontos architektúrák

Architektúra	Év	Kulcs innováció
LeNet-5	1998	Az első modern CNN, kézírásos számjegyekre
AlexNet	2012	ReLU, Dropout, GPU tanítás – ImageNet áttörés
VGG16/19	2014	Egységes 3×3 kernel-ek mély architektúrában
ResNet	2015	Residual connection (skip connection) – nagyon mély hálók
EfficientNet	2019	Skálázott architektúra komplex és könnyű egyenlegért

Alkalmazások

Képosztályozás (ImageNet, medicinális képanalízis)
Tárgyfelismerés (YOLO, SSD, Faster R-CNN)
Szegmentáció (U-Net, Mask R-CNN)
Arcfelismerés
Autonóm járművek látórendszerei

Mi az a skip connection (maradékkapcsolat)?

A ResNet-ben bevezetett technika: a bemenetet az n-edik rétegen "átugratva" direkt összeadják a kimenettel (output = F(x) + x). Ez lehetővé teszi, hogy a gradiens közvetlenül terjedjen vissza, megakadályozza a gradiensvesztést mély hálókban.