CNN – Konvolúciós neurális hálózatok
A konvolúciós hálózatok a képfeldolgozás alaparchitektúrái. A biológiai látókéreg mintázatfelismerési mechanizmusát emulálják strukturált adatokon.
A konvolúciós művelet
A konvolúció egy szűrőmátrix (kernel) eltolásával (stride) kinyeri a lokális jellemzőket a bemeneti adatból. Pl. 3×3-as kernel végigcsúszik a képen, és minden pozíción egy skaláris értéket számol (dot product).
Feature Map(i,j) = Σ Σ Input(i+m, j+n) × Kernel(m,n)
A szűrők automatikusan tanulódnak a backpropagation során.
CNN rétegek
Konvolúciós réteg (Convolutional Layer)
Több szűrőt alkalmaz a bemeneten, így több jellemzőtérképet (feature map) hoz létre. Fontos paraméterek:
- Kernel size: A szűrő mérete (pl. 3×3, 5×5)
- Stride: A szűrő lépésköze – nagyobb stride kisebb feature map
- Padding: Nulla értékű keretek hozzáadása, hogy a kimeneti méret szabályozható legyen
- Filters (channels): Párhuzamos szűrők száma
Pooling réteg
Csökkenti a térbeli felbontást, ezzel az eltolás-invarianciát növeli. Típusok:
- Max pooling: Maximumot vesz egy ablakból – éles jellemzők megtartása
- Average pooling: Átlagot vesz – simításra
- Global average pooling: Teljes feature map-et egyetlen értékre csökkenti
Teljesen összekötött (Fully Connected) réteg
A CNN végén a kibontott jellemzőket osztályozó/regressziós döntéshozóba csatorna. Általában 1-2 FC réteg és egy softmax/sigmoid kimenet.
Fontos architektúrák
| Architektúra | Év | Kulcs innováció |
|---|---|---|
| LeNet-5 | 1998 | Az első modern CNN, kézírásos számjegyekre |
| AlexNet | 2012 | ReLU, Dropout, GPU tanítás – ImageNet áttörés |
| VGG16/19 | 2014 | Egységes 3×3 kernel-ek mély architektúrában |
| ResNet | 2015 | Residual connection (skip connection) – nagyon mély hálók |
| EfficientNet | 2019 | Skálázott architektúra komplex és könnyű egyenlegért |
Alkalmazások
- Képosztályozás (ImageNet, medicinális képanalízis)
- Tárgyfelismerés (YOLO, SSD, Faster R-CNN)
- Szegmentáció (U-Net, Mask R-CNN)
- Arcfelismerés
- Autonóm járművek látórendszerei
Mi az a skip connection (maradékkapcsolat)?
A ResNet-ben bevezetett technika: a bemenetet az n-edik rétegen "átugratva" direkt összeadják a kimenettel (
output = F(x) + x). Ez lehetővé teszi, hogy a gradiens közvetlenül terjedjen vissza, megakadályozza a gradiensvesztést mély hálókban.