RNN és LSTM – Visszacsatolt neurális hálózatok
A visszacsatolt hálózatok (RNN) szekvenciális és időbeli adatok feldolgozására specializálódtak – szöveg, idősorok, hang – ahol a kontextus és sorrend számít.
RNN – Recurrent Neural Network
A hagyományos feedforward hálózatokkal ellentétben az RNN kimenetét visszavezeti bemenetként a következő lépésbe. Ez lehetővé teszi az "emlékezést" – a hálózat korábbi állapotát figyelembe veszi.
ahol h_t az aktuális rejtett állapot, h_{t-1} az előző, x_t az aktuális bemenet.
Vanishing gradient probléma
Hosszú szekvenciáknál a backpropagation during time (BPTT) során a gradiens exponenciálisan csökken. A korai lépések "elfelejtődnek" – ez az RNN legfőbb korlátja, amelyet az LSTM old meg.
LSTM – Long Short-Term Memory
Az LSTM (1997, Hochreiter & Schmidhuber) kapukat (gates) alkalmaz, amelyek szabályozzák, mit "jegyezzen meg" és mit "felejtsen el" a hálózat.
Az LSTM négy komponense
- Forget gate (felejtési kapu): Eldönti, mit dobjon el a korábbi állapotból – sigmoid aktiváció → 0: felejt, 1: megőrz
- Input gate (bemeneti kapu): Eldönti, milyen új információt vegyen fel – sigmoid + tanh kombinációja
- Cell state (cellaállapot): A hosszú távú memória – addíció révén frissül, ezért a gradiens kevésbé tűnik el
- Output gate (kimeneti kapu): Meghatározza a rejtett állapotot a következő lépéshez
GRU – Gated Recurrent Unit
Az LSTM egyszerűsített változata (2014, Cho). Két kapuval dolgozik (reset és update gate). Kevesebb paraméter, hasonló teljesítmény kisebb adathalmazon.
| Architektúra | Paraméter | Hosszú memória | Legjobb területek |
|---|---|---|---|
| Vanilla RNN | Kevés | Gyenge | Rövid szekvenciák |
| LSTM | Sok | Erős | NLP, hosszú függőségek |
| GRU | Közepes | Jó | Kis adat, gyorsabb tanulás |
| Transformer | Nagyon sok | Nagyon jó | Nagy NLP, GPT-szerű modellek |
Alkalmazások
- Gépi fordítás (seq2seq LSTM modellek)
- Szöveggenerálás
- Idősor-előrejelzés (pénzügy, időjárás)
- Hangfelismerés
- Szentimentelemzés