RNN és LSTM – Visszacsatolt neurális hálózatok

A visszacsatolt hálózatok (RNN) szekvenciális és időbeli adatok feldolgozására specializálódtak – szöveg, idősorok, hang – ahol a kontextus és sorrend számít.

RNN – Recurrent Neural Network

A hagyományos feedforward hálózatokkal ellentétben az RNN kimenetét visszavezeti bemenetként a következő lépésbe. Ez lehetővé teszi az "emlékezést" – a hálózat korábbi állapotát figyelembe veszi.

h_t = f(W_h · h_{t-1} + W_x · x_t + b)

ahol h_t az aktuális rejtett állapot, h_{t-1} az előző, x_t az aktuális bemenet.

Vanishing gradient probléma

Hosszú szekvenciáknál a backpropagation during time (BPTT) során a gradiens exponenciálisan csökken. A korai lépések "elfelejtődnek" – ez az RNN legfőbb korlátja, amelyet az LSTM old meg.

LSTM – Long Short-Term Memory

Az LSTM (1997, Hochreiter & Schmidhuber) kapukat (gates) alkalmaz, amelyek szabályozzák, mit "jegyezzen meg" és mit "felejtsen el" a hálózat.

Az LSTM négy komponense

Forget gate (felejtési kapu): Eldönti, mit dobjon el a korábbi állapotból – sigmoid aktiváció → 0: felejt, 1: megőrz
Input gate (bemeneti kapu): Eldönti, milyen új információt vegyen fel – sigmoid + tanh kombinációja
Cell state (cellaállapot): A hosszú távú memória – addíció révén frissül, ezért a gradiens kevésbé tűnik el
Output gate (kimeneti kapu): Meghatározza a rejtett állapotot a következő lépéshez

GRU – Gated Recurrent Unit

Az LSTM egyszerűsített változata (2014, Cho). Két kapuval dolgozik (reset és update gate). Kevesebb paraméter, hasonló teljesítmény kisebb adathalmazon.

Architektúra	Paraméter	Hosszú memória	Legjobb területek
Vanilla RNN	Kevés	Gyenge	Rövid szekvenciák
LSTM	Sok	Erős	NLP, hosszú függőségek
GRU	Közepes	Jó	Kis adat, gyorsabb tanulás
Transformer	Nagyon sok	Nagyon jó	Nagy NLP, GPT-szerű modellek

Alkalmazások

Gépi fordítás (seq2seq LSTM modellek)
Szöveggenerálás
Idősor-előrejelzés (pénzügy, időjárás)
Hangfelismerés
Szentimentelemzés

Felváltotta a Transformer az LSTM-et?

A Transformer (2017, "Attention is All You Need") az NLP legtöbb feladatán felülmúlta az LSTM-et – különösen nagy adathalmazon és párhuzamos számításban. Az LSTM előnye megmaradt kisebb erőforrásigényű, szekvenciális streaming feladatoknál, és bizonyos beágyazott rendszerekben.