EL ExpertLab

RNN és LSTM – Visszacsatolt neurális hálózatok

A visszacsatolt hálózatok (RNN) szekvenciális és időbeli adatok feldolgozására specializálódtak – szöveg, idősorok, hang – ahol a kontextus és sorrend számít.

RNN – Recurrent Neural Network

A hagyományos feedforward hálózatokkal ellentétben az RNN kimenetét visszavezeti bemenetként a következő lépésbe. Ez lehetővé teszi az "emlékezést" – a hálózat korábbi állapotát figyelembe veszi.

h_t = f(W_h · h_{t-1} + W_x · x_t + b)

ahol h_t az aktuális rejtett állapot, h_{t-1} az előző, x_t az aktuális bemenet.

Vanishing gradient probléma

Hosszú szekvenciáknál a backpropagation during time (BPTT) során a gradiens exponenciálisan csökken. A korai lépések "elfelejtődnek" – ez az RNN legfőbb korlátja, amelyet az LSTM old meg.

LSTM – Long Short-Term Memory

Az LSTM (1997, Hochreiter & Schmidhuber) kapukat (gates) alkalmaz, amelyek szabályozzák, mit "jegyezzen meg" és mit "felejtsen el" a hálózat.

Az LSTM négy komponense

  • Forget gate (felejtési kapu): Eldönti, mit dobjon el a korábbi állapotból – sigmoid aktiváció → 0: felejt, 1: megőrz
  • Input gate (bemeneti kapu): Eldönti, milyen új információt vegyen fel – sigmoid + tanh kombinációja
  • Cell state (cellaállapot): A hosszú távú memória – addíció révén frissül, ezért a gradiens kevésbé tűnik el
  • Output gate (kimeneti kapu): Meghatározza a rejtett állapotot a következő lépéshez

GRU – Gated Recurrent Unit

Az LSTM egyszerűsített változata (2014, Cho). Két kapuval dolgozik (reset és update gate). Kevesebb paraméter, hasonló teljesítmény kisebb adathalmazon.

ArchitektúraParaméterHosszú memóriaLegjobb területek
Vanilla RNNKevésGyengeRövid szekvenciák
LSTMSokErősNLP, hosszú függőségek
GRUKözepesKis adat, gyorsabb tanulás
TransformerNagyon sokNagyon jóNagy NLP, GPT-szerű modellek

Alkalmazások

  • Gépi fordítás (seq2seq LSTM modellek)
  • Szöveggenerálás
  • Idősor-előrejelzés (pénzügy, időjárás)
  • Hangfelismerés
  • Szentimentelemzés
Felváltotta a Transformer az LSTM-et?
A Transformer (2017, "Attention is All You Need") az NLP legtöbb feladatán felülmúlta az LSTM-et – különösen nagy adathalmazon és párhuzamos számításban. Az LSTM előnye megmaradt kisebb erőforrásigényű, szekvenciális streaming feladatoknál, és bizonyos beágyazott rendszerekben.