1. Concepte
Els Transformers són una arquitectura de xarxes neuronals que es van introduir el 2017 amb el paper “Attention is All You Need”. Aquesta arquitectura es destaca per l’ús del mecanisme d’atenció, que permet processar dades seqüencials en paral·lel, millorant l’eficiència i el rendiment en tasques com la traducció automàtica i la generació de text.
2. Definició acadèmica precisa
Els Transformers són una classe d’arquitectures de xarxes neuronals dissenyades per manejar dades seqüencials, com ara text, de manera més eficient que els models recurrents tradicionals com les LSTM i GRU. La clau de la seva eficiència és el mecanisme d’atenció, que permet al model donar diferents pesos a diferents parts de la seqüència d’entrada a l’hora de generar la sortida.
L’arquitectura Transformer consta de dos components principals: l’encoder i el decoder. L’encoder processa la seqüència d’entrada i genera una representació interna, mentre que el decoder utilitza aquesta representació per generar la seqüència de sortida. Tots dos components estan formats per múltiples capes d’atenció autoalimentada i xarxes feed-forward.
El mecanisme d’atenció es basa en la idea de calcular una matriu de puntuacions que indiquen la rellevància de cada paraula en la seqüència d’entrada respecte a cada paraula en la seqüència de sortida. Aquestes puntuacions s’utilitzen per ponderar les representacions de les paraules, permetent que el model se centri en les parts més rellevants de la seqüència.
L’ús de l’atenció en paral·lel permet que els Transformers aprofitin millor el hardware modern, com les unitats de processament gràfic (GPU), reduint significativament el temps d’entrenament. Aquesta capacitat de processament paral·lel és especialment avantatjosa en el maneig de seqüències llargues, on els models recurrents pateixen d’un rendiment decreixent a mesura que la longitud de la seqüència augmenta.
3. Definició simplificada
Els Transformers són un tipus de xarxa neuronal que utilitza el mecanisme d’atenció per processar seqüències de dades, com ara text, de manera més eficient. Aquesta arquitectura permet tractar amb seqüències llargues sense perdre context, millorant tasques com la traducció automàtica i la generació de text.
4. Metàfora per entendre-ho
Els Transformers són com un grup d’estudiants que treballen junts en un projecte. Cada estudiant (paraula) pot veure el treball dels altres i decidir quines parts són més importants per a la seva tasca (generar una frase coherent). Això permet a cada estudiant centrar-se en les parts més rellevants de la informació disponible, fent el projecte més eficient i coherent.
5. Dita catalana relacionada
Moltes mans fan la feina lleugera.
Aquesta dita reflecteix la idea que treballar en paral·lel (com fan els Transformers amb el mecanisme d’atenció) fa que la tasca sigui més fàcil i ràpida. En el context dels Transformers, això significa que l’ús de l’atenció en paral·lel permet processar grans quantitats de dades de manera més eficient.


