8 Redes recurrentes

Cuando se trabaja con patrones dinámicos; es decir, con patrones de secuencias en las que aparece el concepto tiempo, las RNA alimentadas sólo hacia adelante se encuentran bastante limitadas ya que no permiten conexiones que unan neuronas creando bucles. En las redes recurrentes no se impone ninguna restricción en su conectividad, con lo que se gana un número mayor de pesos por neurona y por lo tanto una mayor representatividad, dado que las RNA representan la información de forma distribuida en sus pesos. De esta forma, la principal característica de este tipo de redes es la de realimentar su salida a su entrada, evolucionando hasta un estado de equilibrio donde proporciona la salida final de la red (Demuth, Beale, 1994). Esta característica las hace útiles cuando se quiere simular sistemas dinámicos; sin embargo, su entrenamiento es más lento que el de una red alimentada sólo hacia delante, y a la vez mucho más complejo. El primer algoritmo de entrenamiento de este tipo de redes aparece en 1987, cuando se adapta el algoritmo de retropropagación del error de las RNA alimentadas sólo hacia delante a las redes recurrentes aplicadas a patrones estáticos (``Recurrent Backpropagation'') y se pudieron aplicar estas redes a los mismos problemas a los que se aplicaban las multicapa alimentadas hacia delante. Además, otros investigadores se centran en desarrollar aproximaciones del algoritmo de aprendizaje que lo hagan más práctico surgiendo el algoritmo llamado ``Real-Time Recurrent Learning'' o RTRL indicado para tareas de tiempo real.

A partir de entonces, las redes recurrentes se han venido aplicando en un buen número de tareas, desde reconocimiento del habla hasta la simulación de autómatas finitos. Sin embargo, la aplicación de redes recurrentes presenta un mayor número de problemas. En el caso de patrones estáticos, una red recurrente funciona presentándole un patrón, haciendo después evolucionar la red hasta que sus salidas se estabilizan. Sin embargo, esto no está asegurado, pudiéndose dar comportamientos oscilatorios o caóticos y aunque existen estudios para establecer las condiciones para que esto no ocurra, se limitan a ciertas arquitecturas muy concretas como las Hopfield. E1 caso de los patrones dinámicos es todavía más complicado, ya que, si se sabe poco del comportamiento de una red recurrente (por ejemplo la dificultad de estabilizarse), se sabe aún menos de su comportamiento dinámico. El poco conocimiento es empírico y no existen estudios formales ni de la red recurrente más simple: una neurona aislada con una conexión a sí misma. Tampoco existen estudios teóricos que avalen utilizar un algoritmo basado en el descenso del gradiente para tareas de tratamiento de patrones dinámicos. Un problema sencillo, como es enseñar a oscilar a una neurona aislada con realimentación, da muchos problemas del tipo de mínimos locales y hasta ahora no se conoce su justificación teórica. Además, en redes multicapa se conoce más o menos bien qué arquitectura hay que utilizar en la mayoría de los problemas, gracias a conocimientos basados fundamentalmente en la experiencia. Sin embargo, por una parte, la variedad arquitectónica en redes recurrentes es infinitamente superior, por lo que su diseño es más complicado y, por otra, la gran variedad de este tipo de patrones hace difícil su categorización.

Subsecciones

Marcos Gestal 2009-12-04