6 Información en las Redes de Neuronas Artificiales

En el cerebro todas las neuronas actúan del mismo modo. Una neurona concreta no puede distinguir características como ``rojo'' o ``frío''. Lo único que una neurona biológica distingue es el potencial de membrana, su estado de activación y sus secuencias de activación. Estos tres últimos elementos pueden ser expresados numéricamente.

La información de entrada en números tiene que ser adecuada para las funciones de activación y transferencia de la red y se deben distribuir esas informaciones $ O_j$ entre las neuronas de la capa de entrada de forma adecuada.

Se observa, por tanto, que a la hora de diseñar una red neuronal es necesario realizar un análisis tanto de la información de entrada que hay que suministrarle para presentarle el problema, como de la información de salida que la red proporcionará como solución a dicho problema.

Si los datos de entrada, es decir, la información del problema que se desea que la red de neuronas resuelva, no se pueden representar mediante valores dicotómicos, se tendrán que modificar las funciones de la red para hacerla así capaz de trabajar con valores $ O_j$ con los que se puedan representar los datos.

Si, por ejemplo, se trabaja con información incierta, en donde sólo se pueda dar un valor de la probabilidad de que un determinado elemento pertenezca a un conjunto, se necesitará que la función sea continua para poder expresar valores de probabilidad. De esta manera el rango de los $ O_j$ variará de 0 a 1.

Si los valores de $ O_j$ son continuos y los datos también, se tendrá que volver a normalizar los datos de entrada para hacerlos corresponder con el rango de valores que los $ O_j$ pueden tomar. Es decir, es necesario reajustar la escala de los datos para que se adapte a la escala de los $ O_j$. Así, si por ejemplo un dato de entrada es una longitud en metros (desde 0 a 1.000 m.) y los $ O_j$ se mueven desde -1 a 1 se tendrá que establecer una correspondencia en la que a la longitud de 0 m. le corresponda -1, a 1.000 m. le corresponda +1, a 500 m. le corresponda 0, etc.

En cuanto al proceso de normalización se pueden realizar tres clases de transformación de los datos: transformación lineal, estandarización estadística y funciones matemáticas. La transformación lineal es la técnica más empleada, en este caso, se escalan los valores al rango [0, 1] o [-1, 1] de forma lineal. El objetivo es asegurar que todas las variables (entradas de la RNA) reciben igual atención en el proceso de entrenamiento y son escaladas de acuerdo a los límites de las funciones de activación utilizadas en las neuronas de la capa de salida de la red.

En la estandarización estadística, el escalado involucra la resta de una cierta medida, como por ejemplo la media aritmética, y dividir por un cierto valor, como por ejemplo la desviación estándar. Cualquier escalado que establezca una tendencia central próxima a cero suele ser beneficioso en el proceso de inicialización de los pesos de la red.

La última transformación se basa en funciones matemáticas como por ejemplo aplicar la función logaritmo sobre los datos, con el objetivo de estabilizar la variancia [7]. El aplicar el logaritmo o la raíz cuadrada, se usa principalmente para aproximar los datos a distribuciones Gausianas con el objetivo de minimizar el efecto de los valores extremos del rango. Se ha demostrado [4][23] que transformar las entradas de la red para que sigan una distribución uniforme puede ayudar a un mejor proceso de conversión y transformación en los valores de salida por la red de neuronas y, en consecuencia, un mejor proceso de entrenamiento de la red. Una forma de conversión a una distribución uniforme cuando los datos no siguen ninguna distribución probabilística conocida es la ecualización del histograma [15].

Marcos Gestal 2009-12-04