Data mining: Extracción de reglas

En ámbitos como medicina, ciencia, ingeniería o marketing se acumula cada vez una mayor cantidad de datos, clave para nuevos e importantes descubrimientos. Por ejemplo, en biología molecular se espera utilizar la gran cantidad de información que se está tratando de reunir actualmente para comprender mejor la estructura y la función de los genes. En el pasado, métodos tradicionales de biología molecular permitían a los científicos el estudio de unos pocos genes al mismo tiempo en un experimento concreto, mientras que hoy en día, gracias al desarrollo de las técnicas basadas en microarrays, es posible comparar el comportamiento de miles de genes en diversas situaciones. Estas comparaciones pueden ayudar a determinar la función de cada gen y, quizás, determinar qué genes causan ciertas enfermedades. Sin embargo, la presencia de ruido y la gran dimensionalidad de los datos hacen necesario el desarrollo de nuevos tipos de análisis.

Data mining, o minería de datos, consiste en descubrir automáticamente información útil en grandes repositorios de datos. Este tipo de técnicas se utilizan, por lo tanto, para analizar grandes bases de datos en busca de nuevos patrones que sean útiles y que, de otro modo, no serían descubiertos. Además, permiten predecir la salida de una observación futura, como, por ejemplo, si un nuevo cliente gastará más o menos de una cierta cantidad de dinero.

Las técnicas tradicionales de análisis de datos suelen encontrarse con ciertos problemas a la hora de tratar de superar nuevos retos que ofrecen nuevos conjuntos de datos. Algunos retos específicos que motivaron el desarrollo de la minería de datos son los siguientes:

Escalabilidad
Alta dimensionalidad
Datos heterogéneos y complejos
La propiedad y distribución de los datos
Análisis no tradicional

Las tareas de data mining se suelen dividir en dos grandes categorías:

Tareas predictivas, cuyo objetivo es predecir el valor de un atributo (característica) en particular, basándose en los valores de otros atributos.
Tareas descriptivas, cuyo objetivo es obtener patrones que representen las relaciones subyacentes existentes en los datos.

Estas tareas tienen especial relevancia en el ámbito biomédico, ya que ayudarían tanto en el diagnóstico y prevención de enfermedades, como en un mejor conocimiento de sus características. A través de tareas predictivas se podría realizar diagnóstico y prevención y mediante tareas descriptivas se podrían obtener las características del ADN que podrían predisponer a un paciente a padecer una enfermedad. Esto último se podría llevar a cabo mediante la extracción de reglas de asociación a partir de datos genéticos. Este tipo de reglas asocian ciertas características presentes en el ADN de un paciente con, por ejemplo, el desarrollo de una enfermedad o el ser afectado por un efecto secundario de un medicamento. Por ello, se presenta una aplicación capaz de obtener reglas de asociación a partir de datos genéticos y capaz de predecir el estado de un paciente, sano o enfermo, en relación a una enfermedad.

Para obtener dichas reglas, la aplicación analizará el conjunto de datos proporcionados como entrada utilizando una técnica de Computación Evolutiva: los Algoritmos Genéticos (AAGG). Se trata de una técnica de Inteligencia Artificial basada en la Teoría de la Evolución de Charles Darwin, de tal forma que se inspira en la evolución biológica y su base genético-molecular. Este tipo de algoritmos hacen evolucionar una población a través de acciones aleatorias similares a las que existen en la evolución biológica, como la mutación y la recombinación genética, y a través de un mecanismo similar a la selección natural.

La aplicación desarrollada, además de extraer reglas, puede ser utilizada para realizar clasificaciones. Las características (o atributos) proporcionadas serán, pues, analizadas para buscar relaciones entre ellas y, en base a estas relaciones, se realizará la clasificación de los datos de entrada, cubriendo los dos grandes categorías de tareas de minería de datos. Esto abre un gran abanico de posibilidades de aplicación en ámbitos completamente diferentes y con diversos objetivos, permitiendo tanto la predicción como la obtención de estructuras relevantes de gran cantidad de datos que pueden poseer ruido o, incluso, en los que puede faltar cierta información.

SABIA

.: SABIA :. Sistemas Adaptativos y Bioinspirados en Inteligencia Artificial