miércoles, 30 de junio de 2010

Base de datos: Mineria de datos

17 comentarios:

Unknown dijo...

Voy a enfocar mi comentario acerca de la entrada “Minería de datos”, a los procesos típicos que la conforman:

Lo primero que se realiza es la Selección del conjunto de datos, tanto de las variables objetivo, (lo que se predice, calculará o inferirá) como de las variables dependientes (las que se usarán para el cálculo o el proceso).

Seguidamente, se analizan las propiedades de los datos, en especial histogramas, diagramas, valores atípicos y valores nulos.

En tercer lugar, se realiza la transformación de los datos de entrada, de acuerdo al análisis previo, para preparar estos datos para la aplicación de la técnica de minería de datos que mejor se adapte al problema específico (conocido también como preprocesamiento de datos).

En cuarto lugar, se selecciona y aplica la técnica de minería de datos.

Luego se extrae el conocimiento, mediante la técnica de minería de datos, obteniéndose además un modelo de conocimiento, con patrones de comportamiento observados en las variables del problema.

Y por último se interpretan y evalúan los datos; y una vez obtenido el modelo, se procede a la validación comprobando que las conclusiones extraídas sean válidas y suficientemente satisfactorias.

Agregando unas líneas de carácter personal, espero que este comentario sea de fácil lectura y resulte provechoso para las personas que lo lean, ya que esta es la verdadera finalidad, el aportar un poco más de conocimientos a nuestros compañeros.

Daniel Marchena dijo...

El Data Mining (DM; minería de datos) es un proceso para descubrir, a partir de una base de datos, nuevos conocimientos que sean válidos, potencialmente útiles y, sobre todo, comprensibles.

La minería de datos extrae este conocimiento de los datos mediante el uso de técnicas estadísticas que permiten descubrir patrones y regularidades presentes en el conjunto de datos.

¿Para qué se utiliza la Minería de Datos?

La minería de datos es una herramienta fundamental para la toma de decisiones. El proceso de aprendizaje de los datos juega un papel muy importante en muchas áreas de la ciencia, las finanzas y la indústria, dónde las entidades o empresas han de minimizar los riesgos en la toma de decisiones estratégicas.

Algunas de las cuestiones que puede resolver la minería de datos en el ámbito de las finanzas y la investigación de mercados son:

¿Qué clientes tienen mayor probabilidad de responder positivamente a una campaña publicitaria?

¿Hay grupos (clústers o segmentos) de clientes con comportamiento o características similares?

Determinar reglas de asociación descriptivas del tipo “Un cliente que consume el producto X tiende a consumir el producto Y”

¿Qué pasos se tienen que realizar para fidelizar a un cliente?

¿Cómo se puede medir la satisfacción de los clientes?

Determinar reglas de asociación predictivas del tipo “Un cliente que realice de forma secuencial los pasos X, Y, y Z tiene un elevado riesgo de declararse moroso”

Unknown dijo...

Considero que se debe comenzar por el principio, valgan la redundancia, pero se hace imperioso definir en que radica la minería de datos (DM, Data Mining),este consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Carmen Sangronis dijo...

Se puede decir que la minería de datos es una etapa, muy importante, de lo que se denomina proceso de extracción de conocimientos a partir de datos.
Este proceso consta de varias fases e incorpora diferentes técnicas:
Estadísticas
Bases de datos
Inteligencia artificial
Sistema de tomas de decisión
La minería de datos se puede ver aplicada:
Marcar la entrada y la salida del trabajo, además de lo obvio podemos conocer cuantas persona van a trabajar, cuanto es el tiempo de retraso.
Ir a comprar a un supermercado: aun cuando paguemos en efectivo la tienda sabrá que productos compramos, cuanto fue el monto gastado, que días compramos, etc.
Pagar con tarjeta de crédito o de debito: de esta forma el banco obtiene datos como lugar, fecha, hora, monto gastado, tienda.
Hablar por celular: la compañía que nos provee el servicio obtendrá la duración de la llamada, número donde se hablo, incluso la ubicación geográfica de nuestro celular.
Hoy en día muchos de nuestros actos son guardo por diversas compañías y cada vez es más sencillo conocer todo lo que hacemos dado que todo es almacenado en base de datos.
De esta manera la minería de datos se define como la extracción cuyo objetivo es descubrir hechos, contenidos en las bases de datos, o La minería de datos es proceso analítico diseñado para explorar grandes volúmenes de datos. (Generalmente datos de negocios y mercados)
Con el objeto de descubrir patrones y modelos de comportamiento. Esto permite generar conocimientos que ayuda a mejorar la toma de decisiones en procesos fundamentales de un negocio.
“Procedimiento de extracción”
Selección y preprocesador de datos
Mediante el preprocesador se filtran los datos (de forma que se eliminan valores incorrectos, no validos, o no conocidos…. Según las necesidades y el algoritmo qe va a usarse),
Selección de variable
La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes del problema
Extracción de conocimientos
Mediante la minería de datos, se obtienen un modelo de conocimientos, que representa patrones de comportamientos observados en los valores de la variable del problema o relaciones de asociación entre dichas variables.
Interpretación y evaluación
Una vez obtenido el modelo se debe proceder a su validación comprobando que las conclusiones que arrojan son validas y suficientemente satisfactorias.

Dolymar dijo...

La minería de datos (o Data Mining)

Es un proceso de extracción de información y búsqueda de patrones de comportamiento que a simple vista se ocultan entre grandes cantidades de información.

Existen algunas herramientas diseñadas para extraer conocimientos desde bases de datos que contienen grandes cantidades de información. Las más populares de estas herramientas son SPSS Clementine, Oracle Data Miner y Weka. Esta última herramienta es la más asequible y popular ya que se desarrolla en Java y bajo licencia GPL.

Concretamente Weka permite cargar los datos para analizar desde una base de datos, un fichero .csv o ficheros .arff (el formato propio de Weka).

Supongamos que tenemos un conjunto de datos distribuidos en filas que se agrupan entre sí formando grupos a clusters. Una vez cargados los datos en Weka, podemos utilizar la herramienta para detectar cuáles son los datos más relevantes que permiten clasificar las datos en esos grupos.

Es más, podemos utilizar esos datos para crear árboles de decisión o reglas de clasificación que nos ayuden a entender por qué cada fila de datos cae en un determinado grupo.

También podemos utilizar esta herramienta de data mining para clasificar nuestros datos en grupos (clusters) utilizando algoritmos de clustering como por ejemplo k-means.

Elizabeth Bocanegra dijo...

Principales características y objetivos de la Minería de Datos
*Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.
*En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.
*La minería de datos produce cinco tipos de información:
— Asociaciones.
— Secuencias.
— Clasificaciones.
— Agrupamientos.
— Pronósticos.
*Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente.
*Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.

Norama dijo...

En vista que mis compañeros ya definieron lo que es Minerías de datos, su objetivos y características, yo me voy a referir a los pasos a seguir para la realización de un proyecto de minería de datos.
Los pasos para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.
El proceso de minería de datos se compone de las siguientes fases:
• Selección y preprocesado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto".

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el número de valores posibles (mediante redondeo, clustering...).
• Selección de variables
Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son básicamente dos:
1. Aquellos basados en la elección de los mejores atributos del problema
2. Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos
• Extracción de conocimiento
Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
• Interpretación y evaluación
Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
Les recomiendo ver este video: http://www.youtube.com/watch?v=-aPU13W7Xvw

Norama dijo...
Este comentario ha sido eliminado por el autor.
Norama dijo...
Este comentario ha sido eliminado por el autor.
Stevens dijo...

es como el grupo de técnicas y tecnologías que permiten estudiar grandes bases de datos, de manera automática o semiautomática, con el objetivo de localizar modelos repetitivos, tendencias o medidas que digan como se comportan los datos en un determinado contenido.
Primordialmente, la mineria de dato nace para intentar ayudar a comprender el contenido de un repositor de datos. Con este fin, hace uso de experiencias estadísticas y en algunos casos de cifras de búsqueda próximos a la Inteligencia Artificial.
En general, los datos son como la materia prima almacenada. En el momento que el interesado les cargan algún significado especial pasan a cambiarse en información, cuando los expertos hacen o encuentran un modelo, haciendo que la definición que surge entre la información y ese modelo represente un coste agregado, entonces se refiere al conocimiento.
En conclusion la mineria de datos se muestra como una tecnología emergente, con varias ventajas: por un lado, resulta un buen lugar de encuentro entre los investigadores y las personas de negocios u empresas; por otro guarda grandes cantidades de dinero a una empresa y puede abrir nuevas oportunidades de negocios, además no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el beneficio final incluye a la mineria de datos

Wuilfer dijo...
Este comentario ha sido eliminado por el autor.
Wuilfer dijo...

Seguido de los comentarios antes mencionados la minería de datos hace uso de todas las técnicas que puedan aportar información útil, desde un sencillo análisis gráfico, pasando por métodos estadísticos más o menos complejos, complementados con métodos y algoritmos del campo de la inteligencia artificial y el aprendizaje automático que resuelven problemas típicos de agrupamiento automático, clasificación, predicción de valores, detección de patrones, asociación de atributos, entre otros, por lo tanto, un campo multidisciplinar que cubre numerosas áreas y se emprende desde múltiples puntos de vista, como la estadística, la informática (cálculo automático) o la ingeniería.
Esta también Puede tener acceso a todos los metadatos asociados con la minería de datos utilizando conjuntos de filas de esquema de minería de datos. Por ejemplo, puede usar conjuntos de filas de esquema para determinar los tipos de datos que admite un algoritmo o los nombres de los modelos que existen en una base de datos.

lenyns ortega dijo...

Lo que en verdad hace el data mining es reunir las ventajas de varias áreas como
la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de
Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definición tradicional es la siguiente: Un proceso no
trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros,
1996). Desde el punto de vista empresarial , lo definimos como: La integración
de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001).
La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos
manejaban términos como data fishing, data mining o data archaeology
con la idea de encontrar correlaciones sin una hipótesis previa en bases de
datos con ruido.

Lisbeth dijo...

MINERÍA DE DATOS Y SISTEMAS DE INFORMACIÓN GEOGRÁFICA
La mayoría de las organizaciones han acumulado una enorme cantidad de datos que normalmente se almacenan en Sistemas de Gestión de Bases de Datos dispersas, no comunicadas e incongruentes entre sí.
Además el exagerado sobredimensionamiento de esas bases de datos exceden con mucho la capacidad humana de analizar e interpretar sus contenidos. Sin embargo, estas mismas organizaciones persiguen un objetivo distinto; de manera conceptual y consensuada buscan obtener información, buscan que dicha información sea útil en sus procesos organizacionales y de negocio, e incluso porqué no, buscan convertir la información en conocimiento relacionado con su actividad.
El cómo llegar a trasladar datos en información e información en conocimiento es parte de una nueva aportación del mundo de las Tecnologías de la Información. Esta aportación se concreta en los conceptos de Data warehousing, data mining y data marting.
La prospección (o minería ) de datos utiliza técnicas de análisis y modelado estadístico para descubrir y mostrar patrones de comportamiento y relaciones escondidas en las bases de datos de las organizaciones.
Para ello utiliza dos tipos principales de modelos. Para el tipo predictivo se utilizan los datos junto a resultados ya conocidos para desarrollar un modelo que puede ser usado para predecir de forma explícita valores para distintos datos. Por el contrario el tipo descriptivo se basa en la descripción de patrones existentes en los datos almacenados, patrones que se usarán para ayuda a la toma de decisiones. Normalmente, aunque no es totalmente necesario, los modelos de prospección de datos provienen de lo que en jerga denominamos sistemas “Data warehouse”, que podríamos traducirlo por Centro de Información o Almacén Nodal de Información.( ¿Deberíamos empezar a utilizar el concepto de Geodata warehouse, como parte fundamental de todos los procesos de integración de datos, información y conocimiento?). Definimos un data warehouse como una metodología (nunca una herramienta), cuyo objetivo es ayudarnos a almacenar la información de manera racional para la ayuda a la toma de decisiones.

Lisbeth dijo...
Este comentario ha sido eliminado por el autor.
Lisbeth dijo...
Este comentario ha sido eliminado por el autor.
Lisbeth dijo...
Este comentario ha sido eliminado por el autor.