Para entender mejor como podemos integrar a nuestra estrategia diferentes tecnologías en este articulo veremos la introducción a el proceso data mining
El data mining es una tecnología prometedora y relativamente nueva. Se define como un proceso de descubrimiento de conocimientos valiosos ocultos mediante el análisis de grandes cantidades de datos, que se almacenan en bases de datos o almacenes de datos, utilizando diversas técnicas en el proceso de data mining como el aprendizaje automático, la inteligencia artificial (IA) y la estadística.
Comprensión empresarial
En primer lugar, es necesario comprender claramente los objetivos comerciales y averiguar cuáles son las necesidades de la empresa.
A continuación, tenemos que evaluar la situación actual mediante la búsqueda de recursos, supuestos, limitaciones y otros factores importantes que deben considerarse.
Luego, a partir de los objetivos comerciales y situaciones actuales, necesitamos crear metas para lograr los objetivos comerciales dentro de la situación actual.
Finalmente, se debe establecer un buen plan de proceso de data mining para lograr los objetivos comerciales . El plan debe ser lo más detallado posible.
Comprensión de datos
Primero, la fase de comprensión de datos comienza con la recopilación de datos inicial, que recopilamos de las fuentes de datos disponibles, para ayudarnos a familiarizarnos con los datos. Se deben realizar algunas actividades importantes, incluida la carga de datos y la integración de datos, para que la recopilación de datos sea exitosa.
A continuación, las propiedades “brutas” o “superficiales” de los datos adquiridos deben examinarse cuidadosamente y notificarse.
Luego, los datos deben explorarse abordando las preguntas de minería de datos, que se pueden abordar mediante consultas, informes y visualización.
Finalmente, la calidad de los datos debe examinarse respondiendo algunas preguntas importantes como “¿Están completos los datos adquiridos?”, “¿Hay algún valor perdido en los datos adquiridos?”
Preparación de datos
La preparación de datos suele consumir alrededor del 90% del tiempo del proyecto. El resultado de la fase de preparación de datos es el conjunto de datos final. Una vez que se identifican las fuentes de datos disponibles, deben seleccionarse, limpiarse, construirse y formatearse en la forma deseada. La tarea de exploración de datos a mayor profundidad puede llevarse a cabo durante esta fase para notar los patrones basados en la comprensión empresarial.
Modelado
En primer lugar, se deben seleccionar técnicas de modelado para utilizarlas en el conjunto de datos preparado.
A continuación, se debe generar el escenario de prueba para validar la calidad y validez del modelo.
Luego, se crean uno o más modelos ejecutando la herramienta de modelado en el conjunto de datos preparado.
Finalmente, los modelos deben evaluarse cuidadosamente con la participación de las partes interesadas para asegurarse de que los modelos creados se cumplan con las iniciativas comerciales.