Importancia y usos de Data Science e Inteligencia Artificial
Glosario
- Base de datos
OLAP:
- Acrónimo en ingles de Procesamiento analítico en linea.
Online Analaytical Processing
- Son bases de datos especializadas para generar consultas de grandes
cantidades de datos.
- Base de datos
OLTP:
- Procesamiento de transacciones en linea.
Online Translation Processing
- Se enfocan al registro y actualización de datos.
- Se usan generalmente en aplicaciones donde se encuentran los datos
que necesitan estas mismas.
- Computo en la nube:
- Servicios para almacenar, administrar y procesar datos, servidores,
bases de datos, redes y software.
AWS, Google Cloud Plataform, Azure.
Data pipeline:
- Es un proceso donde con diferentes tecnologías movemos y procesamos
datos.
- Se usan para mover datos de bases de datos
OLTP a OLAP.
Data Science:
- Es un campo que involucra métodos científicos, procesos y sistemas
para obtener información.
- A través de análisis de datos y
machine learning.
ETL:
Extract, Transform, Load.
- Es un tipo de
pipeline de datos donde extraemos datos de diversas
fuentes.
- Los transformamos para poder almacenarlos y los cargamos en bases de
datos especializadas para analítica.
Insights
- Información de valor.
- Es la información que se ha obtenido después de analizar datos.
- Generalmente sirve para tomar una decisión de negocio o generar
estrategias en una organización.
- Inteligencia Artificial:
- Es inteligencia expresada por máquinas.
- Algoritmos que hacen que las máquinas aprendan bajo repetición para
emular la inteligencia natural.
- Para ello reconocen patrones en grandes cantidades de datos.
- Limpieza de datos:
- Cuando se descubren datos erróneos o faltantes en una tabla o base
de datos y se corrigen o eliminan.
Machine Learning:
- Aprendizaje automático.
- Es una rama de la inteligencia artificial.
- Su objetivo es que las computadoras aprendan.
- Las computadoras observan grandes cantidades de datos y construyen
un modelo capaz de generar predicciones para resolver problemas.
- Modelo Machine:
- Es la salida de información que se genera cuando se entrena un
algoritmo de
machine learning.
- Después del entrenamiento podemos darle nuevos datos similares y
obtener una predicción de salida.
- Transformar datos:
- Implica separar datos, limpiar datos nulos, agregar nuevas columnas
con nueva información, e incluso cambiarles el formato.
Qué es data Science?
- El proceso de descubrir información valiosa de los datos.
- Para:
- Tomar decisiones y crear estrategias de negocio.
- Crear productos de software más inteligentes y funcionales.
- De que trata el proceso:
- Obtención de datos
- Transformar y limpiar los datos.
- Explorar, analizar y visualizar los datos.
- Usar modelos de
machine learning (Opcional).
- Integrar datos e IA a productos de software.
- El proceso entre proyecto a proyecto cambia poco.
- El proceso es el método científico aplicado a los datos.
- Es un proceso iterativo.
Qué es Inteligencia Artificial y su diferencia con data science
- Son algoritmos para emular nuestra inteligencia natural.
- Reconocen patrones en grandes cantidades de datos.
- La IA solo va a hacer lo que nosotros la entrenemos que haga (
one trick pony).
Machine learning
- Una rama de la inteligencia artificial.
- Proceso de integrar
machine learning a un producto:
- Obtener Datos de entrenamiento
- Validación de los datos.
- Preparación de los datos
- Entrenamiento de modelo.
- Evaluación de modelo.
- Validación de modelo.
- Despliegue de modelo.
Data Science + IA
- En el proceso de data science utilizamos inteligencia artificial
como una de sus herramientas.
Qué es Big Data? Cuál es su diferencia con Data Science?
- Grandes volúmenes de datos muy variados y muy veloces.
- Resulta complicado procesarlos con métodos tradicionales.
- Las 5 V de
Big Data:
- Volumen:
- El almacenamiento de la masiva cantidad de datos que pueden ser
recolectados de múltiples fuentes.
- Velocidad:
- Los datos se generan en tiempo real gracias a las interacciones
con las fuentes mencionadas.
- Deben de ser procesados con la misma velocidad.
- Variedad:
- Todo tipo de datos, ya sea estructurados o no estructurados.
- Veracidad:
- Es la calidad y la confiabilidad de los datos.
- Valor:
- Los datos deben poder proporcionar un valor o beneficio a la
empresa que los esta usando.
- Procesamiento de
Big Data
- Se procesa al dividirla en partes pequeñas en varias máquinas.
- Tecnologías como
Spark, Hadoop y servicios de computo en la
nube.
Data Science + IA + Big Data
Big data es la materia prima que podemos usar en data science
para hacer análisis mas exhaustivos.
- Incluso podemos usar
machine learning en ese mismo proceso para
perfeccionar y evaluar los algoritmos de IA que creemos.
Áreas de aplicación de Data Science e Inteligencia Artificial
- Ramas de
IA
Machine Learning.
Deep Learning.
RPA.
- Visión artificial.
- Procesamiento de lenguaje natural.
- Robótica.
- Áreas de Aplicación de
data science
- Salud.
- Procesos productivos.
- Procesos comerciales.
- Redes sociales.
Roles en la industria: Cómo funcionan los equipos de datos e inteligencia artificial
- Roles de la industria:
Data Scientist.
Data Analyst.
Data Engineer.
Machine Learning Engineer.
- No se puede empezar a implementar modelos de
machine learning sin
antes tener una Cultura data-driven.
- Necesidades de
Data Science.
- Es el orden de las etapas que las empresas deben seguir para su
desarrollo en la cultura
Data-Driven.
- Recolección de datos:
- Instrumentación.
Logging (creación de cuentas de los usuarios).
- Sensores.
- Datos Externos.
- Contenido Generado por el usuario.
- Movimiento y Almacenamiento:
- Datos Confiables.
- Flujo.
- Infraestructura.
Pipelines.
ETL (Extract, Transform, Load).
- Datos estructurados (que ya están organizados o clasificados
por alguna estructura estándar).
- Datos no estructurados (datos que están sueltos).
- Exploración y transformación:
- Limpieza.
- Detección de anomalías.
- Preparación.
- Agregaciones y etiquetado:
- Estadísticas.
- Métricas (Las medidas de una actividad en concreto).
- Segmentación
- Agregaciones.
- Características.
- Entrenamiento de datos.
- Aprendizaje y optimización:
- Pruebas A/B Wiki
- Experimentación.
- Algoritmos Simples de
ML.
- Inteligencia Artificial.
Deep Learning.
Data Analyst
Qué hace un Data Analyst?
- Utiliza los datos para obtener
Insights.
- Extrae datos recolectados, los analiza y reporta los resultados con
gráficos y tableros.
- Día a día:
- Identifica necesidades de información.
- Extraer datos de Fuentes con
SQL y python.
- Limpiar y organizar los datos.
- Analizar los datos
- Comunicar los hallazgos en tableros o
dashboards.
- Flujo de trabajo:
- Problema o pregunta.
- Exploración y
queries.
- Recopilar información de valor.
- Crear visualizaciones de la información.
- Comunicar hallazgos.
- Roles relacionados:
Business Analyst
- Persona que tiene conocimientos más profundos con el negocio.
Data visualization specialist
- Especialistas en presentar datos y resultados.
Herramientas y tecnologías para Data Analyst
- Bases de datos
SQL.
- Software de visualización de datos como
Power BL y Tableau.
Excel y Google Sheets.
- Programación con
Python o R.
Jupyter Notebooks.
Pandas, Matplotlib, Numpy.
- Probabilidad y Estadística descriptiva.
Data Scientist
Qué hace un Data Scientist?
- Toma datos y los utiliza para crear modelos de
machine learning
- Toma decisiones basadas en datos.
- Incorpora datos a los productos de software.
- Día a día:
- Obtener, limpiar y procesar.
- Diseñar y utilizar modelos de
machine learning.
- Monitorear la precisión de los datos.
- Automatizar los proceso de recolección y transformación de datos
- Crea reportes de información en tableros.
- Incorpora datos a los productos.
Herramientas y tecnologías para Data Scientist
- Programación con
Python o R.
Jupyter Notebooks.
Pandas, Matplotlib, Numpy.
- Algoritmos y librerías de
machine learning como
scikit-learn, tensorflow.
- bases de datos
SQL y NoSQL.
- Matemáticas:
- Álgebra.
- Estadística descriptiva e inferencial.
- Probabilidad.
- Álgebra lineal.
- Cálculo.
Data Engineer
Qué hace un Data Engineer
- El toma los datos crudos, los limpia y los almacena en una base de
datos.
- Trabaja para que el equipo tenga datos para el análisis.
- Crea
Pipelines ETL.
- Extracción transformación y carga.
- Día a día:
- mantiene y crea
Data Pipelines y bases de datos.
- Extrae datos de diferentes fuentes.
- Transforma los datos para el análisis.
- Los guarda en bases de datos especializadas para análisis.
- Bases de datos
OLAP no transaccionales(OLTP).
- Crear automatizaciones pare el
ETL.
- Proceso
ETL:
- Extraer:
- Archivos.
- Bases de datos (
OLTP).
APIs
- Transformar
- Cargar (
load).
- los guardamos en
Data Warehouse (OLAP).
- Roles Relacionados:
Data Architect:
- Se encarga de plantear las estrategias de datos de la
organización.
Big Data Architect:
Herramientas y tecnologías para Data Engineers
- Programación con
Python y bases de ingeniería de software.
Linux.
- Automatización y
Scripting.
Jupyter Notebooks y editores de código.
- Bases de datos SQL y NoSQL.
Pandas, Dask y Apache Spark.
Airflow.
- Tecnologías
Cloud (AWS, Azure).
- Contenedores
Docker.
- Orquestadores
Kubernetes.
- Matemáticas:
Machine Learning Engineer
Qué hace un Machine Learning Engineer
- El encargado de recibir el modelo de un
Data Scientist e integrarlo
a producción.
- Crear productos basados en IA.
- Escalar modelos de IA.
- Día a día:
- Generar una evaluación extensiva de métricas de modelos de
machine learning.
- Construir, escalar y robustecer sistemas de
machine learning que
funcionen en producción.
- Colaborar con
Data Scientist y otras áreas de ingeniería de
software.
- Monitorear el desempeño de los sistemas de
machine learning.
Herramientas y tecnologías para Machine Learning Engineer
- Programación avanzada con
Python, java y C++.
- Bases sólidas de ingeniería en software.
Jupyter Notebooks
Pandas, Numpy, Matplotlib, Seaborn
- Uso extensivo de
frameworks y librerías de machine learning.
Flask o FastAPI.
- Tecnologías
Cloud.
- Contenedores
Docker.
Kubernetes.
- Matemáticas:
- Estadística descriptiva e inferencial.
- Probabilidad.
- Álgebra lineal.
- Cálculo.