fbpx
Ciencia de datos

Las matemáticas usadas en ciencia de datos ¿Cuáles son?

Según profesionales de la ciencia de datos como el youtuber “Luigi Analytics”, esta pregunta da para una respuesta bastante amplia, y precisamente por esto es común ver como se comete el error de asegurar que necesitas ser un erudito de las matemáticas para incursionar en este mundo.

Por otro lado también destaca el extremo que se va muy a la ligera a la hora de responder, asegurando que ya las herramientas disponibles hacen que los conocimientos necesarios sean mínimos. No obstante, es crucial no caer en ninguno de estos dos extremos. Luigi resume la respuesta en tres aspectos fundamentales: Álgebra lineal, cálculo y estadística (descriptiva, probabilidad y estadística inferencial).

¿Qué es la ciencia de datos?

Antes de entrar de lleno al meollo de todo este tema, es necesario tener claro qué es la ciencia de datos. En cuanto a esto, el equipo de Amazon Web Services aporta una definición bastante certera al respecto:

La ciencia de datos es el estudio de datos con el fin de extraer información significativa para empresas. Es un enfoque multidisciplinario que combina principios y prácticas del campo de las matemáticas, la estadística, la inteligencia artificial y la ingeniería de computación para analizar grandes cantidades de datos. Este análisis permite que los científicos de datos planteen y respondan a preguntas como “qué pasó”, “por qué pasó”, “qué pasará” y “qué se puede hacer con los resultados.

Diferentes requisitos para diferentes roles

Luigi Analytics, que se desempeña como científico de datos aplicado a industrias, afirma que existe una extensa variedad de roles dentro de la ciencia de datos, por ejemplo: Analista de datos, Analista de BI (Business intelligence analyst), Data Engineer y muchos más. Dependiendo del rol a aplicar, los conocimientos necesarios van a variar. Por ejemplo, para un Data Engineer la parte de estadística no sería el foco principal, sino que se enfocará en la programación.

Expresa que para un Analista de datos o un Analista de BI, hace falta una base sólida en estadística y aunque necesita tener conceptos generales sobre álgebra lineal y cálculo, no requerirá un nivel tan alto en comparación con un científico de datos.

Por otro lado, respecto al científico de datos, menciona que si necesitará un nivel relativamente alto de álgebra lineal, cálculo y estadística, pues dependiendo de su rama, podría trabajar con modelos de machine learning, donde las matrices y los vectores se harán sentir. Por no mencionar los modelos de optimización, que requieren bases sólidas de cálculo.

Respecto a los científico de datos (como bien asomó antes) hay también diferentes ramas/enfoques que hacen que esos requerimientos también puedan llegar a tener ciertas diferencias. Dentro de estas ramas hay dos que destacan bastante y son: Científico de datos aplicado a industrias (donde Luigi se desempeña) y el que se aplica a la investigación (Data scientist research).

Basado en su experiencia, Luigi asegura que el científico de datos aplicado a industrias se caracteriza por el uso de modelos ya implementados en diferentes librerías, siendo estos modelos parte de las herramientas para solucionar problema de negocios. Evidentemente necesitan saber de álgebra, cálculo y estadística, sin embargo, no al nivel de aquel que se enfoca en la investigación.

En cambio, para los Data scientist research, las cosas son un poco más complicadas por el hecho de que su tarea consiste en crear algoritmos desde cero, escribir sus propias fórmulas y llevar a cabo diferentes diferentes implementaciones de optimización.

¿Toda esta matemática para qué?

Sea cual sea la rama de la ciencia de datos que se aborde, las matemáticas están presentes, pero, a todas estas, ¿Cuáles son las funciones que debe cumplir un científico de datos? El equipo de IBM lista las siguientes:

  • Conocer lo suficiente sobre el negocio para hacer preguntas pertinentes e identificar los puntos débiles de la empresa.
  • Aplicar las estadísticas y la informática, junto con la perspicacia comercial, al análisis de datos.
  • Utilizar una amplia variedad de herramientas y técnicas para preparar y extraer datos, desde bases de datos y SQL hasta minería de datos y métodos de integración de datos.
  • Extraer insights de big data mediante analítica predictiva e inteligencia artificial (IA), incluyendo modelos de machine learning, procesamiento de lenguaje natural, y deep learning.
  • Escribir aplicaciones que automaticen el proceso de datos y los cálculos.
  • Trazar (e ilustrar) relatos que transmitan claramente el significado de los resultados a los tomadores de decisiones y los stakeholders en todos los niveles de conocimiento y comprensión técnica.
  • Explicar cómo se pueden usar los resultados para resolver problemas empresariales.
  • Colaborar con otros miembros del equipo de ciencia de datos, como analistas de datos y de negocio, arquitectos de TI, ingenieros de datos y desarrolladores de aplicaciones.

¿Dónde puedo aprender?

Existen diversidad de cursos online, tanto gratuitos como de pago, sin embargo, si estás buscando una ruta de aprendizaje que venga a acompañada de apoyo de una comunidad de aprendizaje, de profesionales dispuestos a responder tus dudas y ejercicios que pongan a prueba tus conocimientos adquiridos, te recomendamos esta.

La misma, en cuanto a la programación está basada en Python, lenguaje que según el equipo de IBM es uno de los lenguajes populares en los cuales los profesionales de la ciencia de datos confían para realizar análisis de datos exploratorios y regresión estadística.

Artículos relacionados

Respuestas