Los nuevos perfiles profesionales del Big Data y Analytics

Andrew Pole se encontraba en su escritorio, cuando dos personas de marketing llegaron a preguntarle: Queremos descubrir si una cliente está embarazada, incluso si ella no quiere que sepamos. ¿Puedes hacer eso?

Andrew siempre estuvo obsesionado con la intersección de los datos y el comportamiento humano, no tardó mucho en descubrir varios patrones en los datos para lograr su cometido. En su entrevista con el NY Times [1] él explica:

… Prueba tras prueba, analizando los datos, y en poco tiempo surgieron algunos patrones útiles. Lociones, por ejemplo. … estaban comprando grandes cantidades de loción sin perfume al comienzo de su segundo trimestre. … en algún momento de las primeras 20 semanas, las mujeres embarazadas compraron suplementos como calcio, magnesio y zinc. Muchos clientes compran jabón y bolas de algodón, pero cuando alguien de repente comienza a comprar mucho jabón sin olor y bolsas extragrandes de bolas de algodón, además de desinfectantes para manos y toallitas, indica que podrían estar llegando el arribo de la cigüeña.

A medida que las computadoras de Andrew rastreaban los patrones en los datos, se pudieron identificar unos 25 productos, que cuando se analizaron juntos, le permitieron asignar a cada compradora una puntuación de “predicción de embarazo“. Más importante aún, también se podía estimar la fecha en que llegaría la cigüeña, por lo que la tienda podía enviar cupones cronometrados a etapas muy específicas de su embarazo.

El estudio de Andrew y sus colegas tuvo un registro de un falso positivo. Le enviaron promociones de ropa para bebé a una adolescente de 17 años, por lo que su padre cuestionó a Target el motivo de la promoción. Entonces Target decidió revelar su secreto.

El Proceso de Generar Insights

En el bajo mundo de la ciencia de datos, denominamos a una recomendación que genera una ventaja competitiva como un insight. Si quieres desempeñarte profesionalmente en el glorioso mundo del Big Data y Analytics, debes tener claro tu objetivo.

La generación de Insights se puede generalizar en 5 pasos [2], a mí personalmente, me gusta agregar dos pasos extras:

 

 

  1. Recolección: Actividades relacionadas a la extracción, recolección y guardado de los datos.
  2. Obtención: Actividades referentes al fácil acceso a los datos, así como manipulaciones de señales.
  3. Limpieza: Actividades involucradas con la validación de los datos, así como descartar señales irrelevantes.
  4. Exploración: Actividades enfocadas en la visualización/presentación de los datos.
  5. Modelado: Actividades que generan una representación matemática de un proceso del mundo real.
  6. Interpretación: Actividades cuyos objetivos son facilitar la interpretación humana de un modelo matemático.
  7. Despliegue: Actividades que facilitan a todos los usuarios acceder a la interpretación del modelo.

Aunque la historia de Andrew pareciera ser una tarea de él solo, en realidad hay un equipo de muchas personas, y cada una de ellas jugó un papel muy importante al momento de generar esa recomendación, que derivó en una ventaja para Target.

Normalmente el tamaño del equipo está en función de que tan grande es el negocio. Si hablamos de una Startup, probablemente dos o tres personas hagan todo el proceso, y en los peores escenarios es una sola persona la que realiza todo (el Showman).  Pero si hablamos de un titán, como Amazon, ten por seguro que detrás de un insight hay al menos 10 personas, que a su vez coordinan a más personas.

Así que no te preocupes por no ser el Showman, y acompáñame a descubrir en donde puedes exportar tus habilidades en este proceso tan emocionante.

Recolección de Datos

Al hablar de recolección de datos, es imposible ignorar el Big Data, para abordar este tema me gusta citar el paper que Sergey Brin y Larry Page publicaron en 1998, en donde detallan el funcionamiento del buscador de Google [3]. En él puedes leer que en un fin de semana bajaron todo el Internet, unos 200 GBs aproximadamente, y al momento de tratar de manipular los archivos recolectados, se dieron cuenta que sus computadoras (de aquella época) no podían procesar toda esa cantidad de información. Y así acuñaron el término BigFiles.

 

Aunque hoy en día 200 GBs no parece mucha información, en 1998 eso era Big Data. Ahora bien, para ponerlo en términos simples: Big Data es el uso de herramientas y/o técnicas que permiten la manipulación de grandes volúmenes de información. Toma en cuenta que el Gran Colisionador de Hadrones en Ginebra genera 300 GBs por segundo, y son eventos relevantes filtrados [4]. Se estima que genera 27 Terabytes de información filtrada por día. En este punto el uso de Hadoop y Spark cobra sentido, pero ese será tema para otra ocasión.

Las tareas de recolección de datos, aunque parezcan simples, requieren mucho esfuerzo. Por ejemplo, si queremos sacar al mercado un refrigerador inteligente, que se conecte con la tienda para que te envíen tus consumibles conforme se vayan agotando, requerimos al menos tres profesionales:

  • Arquitectos de Software: Es la persona encargada en proponer el esquema de conexión entre el refrigerador en casa del consumidor y el centro de datos de la empresa, todo el proceso de punto a punto debe ser evaluado por este profesional. Si eres bueno para conectar sistemas que usan diferentes tecnologías este es tu lugar.
  • Ingenieros de Sistemas Embebidos: Es la persona que se dedica a conectar sensores, guardar lectura de señales y replicarlas en los centros de datos. Si te gusta el Internet of Things y eres bueno jugando con el GPIO de la Raspberry Pi aquí es donde tienes que estar.
  • Ingenieros de Datos: Esta persona se encarga de la lógica de almacenamiento de los datos, este rol guarda un super poder secreto, puesto que el ingeniero de datos puede acelerar el proceso de recuperación de información usando particiones en las bases de datos y optimizando las consultas. Imagina que puedes ahorrarte un segundo por registro en la base de datos, si tu consulta es de un millón de registros, habrás ahorrado un millón de segundos. Si te obsesionan los órdenes de complejidad computacional sin duda alguna aquí puedes hacer la diferencia.

Obtención de Datos

De acuerdo con la operación de los negocios, este proceso puede ser sencillo o complicado. Por ejemplo, si el negocio tiene una cultura de abrir los datos, te pueden dar acceso directo a la base de datos, de modo que un simple SELECT bastara para hacerte con los datos. Pero si el negocio es muy quisquilloso, lo más seguro es que te mande un lote de archivos que tu tendrás que Extraer, Transformar y Cargar (ETL por sus siglas en inglés). En el mundo real, todas las empresas son celosas de sus datos y necesitarás ayuda para correr el ETL en 30 GBs de archivos CVS. Los profesionales involucrados son:

  • Analistas ETL: Esta persona se dedica a seguir el proceso del ETL para proponer la plataforma y/o el motor de base de datos que se necesita. Requiere de conocimientos de sistemas operativos, creación de scripts, interconexión entre servidores y automatización de trabajos ETL. Si tu fuerte es la terminal de GNU/Linux y eres bueno haciendo scripts para automatizar tareas, tu lugar está aquí.
  • Ingenieros de Datos

Limpieza de Datos

A mi parecer esta es la tarea más crítica del proceso, pues muchas de las veces los insights que se dan los stakeholders no son los adecuados por la naturaleza del proceso. Por ejemplo, en Cadena de Suministro no le puedes decir a los ejecutivos que el principal problema con el incumplimiento en pedidos es la demanda de los clientes, es como si les dijeras que tienen que reducir su número de clientes para no tener problemas de producción, ¿ves qué tonto suena?.

Dependiendo de la naturaleza del proceso es el tipo de experto que te debe asesorar, hay expertos de: marketing, recursos humanos, físicos, actuarios, mecatrónicos, geólogos, psicólogos [5], etc.

La limpieza de datos tiene que ver con señales/eventos que se van a integrar al estudio, esta tarea normalmente está planeada por: Ingenieros de Datos, Científicos de Datos y los Expertos del Tema. Y dependiendo del volumen de los datos, puede ser ejecutada por Ingenieros de Datos (si es Big Data) o por Científicos de Datos (si es una colección pequeña).

En los últimos años, la sociedad ha tomado conciencia de que la información que es recolectada por las empresas puede llegar a invadir su privacidad. Por ejemplo, en el escándalo de Facebook con Cambridge Analytica, el gobierno de US tuvo que intervenir para asegurarse de que no se infringió ninguna ley, esto es denominado Data Governance. Las empresas tuvieron que generar un nuevo perfil:

  • Custodio de Datos: Esta persona tienen la responsabilidad de levantar la voz si encuentra una violación de privacidad en los datos que se están utilizando para realizar un estudio. Si te interesa el cumplimiento de las leyes de tu país, y tienes conocimientos de programación para auditar datos, no lo dudes más y forma parte del club de Edward Snowden.

Exploración, Modelado e Interpretación de los Datos

Pues sí, estas tres tareas las realiza el Científico de Datos, no por nada es el trabajo más sexy del siglo 21 [6]. Si alguna vez te preguntaste: ¿Tomar un curso de Machine Learning me convierte en un Científico de Datos?, déjame decirte que no es tan fácil.

La búsqueda de patrones en los datos no es una cosa nueva, data de 1986. En la década de los 90s se llamaba Business Intelligence. Una de las empresas que más aprovecho este término fue Oracle con su plataforma OLAP, la cual permitía generar reportes que ayudaban en la toma de decisiones [7]. En resumen, Oracle agregó un módulo que implementaba algunos algoritmos de Minería de Datos [8]: Anomaly Detection, Association, Decision Tree, Expectation Maximization, Generalized Linear Models, k-Means, Naive Bayes, Nonnegative Matrix Factorization, Orthogonal Partitioning Clustering, Singular Value Decomposition, Principal Components Analysis,y Support Vector Machine. Las personas encargadas en ejecutar estos algoritmos de llamaban Analistas de Datos.

En mayo de 2008, DJ Patil un matemático que trabajaba en LinkedIn, nerd de corazón, tenía ideas más avanzadas de cómo analizar el grafo de relaciones entre usuarios de la red social. La forma poco convencional de analizar el problema generó mucha atención y la industria se dio cuenta de que estas personas con formación científica tenían habilidades que podrían significar un fuerte diferenciador para el mercado. Así que Patil llamó a sus amigos en Facebook y juntos inventaron el título Científico de Datos.

Los Científicos de Datos son gente que maneja conceptos más complejos de los que puedes tomar en un curso de Machine Learning. Dada su formación, tiene una capacidad de abstracción muy alta, es decir que pueden modelar fácilmente un proceso de la vida real en términos matemáticos, de tal modo que el algoritmo de Machine Learning se convierte en una herramienta. Llegar a ese nivel de innovación es lo que todas las empresas están buscando hoy en día.

Por otro lado, en los últimos dos años las empresas han empezado a reclutar gente que hace Machine Learning para integrarlos en equipos colaborativos cuyo objetivo es generar insights, sin importar que tan innovadora sea la metodología que hay detrás. De modo que nos vemos en un panorama en que el Científico de Datos es reemplazado por Ingenieros en Machine Learning y Expertos. Siendo los Expertos quienes guían a los Ingenieros de Machine Learning. Y la cereza del pastel son Diseñadores UX, que aportan el impacto visual.

Así es que no te preocupes, toma ese curso de Machine Learning para abrirte camino como Científico de Datos y pon empeño en aprender a hacer un buen modelado.

Bajo estas tendencias, podemos destacar los siguientes perfiles profesionales:

  • Científico de Datos: Persona encargada en modelar el proceso del negocio para el descubrimiento de patrones que derivan en un insight. Si eres curioso por naturaleza, te gusta explicar el porqué de las cosas y sabes porqué el Random Forest genera una lista ponderada de los Features, mientras que el Naive Bayes no lo hace, entonces no esperes más, éste es tu lugar.
  • Ingeniero de Machine Learning: Persona que, bajo el asesoramiento del experto, aplica algoritmos de aprendizaje supervisado y/o no supervisado para modelar el proceso del negocio. Si eres un entusiasta del Machine Learning y recién empiezas en este camino, no dudes que este es un buen punto de partida.
  • Artista de Datos: Persona encargada en generar reportes/infografías que harán un resumen del proceso de modelado y mostrarán el insight de manera simple a los usuarios. Si compartes la misma pasión por el diseño y los datos, no dudes en que puedes marcar la diferencia si cuentan contigo.
  • Gerente de Proyectos Analíticos: Persona encargada en coordinar los desarrollos de analíticos, se encarga de traducir las necesidades de los stakeholders en acciones para el equipo de desarrollo de analíticos. Si te gusta identificar áreas de oportunidad al platicar con la gente y eres bueno traduciendo ideas a conceptos técnicos de Machine Learning, sin duda este es tu lugar.

Despliegue de Analíticos

Una vez que el insight es aprobado por los stakeholders, este debe ponerse al alcance de todos los usuarios que lo vayan a utilizar, para ello se pueden pensar en varias maneras de entrega, estas pueden ser: Mensajes SMS, mensajes de correo, notificaciones en el celular, PDFs del reporte que llegue por correo, un dashboard alojado en un sitio web, etc.

En el último año, un estándar de intercambio de modelos de Machine Learning ha abierto la posibilidad de inter-portar un modelo entrenado a casi cualquier plataforma, el formato de intercambio se llama ONNX [9]. Impulsado por grandes de la industria, promete entrenar tu modelo y servirlo en cualquier lugar. Esto abre un nuevo perfil profesional:

  • DevOps de Analíticos: Persona que se encarga de desplegar, mantener y monitorear la vida útil del modelo. Porque en la industria los grandes proyectos trabajan bajo iteraciones y es necesario ir mejorando las versiones. Si no tienes miedo a cambiar de plataforma (Cloud, Smartphone, Embebidos, etc.) y eres bueno programando en varios lenguajes, éste es tu lugar.

El Showman

Aunque parezca poco creíble, hay personas que cubren todas estas habilidades, es decir que ellas podrían desarrollar todo el proceso sin ayuda de nadie más. Este tipo de gente lleva muchos años en la industria y saben que tendencia está por entrar y cual está por salir. Así que prepárate bien, que el camino del Big Data y Analytics recién está en auge, y espero que en un futuro puedas desempeñarte en alguno de estos puestos profesionales:

  • Jefe de Consultoría de Analíticos: Experto en Analíticos a quien acudes cuando tienes alguna duda acerca de tu modelo. Por ejemplo, este profesional te puede decir que cambiar en tu modelo para reducir el overfiting o como transformar los features para mejorar la precisión de tu modelo. De igual modo te puede dar consejos de como cambiar el modelado para capturar de manera correcta el proceso del negocio.
  • Director de Analíticos: Experto que conoce muy bien el negocio, así como los datos que se tienen. Es capaz de proponer nuevos analíticos que se convertirán en servicios y/o productos. Dentro de sus responsabilidades está el dar seguimiento al mercado para saber qué es valioso para el negocio y qué no.

Acerca del Autor

Saul León Silverio es egresado de la Benemérita Universidad Autónoma de Puebla, durante la licenciatura y maestría participó en un grupo de investigación enfocado al Procesamiento del Lenguaje Natural, compitió con grupos de investigación de IBM, Yahoo y varias universidades alrededor del mundo. Actualmente trabaja en General Electric Infrastructure Querétaro, desarrollando modelos predictivos para optimizar la Cadena de Suministro.  En su tiempo libre, le gusta leer acerca de nuevas tecnologías, programar IoT y desarrollar Asistentes Digitales.

 

Referencias

1 https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=1&_r=1&hp

2 https://towardsdatascience.com/5-steps-of-a-data-science-project-lifecycle-26c50372b492

3 https://storage.googleapis.com/pub-tools-public-publication-data/pdf/334.pdf

4 https://es.wikipedia.org/wiki/Gran_colisionador_de_hadrones

5 https://www.youtube.com/watch?v=7831NGClsrM

6 https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

7 https://www.oracle.com/technetwork/es/articles/datawarehouse/o38olap-095164-esa.html

8 https://docs.oracle.com/cd/E55747_01/doc.41/e58114/algorithms.htm#DMRUG873

9 https://onnx.ai/

1
0
Share:

Post a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *