A principios de este
año leí un artículo “¿Qué es lo que IBM busca en un científico de datos?” que me convoco a mis inicios con conceptos y tecnologías
en la materia de estadística de la Facultad (CV271 Probabilidades y
estadística), como el Método de Montecarlo muy renombrado en esos añosi.
El rasgo fundamental más atractivo del método Monte Carlo es que
cambió el enfoque científico al momento de aproximarnos a los
problemas y obviamente también cambio nuestra manera de obtener las
soluciones a los problemas, utilizando las capacidades de los
emergentes sistemas de computación en esos años.
Así que, ¿qué es
lo que IBM busca en un científico de datos?
La introducción nos
permite entender que el tema de la analitica de datos no es nuevo
pero también nos muestra cuan poderosa y util es considerando su potenciamiento por la Inteligencia Artificial AI, a la vez que nos
contextualiza mejor el VALOR de los datos en un mundo altamente
informativizado y que YA tiene una gran cantidad de datos, BIG DATA,
proveniente de una infinidad de dispositivos computacionales y de
IoT (Internet de las cosas), aunque por ahora esta siendo poco
explotada, sin embargo son parte de una revolución que se esta generando; por ello es preciso que entendamos claramente algunos
otros conceptos esenciales como:
BIG DATA
El Big Data, mas
allá de su definición formal, ya tratada en este blog, en la vida
real trata sobre la monetización de datos como afirma Bill Schmarzo
en su paper “APPLYING
ECONOMIC CONCEPTS TO BIG DATA TO DETERMINE THE FINANCIAL VALUE OF THE
ORGANIZATION’S DATA AND ANALYTICS, AND UNDERSTANDING THE
RAMIFICATIONS ON THE ORGANIZATIONS’ FINANCIAL STATEMENTS AND IT
OPERATIONS AND BUSINESS STRATEGIES”ii,
trata de explotar las características únicas de los datos y
análisis como activos digitales para crear nuevas fuentes de valor
económico para la organización. La mayoría de los activos exhiben
una relación transaccional uno a uno. Por ejemplo, el valor
cuantificable de un dólar como activo es limitado: solo se puede
usar para comprar un artículo o servicio a la vez. Lo mismo ocurre
con los activos humanos, ya que una persona solo puede hacer un
trabajo a la vez. Pero medir el valor de los datos como un activo no
está limitado por esas limitaciones transaccionales. De hecho, los
datos son un activo inusual ya que exhibe un Efecto Multiplicador
Económico , por el cual nunca se agota o se desgasta y se puede usar
simultáneamente en múltiples casos de uso con un costo de margen
cercano a cero. Esto hace que los datos sean un activo poderoso en el
cual invertir.
CIENTÍFICO DE DATOS
En esta perspectiva,
¿qué es un Data Scientist (científico de datosiii)?,
hace algún tiempo atrás (2012), el Harvard Bussines Review, en un
artículo “Data Scientist: el trabajo más sexy del siglo XXI” decía que “… el rasgo dominante entre los científicos de datos
es una curiosidad intensa: un deseo de ir más allá de la superficie
de un problema, encontrar las preguntas en su corazón y destilarlas
en un conjunto muy claro de hipótesis que puedan probarse. Esto a
menudo implica el pensamiento asociativo que caracteriza a los
científicos más creativos en cualquier campo.
Por ejemplo, sabemos de un científico de datos que estudia un problema de fraude que se dio cuenta de que era análogo a un tipo de problema de secuenciación de ADN. Al unir esos mundos dispares, él y su equipo pudieron diseñar una solución que redujo drásticamente las pérdidas por fraude. Quizás está quedando claro por qué la palabra "científico" se ajusta a este papel emergente".
"Los físicos experimentales, por
ejemplo, también tienen que diseñar equipos, recopilar datos,
realizar experimentos múltiples y comunicar sus resultados. Por lo
tanto, las compañías que buscan personas que puedan trabajar con
datos complejos han tenido buena suerte al reclutar personas con
antecedentes educativos y laborales en las ciencias físicas o
sociales. Algunos de los mejores y más brillantes científicos de
datos son doctores en campos esotéricos como ecología y biología
de sistemas. George Roumeliotis, el jefe de un equipo de ciencia de
datos en Intuit en Silicon Valley, tiene un doctorado en astrofísica.
Un poco menos sorprendente, muchos de los científicos de datos que
trabajan en los negocios hoy en día recibieron capacitación formal
en informática, matemáticas o economía. Pueden surgir de cualquier
campo que tenga una fuerte información y un enfoque computacional.”
CIENCIA DE DATOS
¿Que es la ciencia
de datos?, en esencia, la ciencia que resuelve los problemas de
negocios, aplicando el método científico, y utilizando la
inteligencia artificial para crear predicciones y prescripciones y
para optimizar los procesos.
Hay mucho trabajo y experiencia en esta área, que reiteramos no es nueva, en la siguiente infografía de Dell que nos explica su metodología colaborativa de Data Science DEPPv, un proceso ágil e iterativo que evoluciona continuamente en alcance y complejidad a medida que los clientes internos maduran en sus capacidades avanzadas de análisis, aquí es clave la colaboración que puede generar el científico de datos, cuyo nivel de conocimiento del core del negocio no está, y posiblemente nunca lo esté, al nivel de las partes interesadas comerciales, y viceversa, las partes interesadas del negocio quizás nunca tendrán el nivel de comprensión de la ciencia de datos que tiene un científico de datos.
Con estos antecedentes podemos entender el requerimiento de IBM, y obviamente de las empresas de hoy: “la ciencia de datos necesita científicos de datos con experiencias y habilidades muy particulares; específicamente, personas con las experiencias y habilidades necesarias para ejecutar y completar proyectos de ciencia de datos”:
- Capacitación como científico, con maestría o doctorado,
- Experiencia en aprendizaje automático y estadísticas, con énfasis en la optimización de decisiones,
- Experiencia en R, Python o Scala,
- Capacidad para transformar y administrar grandes conjuntos de datos,
- Probada capacidad de aplicar las habilidades anteriores a los problemas empresariales del mundo real,
- Capacidad de evaluar el rendimiento del modelo y ajustarlo en consecuencia.
Podemos tener algunas diferencias u observaciones sobre estos requerimientos pero en líneas generales están las mas usuales e importantes.
EL APORTE DEL CÓDIGO ABIERTO Y SOFTWARE LIBRE
Hay que reconocer en esta área que esta transformando el mundo, asi como también en los requerimientos mencionados, la presencia fundamental de metodologías,
sistemas y aplicaciones del Código Abierto y Software Libre: las
citadas: “R” que es un entorno de software libre para computación y gráficos
estadísticos. Se compila y se ejecuta en una amplia variedad de
plataformas UNIX, Windows y MacOS; “Python”, es un
lenguaje de programación multi-paradigma . La programación
orientada a objetos y la programación estructurada son totalmente
compatibles, y muchas de sus características admiten la programación
funcional y la programación orientada a aspectos -incluso mediante
metaprogramación y metaobjetos (métodos mágicos)-); y “Scala”,
es un lenguaje conciso y de alto nivel que integra sutilmente
características de lenguajes funcionales y orientados a objetos, los
tipos estáticos de Scala ayudan a evitar errores en aplicaciones
complejas, y sus tiempos de ejecución de JVM y JavaScript le
permiten construir sistemas de alto rendimiento con fácil acceso a
enormes ecosistemas de bibliotecas; a las que hay que adicionar las
emblemáticas y también necesarias herramientas como TensorFlow (Biblioteca de código abierto para
aprendizaje automático, MachineLearning, a través de un rango de
tareas, que fué desarrollado por Google para satisfacer sus
necesidades de sistemas capaces de construir y entrenar redes
neuronales para detectar y descifrar patrones y correlaciones,
análogos al aprendizaje y razonamiento usados por los humanos.
Wikipedia).
Asimismo la
innovación esta presente pues cuando creiamos estar al día con
lenguajes como “Scala”, ya está ahí “Julia” (lenguaje de programación dinámico de alto
rendimiento y alto nivel para computación numérica. Proporciona un
compilador sofisticado, ejecución paralela distribuida , precisión
numérica y una extensa biblioteca de funciones matemáticas); o. Numba,
que tiene la capacidad de acelerar las aplicaciones con funciones
de alto rendimiento escritas directamente en Python. Con unas pocas
anotaciones, el código de Python orientado a matriz y matemático
pesado puede compilarse justo a tiempo JIT para las instrucciones de
máquina nativa, similar en rendimiento a C, C ++ y Fortran, sin
tener que cambiar de idioma o intérpretes de Python. Numba funciona
generando código de máquina optimizado utilizando la
infraestructura del compilador LLVM en tiempo de importación, tiempo
de ejecución o estáticamente (usando la herramienta pycc incluida).
y otros.
Es indudable todavía la presencia y el uso de competencias en el uso de herramientas propietarias en esta
área como MatLab y Gauss.
EL DESAFIO PARA LAS EMPRESAS
El quehacer concreto
que deben desarrollar las empresas de distinto tipo y magnitud tiene
que ver con lo que ya estan aplicando y aprovechando las
empresas líderes como Google, Facebook y otras que
han llegado a la conclusión que
pueden explotar los datos
y los procesos de analítica
de datos, para generar una
diferenciación comercial y
una ventaja competitiva respecto de la competencia y lograr ofrecer
un determinado producto/servicio, de una forma innovadora y/o enfocar mejor sus nichos de mercado; desarrollando una mejor
optimización
de sus procesos
empresariales
clave, como por citar un
ejemplo: reducir riesgos de
seguridad y cumplimiento; o,
descubrir nuevas oportunidades de monetización de
sus datos y crear un
compromiso más atractivo entre sus
clientes y socios. No
estamos descartando el aprovechamiento y el uso pertinente de
sistemas comerciales, como ERP, CRM, automatización de marketing y
ventas, etc, pero eso lo tienen todas las empresas y cuando mas sólo
nos equiparan a las demás empresas.
Por citar un ejemplo, "... cuando Facebook lanzó su oferta pública inicial de 2012,
destacó el valor financiero de los datos en el balance de la
empresa. Un usuario único valía $ 4 en Facebook y el valor agregado
de los datos que la empresa recabó de cada usuario único se valoró
en la hoja de
saldo de Facebook en casi $ 6,6 mil millones" (Wilson 2012)iv:
- Google: PageRank® y publicación de anuncios,
- Yahoo: orientación por comportamiento y reorientación,
- Facebook: publicación de anuncios y noticias,
- Apple: recomendaciones de iTunes®,
- Netflix: recomendaciones de películas,
- Amazon: "Clientes que compraron este artículo", pedidos 1-Click® y Supply Chain & Logistics,
- Walmart: pronóstico de la demanda, logística de la cadena de suministro y Retail Link®,
- Procter & Gamble: gestión de marcas y categorías,
- Logística de inventario crítica de Federal Express,
- American Express y Visa: Detección de fraude,
- GE: optimización de activos y optimización de operaciones (Predix®).
TALENTO HUMANO
Finalmente, y no por
menos importante, las empresas deben hacer importantes inversiones en
su talento humano, especialmente en esta área tan escasa de ello,
Formación, Especialización y capacitación continua;
en la misma perspectiva, las Universidades deben -de una vez- renovar e
innovar su oferta académica de manera pertinente a la demanda de la sociedad y del
mercado profesional de hoy, ofreciendo áreas de estudio e
investigación en esta importante temática y que en el mundo tiene
las mejores remuneraciones y logros profesionales y personales.
-----------
iMETODO
DE MONTE CARLO. Se usa para aproximar expresiones matemáticas
complejas y costosas de evaluar con exactitud. Su uso como
herramienta de investigación, se remonta al desarrollo de la bomba
atómica en la Segunda Guerra Mundial (Laboratorio Nacional de los
Álamos-EEUU). En el método Monte Carlo se combinan conceptos
estadísticos como es el muestreo aleatorio, con la generación de
números aleatorios y la automatización de los cálculos. Es un
procedimiento matemático que consiste en la generación numérica
de series mediante un muestreo aleatorio de las distribuciones de
probabilidad. Es aplicable a cualquier tipo de problema, ya sea
estocástico o determinista.
La base probabilística del Método Monte
Carlo es la generación de una buena secuencia de números
aleatorios. Dos generadores aleatorios independientes deben
proporcionar estadísticamente el mismo valor promedio de salida y
han de ser independientes entre sí, e independientes del resto de
números aleatorios de la secuencia.
En 1927 tuvo lugar el primer intento de dotar
a los investigadores con un suministro de dígitos aleatorios,
cuando el Cambridge University Press publicó una tabla con 41.600
dígitos desarrollados por Leonard H.C. Tippet. Hasta ese momento,
los investigadores que necesitaban secuencias de números aleatorios
tenían que generarlos ellos mismos mediante el uso de dados,
ruletas,…(https://pmi-mad.org/index.php/socios/articulos-direccion-proyectos/807-metodo-monte-carlo-generacion-de-numeros-aleatorios-i)
iiSCHMARZO,
Bill, and Sidaoui Mouwafac. APPLYING
ECONOMIC CONCEPTS TO BIG DATA TO DETERMINE THE FINANCIAL VALUE OF
THE ORGANIZATION’S DATA AND ANALYTICS, AND UNDERSTANDING THE
RAMIFICATIONS ON THE ORGANIZATIONS’ FINANCIAL STATEMENTS AND IT
OPERATIONS AND BUSINESS STRATEGIES.
Department of Business Analytics and Information Systems,
University of San Francisco, septiembre 2017.
iiiEspecíficamente
nos referimos a Científicos de Datos, entendiendo que existen
también otros profesionales tan importantes que trabajan en roles
relacionado, por ejemplo: ingenieros de datos, analistas de negocios
y desarrolladores de aplicaciones AI Inteligencia Artificial.
ivWilson
2012. “Personal Data – Is it Truly an Asset?”,
www.unboundid.com
vDEPP:
Descriptive Analytics, análisis
descriptivo, para entender claramente lo que sucedió y cómo el
negocio está midiendo el éxito.
Exploratory Analytics para comprender
los factores financieros, comerciales y operativos detrás de lo que
sucedió.
Predictive Analytics para hacer la
transición de la mentalidad de las partes interesadas del negocio
para centrarse en la predicción de lo que es probable que suceda.
Prescriptive Analytics para identificar
acciones o recomendaciones basadas en las medidas de éxito
comercial y Predictive Analytics.
Comentarios
Publicar un comentario
Agradecemos tus comentarios.