La revolución de la analítica y el aporte del Código Abierto


A principios de este año leí un artículo “¿Qué es lo que IBM busca en un científico de datos?” que me convoco a mis inicios con conceptos y tecnologías en la materia de estadística de la Facultad (CV271 Probabilidades y estadística), como el Método de Montecarlo muy renombrado en esos añosi. El rasgo fundamental más atractivo del método Monte Carlo es que cambió el enfoque científico al momento de aproximarnos a los problemas y obviamente también cambio nuestra manera de obtener las soluciones a los problemas, utilizando las capacidades de los emergentes sistemas de computación en esos años.

Así que, ¿qué es lo que IBM busca en un científico de datos?
La introducción nos permite entender que el tema de la analitica de datos no es nuevo pero también nos muestra cuan poderosa y util es considerando su potenciamiento por la Inteligencia Artificial AI, a la vez que nos contextualiza mejor el VALOR de los datos en un mundo altamente informativizado y que YA tiene una gran cantidad de datos, BIG DATA, proveniente de una infinidad de dispositivos computacionales y de IoT (Internet de las cosas), aunque por ahora esta siendo poco explotada, sin embargo son parte de una revolución que se esta generando; por ello es preciso que entendamos claramente algunos otros conceptos esenciales como:

BIG DATA

El Big Data, mas allá de su definición formal, ya tratada en este blog, en la vida real trata sobre la monetización de datos como afirma Bill Schmarzo en su paper “APPLYING ECONOMIC CONCEPTS TO BIG DATA TO DETERMINE THE FINANCIAL VALUE OF THE ORGANIZATION’S DATA AND ANALYTICS, AND UNDERSTANDING THE RAMIFICATIONS ON THE ORGANIZATIONS’ FINANCIAL STATEMENTS AND IT OPERATIONS AND BUSINESS STRATEGIESii, trata de explotar las características únicas de los datos y análisis como activos digitales para crear nuevas fuentes de valor económico para la organización. La mayoría de los activos exhiben una relación transaccional uno a uno. Por ejemplo, el valor cuantificable de un dólar como activo es limitado: solo se puede usar para comprar un artículo o servicio a la vez. Lo mismo ocurre con los activos humanos, ya que una persona solo puede hacer un trabajo a la vez. Pero medir el valor de los datos como un activo no está limitado por esas limitaciones transaccionales. De hecho, los datos son un activo inusual ya que exhibe un Efecto Multiplicador Económico , por el cual nunca se agota o se desgasta y se puede usar simultáneamente en múltiples casos de uso con un costo de margen cercano a cero. Esto hace que los datos sean un activo poderoso en el cual invertir.

CIENTÍFICO DE DATOS

En esta perspectiva, ¿qué es un  Data Scientist (científico de datosiii)?, hace algún tiempo atrás (2012), el Harvard Bussines Review, en un artículo “Data Scientist: el trabajo más sexy del siglo XXI” decía que “… el rasgo dominante entre los científicos de datos es una curiosidad intensa: un deseo de ir más allá de la superficie de un problema, encontrar las preguntas en su corazón y destilarlas en un conjunto muy claro de hipótesis que puedan probarse. Esto a menudo implica el pensamiento asociativo que caracteriza a los científicos más creativos en cualquier campo. 
Por ejemplo, sabemos de un científico de datos que estudia un problema de fraude que se dio cuenta de que era análogo a un tipo de problema de secuenciación de ADN. Al unir esos mundos dispares, él y su equipo pudieron diseñar una solución que redujo drásticamente las pérdidas por fraude. Quizás está quedando claro por qué la palabra "científico" se ajusta a este papel emergente". 

"Los físicos experimentales, por ejemplo, también tienen que diseñar equipos, recopilar datos, realizar experimentos múltiples y comunicar sus resultados. Por lo tanto, las compañías que buscan personas que puedan trabajar con datos complejos han tenido buena suerte al reclutar personas con antecedentes educativos y laborales en las ciencias físicas o sociales. Algunos de los mejores y más brillantes científicos de datos son doctores en campos esotéricos como ecología y biología de sistemas. George Roumeliotis, el jefe de un equipo de ciencia de datos en Intuit en Silicon Valley, tiene un doctorado en astrofísica. Un poco menos sorprendente, muchos de los científicos de datos que trabajan en los negocios hoy en día recibieron capacitación formal en informática, matemáticas o economía. Pueden surgir de cualquier campo que tenga una fuerte información y un enfoque computacional.”

CIENCIA DE DATOS

¿Que es la ciencia de datos?, en esencia, la ciencia que resuelve los problemas de negocios, aplicando el método científico, y utilizando la inteligencia artificial para crear predicciones y prescripciones y para optimizar los procesos.

Hay mucho trabajo y experiencia en esta área, que reiteramos no es nueva, en la siguiente infografía de Dell que nos explica su metodología colaborativa de Data Science DEPPv, un proceso ágil e iterativo que evoluciona continuamente en alcance y complejidad a medida que los clientes internos maduran en sus capacidades avanzadas de análisis, aquí es clave la colaboración que puede generar el científico de datos, cuyo nivel de conocimiento del core del negocio no está, y posiblemente nunca lo esté, al nivel de las partes interesadas comerciales, y viceversa, las partes interesadas del negocio quizás nunca tendrán el nivel de comprensión de la ciencia de datos que tiene un científico de datos.


Con estos antecedentes podemos entender el requerimiento de IBM, y obviamente de las empresas de hoy: “la ciencia de datos necesita científicos de datos con experiencias y habilidades muy particulares; específicamente, personas con las experiencias y habilidades necesarias para ejecutar y completar proyectos de ciencia de datos”:
  1. Capacitación como científico, con maestría o doctorado,
  2. Experiencia en aprendizaje automático y estadísticas, con énfasis en la optimización de decisiones,
  3. Experiencia en R, Python o Scala,
  4. Capacidad para transformar y administrar grandes conjuntos de datos,
  5. Probada capacidad de aplicar las habilidades anteriores a los problemas empresariales del mundo real,
  6. Capacidad de evaluar el rendimiento del modelo y ajustarlo en consecuencia.
Podemos tener algunas diferencias u observaciones sobre estos requerimientos pero en líneas generales están las mas usuales e importantes.

EL APORTE DEL CÓDIGO ABIERTO Y SOFTWARE LIBRE

Hay que reconocer en esta área que esta transformando el mundo, asi como también en los requerimientos mencionados, la presencia fundamental de metodologías, sistemas y aplicaciones del Código Abierto y Software Libre: las citadas: “R” que es un entorno de software libre para computación y gráficos estadísticos. Se compila y se ejecuta en una amplia variedad de plataformas UNIX, Windows y MacOS; “Python”, es un lenguaje de programación multi-paradigma . La programación orientada a objetos y la programación estructurada son totalmente compatibles, y muchas de sus características admiten la programación funcional y la programación orientada a aspectos -incluso mediante metaprogramación y metaobjetos (métodos mágicos)-); y “Scala”, es un lenguaje conciso y de alto nivel que integra sutilmente características de lenguajes funcionales y orientados a objetos, los tipos estáticos de Scala ayudan a evitar errores en aplicaciones complejas, y sus tiempos de ejecución de JVM y JavaScript le permiten construir sistemas de alto rendimiento con fácil acceso a enormes ecosistemas de bibliotecas; a las que hay que adicionar las emblemáticas y también necesarias herramientas como TensorFlow (Biblioteca de código abierto para aprendizaje automático, MachineLearning, a través de un rango de tareas, que fué desarrollado por Google para satisfacer sus necesidades de sistemas capaces de construir y entrenar redes neuronales para detectar y descifrar patrones y correlaciones, análogos al aprendizaje y razonamiento usados por los humanos. Wikipedia).

Asimismo la innovación esta presente pues cuando creiamos estar al día con lenguajes como “Scala”, ya está ahí “Julia” (lenguaje de programación dinámico de alto rendimiento y alto nivel para computación numérica. Proporciona un compilador sofisticado, ejecución paralela distribuida , precisión numérica y una extensa biblioteca de funciones matemáticas); o. Numba, que tiene la capacidad de acelerar las aplicaciones con funciones de alto rendimiento escritas directamente en Python. Con unas pocas anotaciones, el código de Python orientado a matriz y matemático pesado puede compilarse justo a tiempo JIT para las instrucciones de máquina nativa, similar en rendimiento a C, C ++ y Fortran, sin tener que cambiar de idioma o intérpretes de Python. Numba funciona generando código de máquina optimizado utilizando la infraestructura del compilador LLVM en tiempo de importación, tiempo de ejecución o estáticamente (usando la herramienta pycc incluida). y otros.

Es indudable todavía la presencia y el uso de competencias en el uso de herramientas propietarias en esta área como MatLab y Gauss.

EL DESAFIO PARA LAS EMPRESAS

El quehacer concreto que deben desarrollar las empresas de distinto tipo y magnitud tiene que ver con lo que ya estan aplicando y aprovechando las empresas líderes como Google, Facebook y otras que han llegado a la conclusión que pueden explotar los datos y los procesos de analítica de datos, para generar una diferenciación comercial y una ventaja competitiva respecto de la competencia y lograr ofrecer un determinado producto/servicio, de una forma innovadora y/o enfocar mejor sus nichos de mercado; desarrollando una mejor optimización de sus procesos empresariales clave, como por citar un ejemplo: reducir riesgos de seguridad y cumplimiento; o, descubrir nuevas oportunidades de monetización de sus datos y crear un compromiso más atractivo entre sus clientes y socios. No estamos descartando el aprovechamiento y el uso pertinente de sistemas comerciales, como ERP, CRM, automatización de marketing y ventas, etc, pero eso lo tienen todas las empresas y cuando mas sólo nos equiparan a las demás empresas.

Por citar un ejemplo, "... cuando Facebook lanzó su oferta pública inicial de 2012, destacó el valor financiero de los datos en el balance de la empresa. Un usuario único valía $ 4 en Facebook y el valor agregado de los datos que la empresa recabó de cada usuario único se valoró en la hoja de saldo de Facebook en casi $ 6,6 mil millones" (Wilson 2012)iv:
  • Google: PageRank® y publicación de anuncios,
  • Yahoo: orientación por comportamiento y reorientación,
  • Facebook: publicación de anuncios y noticias,
  • Apple: recomendaciones de iTunes®,
  • Netflix: recomendaciones de películas,
  • Amazon: "Clientes que compraron este artículo", pedidos 1-Click® y Supply Chain & Logistics,
  • Walmart: pronóstico de la demanda, logística de la cadena de suministro y Retail Link®,
  • Procter & Gamble: gestión de marcas y categorías,
  • Logística de inventario crítica de Federal Express,
  • American Express y Visa: Detección de fraude,
  • GE: optimización de activos y optimización de operaciones (Predix®).
En la ADMINISTRACIÓN PÚBLICA, para citar un sólo ejemplo, la Analítica de Datos ha sido empleada para: Planificación del transporte: cinco lecciones aprendidas sobre el terreno, estudio patrocinado por el BANCO MUNDIAL en Argentina, Buenos Aires; el BM ha respondido a la interrogante: ¿cómo podemos usar de manera sostenible los datos para la planificación? "El objetivo de los Gobiernos no debería ser acumular la mayor cantidad de datos, sino “convertir los datos en información, y la información en conocimientos”. (i) Esos conocimientos ayudarán a impulsar el mejoramiento de la planificación y de la formulación de políticas. ... En ese contexto, dirigimos el desarrollo de una herramienta que obtiene las matrices origen-destino de las tarjetas inteligentes del transporte público, y que nos ayuda a entender los patrones de movilidad de los habitantes de Buenos Aires. El proyecto apoyó también la creación de una aplicación para teléfonos inteligentes que sirve para recopilar datos de movilidad de alta resolución y que se puede utilizar para hacer participar a la ciudadanía en encuestas de movilidad dinámicas. Todo esto ha ayudado a modernizar el modelo de transporte del Área Metropolitana de Buenos Aires (AMBA). ... Cuando pensamos en cómo será el transporte en el futuro, una de las cosas principales que sabemos es que estará repleto de datos y respaldado por datos."

TALENTO HUMANO

Finalmente, y no por menos importante, las empresas deben hacer importantes inversiones en su talento humano, especialmente en esta área tan escasa de ello, Formación, Especialización y capacitación continua; en la misma perspectiva, las Universidades deben -de una vez- renovar e innovar su oferta académica de manera pertinente a la demanda de la sociedad y del mercado profesional de hoy, ofreciendo áreas de estudio e investigación en esta importante temática y que en el mundo tiene las mejores remuneraciones y logros profesionales y personales.

----------- 
iMETODO DE MONTE CARLO. Se usa para aproximar expresiones matemáticas complejas y costosas de evaluar con exactitud. Su uso como herramienta de investigación, se remonta al desarrollo de la bomba atómica en la Segunda Guerra Mundial (Laboratorio Nacional de los Álamos-EEUU). En el método Monte Carlo se combinan conceptos estadísticos como es el muestreo aleatorio, con la generación de números aleatorios y la automatización de los cálculos. Es un procedimiento matemático que consiste en la generación numérica de series mediante un muestreo aleatorio de las distribuciones de probabilidad. Es aplicable a cualquier tipo de problema, ya sea estocástico o determinista.
       La base probabilística del Método Monte Carlo es la generación de una buena secuencia de números aleatorios. Dos generadores aleatorios independientes deben proporcionar estadísticamente el mismo valor promedio de salida y han de ser independientes entre sí, e independientes del resto de números aleatorios de la secuencia.
       En 1927 tuvo lugar el primer intento de dotar a los investigadores con un suministro de dígitos aleatorios, cuando el Cambridge University Press publicó una tabla con 41.600 dígitos desarrollados por Leonard H.C. Tippet. Hasta ese momento, los investigadores que necesitaban secuencias de números aleatorios tenían que generarlos ellos mismos mediante el uso de dados, ruletas,…(https://pmi-mad.org/index.php/socios/articulos-direccion-proyectos/807-metodo-monte-carlo-generacion-de-numeros-aleatorios-i)
iiSCHMARZO, Bill, and Sidaoui Mouwafac. APPLYING ECONOMIC CONCEPTS TO BIG DATA TO DETERMINE THE FINANCIAL VALUE OF THE ORGANIZATION’S DATA AND ANALYTICS, AND UNDERSTANDING THE RAMIFICATIONS ON THE ORGANIZATIONS’ FINANCIAL STATEMENTS AND IT OPERATIONS AND BUSINESS STRATEGIES. Department of Business Analytics and Information Systems, University of San Francisco, septiembre 2017.
iiiEspecíficamente nos referimos a Científicos de Datos, entendiendo que existen también otros profesionales tan importantes que trabajan en roles relacionado, por ejemplo: ingenieros de datos, analistas de negocios y desarrolladores de aplicaciones AI Inteligencia Artificial.
ivWilson 2012. “Personal Data – Is it Truly an Asset?”, www.unboundid.com
vDEPP:
Descriptive Analytics, análisis descriptivo, para entender claramente lo que sucedió y cómo el negocio está midiendo el éxito.
Exploratory Analytics para comprender los factores financieros, comerciales y operativos detrás de lo que sucedió.
Predictive Analytics para hacer la transición de la mentalidad de las partes interesadas del negocio para centrarse en la predicción de lo que es probable que suceda.
Prescriptive Analytics para identificar acciones o recomendaciones basadas en las medidas de éxito comercial y Predictive Analytics.

Comentarios