«BIG DATA», EL VALOR MÁS ALLÁ DE LOS DATOS

Academia Mexicana de Ciencias
Boletín AMC/224/16
Ciudad de México, 3 de octubre de 2016

Este conjunto de datos permite nuevas y mejores formas de procesar la información, tiene ventajas en cuanto a velocidad, costos de implementación, escalabilidad y flexibilidad.
Big data implica un nuevo paradigma en el uso estratégico del análisis de datos para la busca la obtención de información valiosa en la toma de decisiones: Fabián García Nocetti.

: El trabajo “Estado de Ánimo de los tuiteros en México”, que utilizó herramientas y procesos big data, se centró en 63 millones de tuits al interior del país de febrero de 2014 al 15 de mayo de 2015, con lo que pudo presentar el estado de ánimo de los tuiteros por estado y por mes.
Foto: revoluciontrespuntocero.com
Galería de imágenes

En una era caracterizada por la abundancia de datos ha surgido la necesidad de extraer de la información patrones, tendencias y conocimiento que permitan tomar decisiones, para lo cual los métodos tradicionales de procesamiento de datos han tenido que evolucionar con el principal fin de suministrar respuestas, en ocasiones en tiempo real, y al menor costo posible. A este fenómeno se le ha llamado big data.

El doctor Fabián García Nocetti, del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas de la Universidad Nacional Autónoma de México (UNAM), explicó que big data se origina por la explosión en la cantidad —velocidad y frecuencia — y diversidad de datos digitales generados en tiempo real como resultado de la presencia de la tecnología en las actividades diarias, por lo que big data puede definirse como un conjunto de datos cuyo tamaño está más allá de la capacidad de las herramientas de software y de bases de datos típicas para capturar, almacenar, gestionar y analizar información.

Así, cuando hablamos de algunas de las características del big data se pueden mencionar el volumen, la variedad y la velocidad; además se emplean tecnologías, métodos, técnicas y paradigmas que apoyan la solución de problemas relacionados con datos de forma diferente y de manera más adecuada que los métodos tradicionales. “Big data también permite nuevas y mejores formas de procesar la información y tiene ventajas sobre los enfoques tradicionales, en cuanto a velocidad, costos de implementación, escalabilidad y flexibilidad. Además, big data implica un nuevo paradigma en el uso estratégico del análisis de datos, que busca la obtención de información valiosa en la toma de decisiones”

Entre los sectores que aprovechan el big data están el comercio electrónico, la salud o la ciencia —física, bioinformática, astronomía, genética—. El constante avance de las tecnologías ha permitido el crecimiento explosivo de la cantidad de datos generados desde diferentes fuentes como son las redes sociales, los sensores, las máquinas de rayos X, los telescopios, las sondas espaciales, los sistemas de predicción de clima, etcétera.

Entonces, “además del volumen, la variedad y la velocidad, lo verdaderamente relevante es el valor, ya que la generación de datos no es lo importante, en cambio sí lo es el conocimiento que se puede generar a través de ellos”, señaló el presidente de la Academia Mexicana de Informática y miembro de la Academia Mexicana de Ciencias.

El estado de ánimo de los tuiteros mexicanos
Durante la conferencia “Big data”, que ofreció el doctor García Nocetti en el marco de la Reunión General de la Academia Mexicana de Ciencias Ciencia y Humanismo II, hizo referencia a un estudio en el que se utilizó big data. Se trata del trabajo “Estado de Ánimo de los tuiteros en México”, el cual se centró en 63 millones de tuits al interior del país de febrero de 2014 al 15 de mayo de 2015.

En esta investigación se conformó un grupo de trabajo multidisciplinario para construir el mapa del estado de ánimo de los tuiteros; la labor se llevó a cabo con personal del INEGI, INFOTEC y Centro Geo, también se contó con el apoyo del Positive Psychology Center de la Universidad de Pennsylvania, así como de la Universidad Tec Milenio y su Instituto de Ciencias de la Felicidad.

Para poder generar estadísticas a nivel estatal del ánimo de los tuiteros, se realizó un análisis geográfico de cada tuit georreferenciado (que tenía las coordenadas geográficas de su ubicación en el momento de su publicación), y se le asignó el código geoestadístico del estado y el municipio desde donde se emitió el tuit.

Además, fue necesario calificar cada tuit de acuerdo a la carga emotiva que tenía el tuitero en el momento de escribirlo, para esto se utilizaron técnicas de Machine Learning o aprendizaje automático, cuyo objetivo es desarrollar programas capaces de aprender basados en la experiencia.

El proceso requirió primero la clasificación manual de un subconjunto de tuits en la que se asignó una etiqueta —positiva, negativa o neutra— de acuerdo a la carga emotiva de cada tuit. Más de cinco mil estudiantes de la Universidad Tec Milenio etiquetaron manualmente miles de tuits; cabe destacar que cada tuit fue presentado múltiples veces a los estudiantes con la finalidad de que un solo tuit pudiera ser etiquetado varias veces y lograr consenso en la etiqueta.

Posteriormente, a los tuits etiquetados se les realizó un proceso analítico de limpieza, por ejemplo, se identificaron y eliminaron los tuits con etiquetas inconsistentes, se desecharon contradicciones y repeticiones, y se identificaron aquellos tuits con mayor consenso en su etiqueta, así como aquellos etiquetados por estudiantes con mayor número de consistencias en el momento de asignar etiquetas a los tuits.

Una vez que los tuits fueron “limpiados” se conformaron dos grupos, uno que incluyó el 89% de los tuits para utilizarlo como conjunto de entrenamiento y otro como conjunto de validación, el cual sirve para verificar la calidad de la clasificación realizada automáticamente utilizando distintos algoritmos de aprendizaje estadístico.

Estos algoritmos, desarrollados con la aplicación de técnicas de inteligencia artificial por los Investigadores de INFOTEC y de Centro Geo, fueron integrados en un mecanismo de “ensamble”, con lo que se aprovecha lo mejor de cada algoritmo logrando un 70% de acierto en el etiquetado de los tuits.

Una vez entrenado el programa de ensamblado de algoritmos, se procesaron todos los tuits restantes, lo que permitió su clasificación automatizada. Finalmente, se desarrolló una herramienta que a partir de la clasificación de los 63 millones de tuits representara gráficamente el estado de ánimo de los tuiteros en México por estado y por mes.

Para más información de este estudio, así como del “Mapa del estado de ánimo de los tuiteros en México” consultar el siguiente link:

https://www.infotec.mx/es_mx/infotec/laboratorio_de_analitica_big_data

Noemí Rodríguez González.

«BIG DATA», EL VALOR MÁS ALLÁ DE LOS DATOS

A 50 años de la llegada del ser humano a la Luna

El legado del Programa Apolo

Katherine Johnson y los cálculos que hicieron posible la llegada a la Luna

Pedazos de Luna en México