El subreddit r/dataisbeautiful (los datos son hermosos) le hace honor a su nombre. Desde tendencias globales, de Internet o hasta problemas sociales, esta comunidad es muy completa y utiliza visualizaciones fáciles de entender que transmiten eficazmente información, que de otro modo sería compleja. Cada gráfico, tabla o mapa tiene el potencial de descubrir patrones, revelar correlaciones o arrojar luz sobre diversos temas. No es de extrañar que, a día de hoy, más de 19 millones de personas sean miembros de esta comunidad.
Si a veces creen que la vida es demasiado difícil de comprender, esperamos que esta lista los haga sentir al menos un poco más tranquilos sabiendo que incluso las cosas más complejas pueden ser resumidas en una hermosa visualización.
Para conocer más sobre datos y análisis de datos, Panda Curioso se puso en contacto con Matthew Mayo, científico de datos y redactor jefe de KDnuggets, la destacada fuente de recursos en línea sobre ciencia de datos, aprendizaje automático, inteligencia artificial y análisis.
Más información: kdnuggets.com | Linkedin | Twitter | Instagram | Facebook
This post may include affiliate links.
La proporción de mujeres latinoamericanas que asisten a la universidad ha aumentado 14 veces en los últimos 50 años. La proporción de hombres está aproximadamente diez años por detrás de la de las mujeres
Matthew se interesa por el procesamiento del lenguaje natural, el diseño y la optimización de algoritmos, el aprendizaje no supervisado y los enfoques automatizados para el aprendizaje automático. Posee títulos de grado y posgrado en ciencias de la computación y posgrado en minería de datos.
Para aprender más sobre datos, nos pusimos en contacto con Matthew para hacerle algunas preguntas relacionadas con el tema. Teníamos curiosidad por saber cómo los analistas de datos pueden identificar y abordar eficazmente la calidad de datos en grandes conjuntos. Él nos respondió: “Los problemas de la calidad de los datos en grandes conjuntos es una de las principales preocupaciones en el campo del análisis, y aún más con los conjuntos de datos cada vez más grandes que seguimos acumulando. Los analistas de datos pueden identificar y abordar de manera efectiva los problemas de calidad de datos en grandes conjuntos mediante la aplicación de algunas de estas estrategias. La elaboración de perfiles de datos implica el análisis estadístico y la evaluación de los datos en cuanto a coherencia, originalidad y lógica para comprender la calidad de los datos; esto se puede utilizar para obtener una visión general preliminar útil de los datos. La limpieza de datos implica detectar, corregir o eliminar datos corruptos, inexactos o inconsistentes de un conjunto de datos; esto ayuda a eliminar explícitamente los puntos de baja calidad del conjunto de datos. Técnicas como la imputación de datos se pueden utilizar para completar valores faltantes. La validación de datos implica verificar si los datos cumplen con los requisitos específicos, reglas o normas para garantizar la calidad y confiabilidad de los datos. Esto puede asegurar que los puntos de datos individuales estén dentro del ámbito de los esperado o lo coherente”.
Estas pocas estrategias, aunque son solo un pequeño subconjunto de las disponibles para ayudar a los analistas a identificar y abordar los problemas de calidad de los datos en grandes conjuntos, pueden llevarlos muy lejos en el camino hacia datos de calidad si se emplean correctamente. En conclusión: un analista dedica la mayor parte de su tiempo a comprender los datos, en gran parte para garantizar su calidad.”
