Representación gráfica: la relación entre eficacia y ética
Robert Spence, profesor emérito del Imperial College de Londres, escribió una vez que la visualización de información no es algo que suceda en la página de un diario o en la pantalla de un ordenador. La visualización ocurre en el cerebro del lector-usuario; el diseñador es aquel profesional encargado de crear herramientas (infográficos) que facilitan ese proceso. Cuando damos forma visual a números y fenómenos, ayudamos a que el lector genere mapas mentales basados en ellos.
Varios colorarios: primero, la calidad de un gráfico depende de lo bien que cumpla ese objetivo, como vimos en el post anterior. Segundo, siempre que exista evidencia sobre la eficacia de un método de representación, el diseñador debe guiarse por ella y olvidarse de intuiciones, gustos y modas. Tercero, la decisión sobre qué gráfico usar para cada historia es una cuestión ética: una forma inadecuada de codificar datos conducirá al cerebro del lector a crear mapas mentales que no se corresponden con la realidad.
El VIH en África
Imagine que le encargan diseñar un gráfico que muestre la incidencia de VIH en diversos países de África, el número de infecciones por cada 100.000 habitantes. Una manera de hacer comparaciones de moda hoy en día es el gráfico de burbujas (los países están inventados):
Inocuo, ¿no es cierto? Es agradable a primera vista. Sin embargo, en caso de ser despistado —yo lo soy— y no leer cuidadosamente las cifras, ¿es usted capaz de percibir que la tasa de infecciones de VIH en Wazilandia es más de cuatro veces la registrada en Thumundi? Con toda seguridad, no. El gráfico da una impresión visual equivocada de las proporciones. Las comparaciones basadas en áreas hacen que las diferencias sean menos perceptibles porque las minimizan.
No ocurre lo mismo si volcamos los datos en un gráfico de barras tradicional. En él, la situación de Wazilandia parece alarmante, incluso aunque no leamos los números. Este gráfico es más apropiado si nuestro objetivo es llamar la atención sobre la crisis sanitaria en dicho país:
¿Es el gráfico de barras siempre superior al de burbujas? No. Depende de las circunstancias, como comprobamos al hablar de la escala de métodos de representación de William Cleveland y Robert McGill: no es lo mismo permitir comparaciones precisas que revelar patrones y tendencias generales en los datos.
La lección que sí podemos extraer de este ejemplo, sin embargo, es que no todas las formas de representación son adecuadas para cualquier historia. El diseñador debe preguntarse para qué va a servir su gráfico antes de elegir qué forma va a adoptar. Para llegar a una respuesta, en ocasiones necesitará probar varias soluciones diferentes. Veámoslo con un segundo ejercicio.
Educación y obesidad
Hace meses leí una historia sobre la relación entre nivel educativo y tasa de obesidad. En Estados Unidos, diversos estudios han descubierto que una mejor educación suele estar relacionada con un menor número de casos graves de sobrepeso. Un instante después de terminar de navegar el texto, pensé en cómo podría comprobar si esa conexión es real.
Lo primero que hice fue buscar datos en la oficina del censo estadounidense. Obtuve el porcentaje de personas en cada estado que han alcanzado por lo menos un título de 'Bachelor's Degree' —parecido a una licenciatura en España— y el porcentaje de obesos. Una captura de pantalla de mi archivo de Excel con los datos de los cincuenta estados:
Calculé también el coeficiente de correlación ('r'), que mide la interdependencia entre variables. Cuanto más cercano el coeficiente de correlación está de 1,0, más directa es la relación: cuando una variable aumenta, la otra también lo hace. Si el coeficiente se acerca a -1,0, la correlación es inversa: cuando una variable crece, la otra disminuye proporcionalmente.
En este ejercicio, r es -0,67, una correlación negativa notable: cuanto más educada es la población, más delgada tiende a ser en promedio. Esto ya sería suficiente para apoyar la hipótesis de la historia que había leído aquella mañana, pero mi intuición fue que un lector común no quedaría convencido con un simple número. Necesitaría algo más tangible, más visual. Así que comencé a transformar los datos en gráficos.
Inicialmente, me rendí a la tendencia actual: convertí mis datos en mapas de burbujas. Aquí están:
¿Consigue extraer alguna información de estos mapas? Los números no son tan diferentes, por lo que los círculos parecen idénticos: es casi imposible ver que un círculo relativamente pequeño en un estado del mapa de la izquierda suele corresponder a un círculo un poco mayor en el de la derecha.
A continuación, probé con un mapa de coropletas, forma gráfica que también está en la parte inferior de la escala de Cleveland y McGill, lo que quiere decir que funciona cuando uno desea revelar patrones genéricos, pero que es ineficaz cuando lo que necesitamos es exactitud:
Un poco mejor: es posible ver que Virginia, por ejemplo, es una región oscura en el primer mapa y clara en el segundo; Texas está en el extremo opuesto: menos gente con educación superior y más con sobrepeso. Pero el problema del mapa de coropletas es que simplifica los datos en exceso al agruparlos en varias 'clases' (tonos de color): ¿puede decirme si la tasa de obesidad en Carolina del Sur es superior a la de Georgia?
Tercer intento: un gráfico de puntos, variante del gráfico de barras ideada por el propio William Cleveland:
En este caso, es posible comparar y clasificar con precisión, pero no es tan sencillo ver la relación inversa entre las dos variables, a no ser que uno comience a localizar los estados tanto en la columna de la izquierda como en la de la derecha.
Probemos, entonces, con un gráfico de dispersión:
Esta es una buena solución al desafío de permitir comparar, clasificar y correlacionar simultáneamente. Sin embargo, hay publicaciones, como National Geographic, que evitan los gráficos de dispersión. Sus responsables piensan que es un tipo de representación demasiado especializada y difícil de entender. Aceptemos que es una opinión legítima, aunque no conozco ningún estudio que la haya puesto a prueba.
La alternativa que National Geographic ha usado en alguna ocasión es el slopegraph o gráfico 'de pendiente'. Lo hizo en este proyecto sobre gasto sanitario comparado con esperanza de vida. Sugiere que la situación de Estados Unidos es preocupante.
Se trata, sin embargo, de un uso poco ortodoxo de esta forma visual. En su definición original, el slopegraph sirve para mostrar variación temporal: cada eje corresponde a un mes o año, por lo que cuanto más pronunciada es la pendiente de una línea, mayor el cambio sufrido entre el primer momento y el segundo.
En el gráfico de National Geographic, por el contrario, cada eje es una variable: gastos médicos en el de la izquierda, esperanza media de vida en el de la derecha. No es un gráfico intuitivo en un primer vistazo pero, una vez que se entiende su mecánica, el mensaje queda claro.
Intenté aplicar el modelo de National Geographic a los datos de educación y obesidad. Puede ver el resultado ampliado si pulsa sobre la imagen (es posible hacerlo con cualquier otra en este artículo, por cierto). Cada línea es uno de los cincuenta estados de EEUU. La posición en el eje izquierdo es proporcional al porcentaje de gente con educación superior. En el eje de la derecha, a la cantidad de obesos.
Las líneas tienen dos colores: azul para los estados en los que el porcentaje de gente licenciada es mayor que el porcentaje de obesos; rojo para los casos inversos. En general, y con alguna que otra excepción (Nuevo México), cuanto más bajo está un estado en el primer eje, más alto tiende a estar en el segundo, y viceversa. Misión cumplida.
Alberto Cairo (Twitter: @albertocairo) es profesor de Periodismo visual en la Universidad de Miami y autor de los libros El arte funcional: infografía y visualización de información (2011) e Infografía 2.0: visualización interactiva de información en prensa (2008).
Imagine que le encargan diseñar un gráfico que muestre la incidencia de VIH en diversos países de África, el número de infecciones por cada 100.000 habitantes. Una manera de hacer comparaciones de moda hoy en día es el gráfico de burbujas (los países están inventados):
Inocuo, ¿no es cierto? Es agradable a primera vista. Sin embargo, en caso de ser despistado —yo lo soy— y no leer cuidadosamente las cifras, ¿es usted capaz de percibir que la tasa de infecciones de VIH en Wazilandia es más de cuatro veces la registrada en Thumundi? Con toda seguridad, no. El gráfico da una impresión visual equivocada de las proporciones. Las comparaciones basadas en áreas hacen que las diferencias sean menos perceptibles porque las minimizan.
No ocurre lo mismo si volcamos los datos en un gráfico de barras tradicional. En él, la situación de Wazilandia parece alarmante, incluso aunque no leamos los números. Este gráfico es más apropiado si nuestro objetivo es llamar la atención sobre la crisis sanitaria en dicho país:
¿Es el gráfico de barras siempre superior al de burbujas? No. Depende de las circunstancias, como comprobamos al hablar de la escala de métodos de representación de William Cleveland y Robert McGill: no es lo mismo permitir comparaciones precisas que revelar patrones y tendencias generales en los datos.
La lección que sí podemos extraer de este ejemplo, sin embargo, es que no todas las formas de representación son adecuadas para cualquier historia. El diseñador debe preguntarse para qué va a servir su gráfico antes de elegir qué forma va a adoptar. Para llegar a una respuesta, en ocasiones necesitará probar varias soluciones diferentes. Veámoslo con un segundo ejercicio.
Educación y obesidad
Hace meses leí una historia sobre la relación entre nivel educativo y tasa de obesidad. En Estados Unidos, diversos estudios han descubierto que una mejor educación suele estar relacionada con un menor número de casos graves de sobrepeso. Un instante después de terminar de navegar el texto, pensé en cómo podría comprobar si esa conexión es real.
Lo primero que hice fue buscar datos en la oficina del censo estadounidense. Obtuve el porcentaje de personas en cada estado que han alcanzado por lo menos un título de 'Bachelor's Degree' —parecido a una licenciatura en España— y el porcentaje de obesos. Una captura de pantalla de mi archivo de Excel con los datos de los cincuenta estados:
Calculé también el coeficiente de correlación ('r'), que mide la interdependencia entre variables. Cuanto más cercano el coeficiente de correlación está de 1,0, más directa es la relación: cuando una variable aumenta, la otra también lo hace. Si el coeficiente se acerca a -1,0, la correlación es inversa: cuando una variable crece, la otra disminuye proporcionalmente.
En este ejercicio, r es -0,67, una correlación negativa notable: cuanto más educada es la población, más delgada tiende a ser en promedio. Esto ya sería suficiente para apoyar la hipótesis de la historia que había leído aquella mañana, pero mi intuición fue que un lector común no quedaría convencido con un simple número. Necesitaría algo más tangible, más visual. Así que comencé a transformar los datos en gráficos.
Inicialmente, me rendí a la tendencia actual: convertí mis datos en mapas de burbujas. Aquí están:
¿Consigue extraer alguna información de estos mapas? Los números no son tan diferentes, por lo que los círculos parecen idénticos: es casi imposible ver que un círculo relativamente pequeño en un estado del mapa de la izquierda suele corresponder a un círculo un poco mayor en el de la derecha.
A continuación, probé con un mapa de coropletas, forma gráfica que también está en la parte inferior de la escala de Cleveland y McGill, lo que quiere decir que funciona cuando uno desea revelar patrones genéricos, pero que es ineficaz cuando lo que necesitamos es exactitud:
Un poco mejor: es posible ver que Virginia, por ejemplo, es una región oscura en el primer mapa y clara en el segundo; Texas está en el extremo opuesto: menos gente con educación superior y más con sobrepeso. Pero el problema del mapa de coropletas es que simplifica los datos en exceso al agruparlos en varias 'clases' (tonos de color): ¿puede decirme si la tasa de obesidad en Carolina del Sur es superior a la de Georgia?
Tercer intento: un gráfico de puntos, variante del gráfico de barras ideada por el propio William Cleveland:
En este caso, es posible comparar y clasificar con precisión, pero no es tan sencillo ver la relación inversa entre las dos variables, a no ser que uno comience a localizar los estados tanto en la columna de la izquierda como en la de la derecha.
Probemos, entonces, con un gráfico de dispersión:
Esta es una buena solución al desafío de permitir comparar, clasificar y correlacionar simultáneamente. Sin embargo, hay publicaciones, como National Geographic, que evitan los gráficos de dispersión. Sus responsables piensan que es un tipo de representación demasiado especializada y difícil de entender. Aceptemos que es una opinión legítima, aunque no conozco ningún estudio que la haya puesto a prueba.
La alternativa que National Geographic ha usado en alguna ocasión es el slopegraph o gráfico 'de pendiente'. Lo hizo en este proyecto sobre gasto sanitario comparado con esperanza de vida. Sugiere que la situación de Estados Unidos es preocupante.
Se trata, sin embargo, de un uso poco ortodoxo de esta forma visual. En su definición original, el slopegraph sirve para mostrar variación temporal: cada eje corresponde a un mes o año, por lo que cuanto más pronunciada es la pendiente de una línea, mayor el cambio sufrido entre el primer momento y el segundo.
En el gráfico de National Geographic, por el contrario, cada eje es una variable: gastos médicos en el de la izquierda, esperanza media de vida en el de la derecha. No es un gráfico intuitivo en un primer vistazo pero, una vez que se entiende su mecánica, el mensaje queda claro.
Intenté aplicar el modelo de National Geographic a los datos de educación y obesidad. Puede ver el resultado ampliado si pulsa sobre la imagen (es posible hacerlo con cualquier otra en este artículo, por cierto). Cada línea es uno de los cincuenta estados de EEUU. La posición en el eje izquierdo es proporcional al porcentaje de gente con educación superior. En el eje de la derecha, a la cantidad de obesos.
Las líneas tienen dos colores: azul para los estados en los que el porcentaje de gente licenciada es mayor que el porcentaje de obesos; rojo para los casos inversos. En general, y con alguna que otra excepción (Nuevo México), cuanto más bajo está un estado en el primer eje, más alto tiende a estar en el segundo, y viceversa. Misión cumplida.
Alberto Cairo (Twitter: @albertocairo) es profesor de Periodismo visual en la Universidad de Miami y autor de los libros El arte funcional: infografía y visualización de información (2011) e Infografía 2.0: visualización interactiva de información en prensa (2008).
No hay comentarios:
Publicar un comentario