Sobre la incertidumbre y la metodología en los sondeos de opinión … y en los estudios de mercado

Queremos hacernos eco en esta entrada de un artículo aparecido en El País el pasado 27 de mayo. El artículo en cuestión trata sobre la intención de voto de los ingleses en las próximas elecciones que se celebrarán al Parlamento. Es una elección difícil, disputada. Y que se produce en un momento de gran cuestionamiento de los resultados de los sondeos de intención de voto… tras los grandes varapalos que este tipo de empresas se han llevado con la elección de Trump en USA, el Brexit, el auge de Marine Le Pen en Francia, las elecciones en Holanda y Austria (con incremento substancial de los votos de la extrema derecha), etc…

Los resultados que augura el artículo son lo que menos nos interesa: indican que Ukip se desplomará, que el partido laborista ha repuntado algo, pero no lo suficiente y augura una victoria de los conservadores con un 45,2% de los votos.

Lo que más nos interesa, como profesionales, es el tratamiento que hace el autor del artículo y del modo de trabajar del estadístico. El autor del artículo es Kiko Llaneras. Pueden consultar el artículo entero aquí: http://politica.elpais.com/politica/2017/05/26/ratio/1495798671_453127.html?rel=lom

¿Porqué nos interesa tanto? Porque, con discrepancias, por supuesto, creemos que es una manera muy ecuánime de afrontar y explicar unos resultados. Pasamos a analizarlo y citamos el texto al que nos referimos:

  • Ya apunta el autor una tabla, de fuente Will Jennings, de la Universidad de Southampton, donde se indican los errores medios y porcentuales que se comenten por partido en las elecciones. Este dato, por sí solo, es revelador de la eficacia técnica del autor del estudio y de la pulcritud del mismo. Es cierto que la democracia inglesa tiene una amplia tradición, su “mercado” está muy estudiado y es bien conocida la eficacia de los métodos de sondeo… Pero todo ello falló con el Brexit. Y con la abundancia del voto oculto y outsider (de hecho y a la postre, resultó mayoritario).

 

  • En cuanto a la metodología, se cita en el artículo. Y sólo eso, que se cite, es una muestra de limpieza, de trabajo bien hecho. La mostramos aquí sólo como ejemplo

 

Metodología. Los cálculos de probabilidades para una victoria conservadora o laborista se basan en un modelo estadístico. El modelo utilizan cientos de sondeos y considera su incertidumbre histórica. Es similar a los que usé en las elecciones francesas (II) y holandesas, en las de País Vasco, Galicia y el 26J. El modelo funciona en tres pasos: 1) agregar y promediar las encuestas, 2) incorporar su incertidumbre, y 3) simular 15.000 elecciones para calcular la probabilidad de los distintos resultados.

Paso 1. Agregar y promediar las encuestas. Considero cientos las encuestas desde 2015. Los datos los tomo del UK Polling Report y de FT. Hago un promedio de muchas encuestas para conseguir dos cosas: reducir el error de muestreo y hacer una «cocina» de consenso. El promedio está ponderado por fecha y tamaño de muestra.

  • El autor también hace un ejercicio de exactitud, de profesionalidad, al incluir y mostrar los datos de incertidumbre y cómo los incorpora al estudio. Para pequeños estudios de mercado y pequeños sondeos, poblaciones finitas y con una muestra representativa, este ejercicio puede resultar superfluo. Pero para este tipo de estudios, es fundamental. ¿Se imaginan a los grandes de España desvelando y aceptando un cálculo y aplicación de incertidumbres como este? ¿Tan bien fundamentado y citado?

Paso 2. Incorporar la incertidumbre de las encuestas. Este paso es fundamental para calcular probabilidades: necesito medir el acierto histórico de los sondeos en Reino Unido. Para eso he tomado datos de 4.900 encuestas desde 1970 proporcionadas por Will Jennings, profesor de la Universidad de Southampton. El error absoluto medio (MAE) de las encuestas del último día para conservadores y laboristas ha sido de 2,6 puntos porcentuales. Esa incertidumbre la incorporo a los porcentajes de voto con distribución normal multivariable. Defino su matriz de covarianzas teniendo en cuenta 1) que los votos deben sumar 100%, y 2) que la desviación estándar de los partidos con menos votos es más pequeña que la de aquellos con más votos. Para definir esta matriz uso estas ideas de Chris Hanretty. También he hecho simulaciones del modelo utilizando una distribución t-student en lugar de una normal. El proceso es análogo, pero la distribución tiene colas más largas: eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explica Nate Silver.

Paso 3. Simular. El último paso consiste en ejecutar el modelo 15.000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto que varían según las distribuciones definidas en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidades de que un candidato logre cierto número de votos, quede primero, etc.

  • Por último el autor indica el porqué del método elegido y establece un enlace a la demostración de la capacidad predictiva del mismo. Elegante y muy válido.

Por qué encuestas. El modelo se basa por entero en encuestas. Existe la percepción de que los sondeos no son fiables, pero lo cierto es que a nivel nacional fallaron por pocos puntos incluso con Trump y con el Brexit. En otras elecciones recientes, como las francesas, las holandesas o las de País Vasco y Galicia, dieron menos que hablar pero estuvieron acertados. Las encuestas raramente son perfectas, pero son capaces de predecir elecciones en términos probabilísticas. No existe una alternativa que haya demostrado mayor capacidad predictiva.

En definitiva, sólo podemos quitarnos el sombrero ante el autor de este estudio por la fundamentación del mismo, el espíritu analítico y esclarecedor. Independientemente de los datos, del nivel de acierto o no, el fundamento científico del trabajo es fundamental. Si yo fuera el cliente (partido político, prensa, etc… ) no exigiría menos.

Ojalá todos tomáramos nota de esta forma de trabajo que, me temo, es exclusiva aún del extranjero.