domingo, 10 de diciembre de 2017

Análisis estadístico de los resultados parciales en las elecciones Honduras 2017

Fuera joh
Gráfica del porcentaje electoral para presidente versus tiempo para los dos movimientos mayoritarios en los comicios Honduras 2017. La gráfica fue construida a partir de datos del Tribunal Supremo Electoral de Honduras. En Honduras, las lineas de tendencia se han mantenido horizontales con pequeñas fluctuaciones en todas las elecciones anteriores. En cambio, en las presentes elecciones se observan puntos de inflexión que son notables. A estos cambios bruscos de tendencia le llamaremos "Anomalía de Corrales y Matamoros", en honor a David Matamoros Batson, titular del TSE, y Arturo Corrales Álvarez, ideólogo y tecnólogo del oficialismo. Esta anomalía tiene su origen en la que llamaré "Conjetura de Matamoros Batson" (ver texto). 

Edwin Francisco Herrera Paz


Yo, no soy activista de ningún partido político. Le di mi voto al candidato del Partido Liberal, por considerarlo el más apto para cumplir con el trabajo de dirigir los destinos de Honduras. Pero no me considero una persona partidaria. Como ni la Alianza de Oposición ni el Partido Nacional me parecen opciones deseables, me considero en una posición lo suficientemente neutral como para hacer un análisis estadístico (aunque superficial) de los resultados parciales de las elecciones recién pasadas en Honduras.
Un tipo de análisis factible para resultado parciales (que llamaremos muestra)es aquel en el que contrastamos hipótesis y establecemos un valor P, que es una probabilidad expresada en porcentaje. Supongamos que en nuestra muestra gana el candidato A, pero las elecciones las ganó el candidato B. Nuestra hipótesis de trabajo es que la muestra que tenemos es realmente representativa del total, en cuyo caso obtendremos un valor P alto, o por lo menos mayor a un límite arbitrario llamado alfa, que usualmente es del 5%. Si después de nuestro procedimiento estadístico P resulta ser menor al 5% entonces nuestra muestra no es representativa del total. Una posible causa de esta falta de representatividad es un tamaño de muestra muy bajo. Por ejemplo, que nuestra muestra sea solo el 10% de los votos escrutados. Otra causa es una población estructurada, es decir, muy subdividida en cuanto a sus preferencias, y eso es precisamente lo que alega el Tribunal Supremo Electoral (TSE) de Honduras.
Obtener un valor P para el proceso electoral Honduras 2017 sería relativamente sencillo desde el punto de vista computacional. Se obtienen los datos totales del TSE, en este caso, 1412,055 para el PN y 1359,610 para la Alianza. Luego, se ejecuta un algoritmo que tome una muestra aleatoria del mismo tamaño que nuestra muestra, en este caso del 57% del total. Si en esta simulación el PN obtiene una proporción igual o superior a la que obtuvimos en nuestra muestra original, se aumenta un contador en 1. Esta simulación se repite miles de veces (unas 10,000 iteraciones), y al final, el valor del contador se divide entre el número de iteraciones. Si esa proporción (P) es menor al 5%, concluimos que nuestra muestra no es representativa del total y por lo tanto no es aleatoria, es decir, tiene algún tipo de sesgo o estructuración.
Según el titular del TSE y el gerente de Ingeniería Gerencial Arturo Corrales Álvarez las votaciones en Honduras están estructuradas. De hecho, Corrales Álvarez sospechosamente nos lo anticipó desde el domingo de las elecciones cuando publicó en un canal de televisión las encuestas de boca de urna. Nos explicó que, en Honduras, las elecciones no eran como antes, que hoy en día es el voto rural el que decide un ganador, y por ello las elecciones las ganaría Juan Orlando Hernández, el candidato del oficialista Partido Nacional (PN).
¿Cómo explica el TSE y el oficialismo (la misma cosa a juicio de muchos) que, con un 57% de las actas escrutadas y un 5% de ventaja de Salvador Nasralla (SN), candidato de la Alianza de Oposición, al final ganara Juan Orlando Hernández (JOH) por 1%? Ellos achacan esta anomalía a la estructuración en el escrutinio de las actas. Según ellos, la primera parte del escrutinio la ganaba SN porque correspondía exclusivamente a las zonas urbanas. El motivo, según ellos, es que las actas provenientes de las zonas urbanas son transportadas mucho más rápidamente al TSE que las rurales donde el acceso es más difícil. Entonces, ese 57% corresponde a esas zonas urbanas donde SN gana con un 5%. La segunda parte en cambio, o sea el 43% restante, corresponde a las zonas rurales donde gana JOH contundentemente.
Hay varios motivos por los qué dudar de la argumentación del TSE (que llamaremos “la conjetura de Matamoros-Batson, o CMB) y el oficialismo y los enumeraré.
1) La CMB asume que las votaciones están perfectamente estructuradas por preferencia electoral. Toma como hecho que en todas o casi todas las comunidades rurales gana JOH, y en todas o casi todas las urbanas SN. Suponer una estructuración de ese tipo es absurdo debido a que las preferencias electorales están fuertemente marcadas por el tradicionalismo, y este suele exhibir cierta variación tanto localmente dentro de los departamentos como entre departamentos. Si bien puede ser cierto que es probable que haya ciertas preferencias según el criterio urbano o rural, no hay evidencia de que esa preferencia esté perfectamente estructurada.
2) La CMB asume que el conteo fue un proceso perfectamente estructurado, con las regiones urbanas escrutadas primero y las rurales después. Esto es evidentemente falso, primero, porque el acceso por carretera a las diferentes comunidades es variable. Algunas localidades rurales son de fácil acceso, y algunas urbanas se encuentran lejos del TSE. Aunque es posible que haya una tendencia de las actas urbanas a llegar al TSE antes que las rurales, esa tendencia no debe ser tan marcada como para producir la marcada estratificación observada en el proceso.
3) La mayor parte del territorio nacional es relativamente homogéneo en cuando a su clasificación urbano rural. Muchas localidades urbanas muestran características rurales, por lo que no se observa una fuerte estratificación entre estos dos sectores.
4) Más del 50% de la población hondureña es urbana.
5) El tipo de estructuración asumido por la CMB jamás se ha visto en las elecciones en Honduras, donde usualmente la tendencia no cambia desde una muestra tan baja como el 10% de los votos escrutados. Variaciones desde el 5% con 57% escrutado hasta invertir la tendencia es un fenómeno inédito en nuestros procesos electorales.
Ahora, démosle al TSE el beneficio de la duda, y asumamos que la CMB es verdadera y que en realidad el proceso fue sumamente estructurado y que, además, la inversión de la tendencia después de la caída y el reemplazo del servidor fue un evento casual sumamente desafortunado. En este escenario, calcular un valor P con las muestras parciales ofrecidas por el TSE sería una labor inane.
Entonces, ¿Podemos encontrar una muestra del actual proceso electoral que realmente sea aleatoria y representativa de la totalidad de los votantes? Desde luego que sí. Los partidos políticos recibieron copia de las actas durante el proceso, y el Partido Liberal (PL) escrutó el 86% de ellas. Según las palabras del titular del PL Ingeniero Luis Zelaya, con ese porcentaje escrutado SN supera a JOH por 3,396 votos. Para comenzar, no tenemos ninguna razón para suponer que esta muestra no sea aleatoria puesto que las actas son escaneadas directamente del sitio de votación (MER). Es decir, la CMB no aplica para esta muestra.
Podemos realizar algunos cálculos, derivados de la estadística descriptiva, sobre los datos para determinar si es probable que JOH haya realmente ganado por puro azar, sin manipulación de la votación, dados los datos proporcionados por el PL. Estos cálculos son los mismos que se realizan en las investigaciones científicas y permiten saber hasta qué punto, o con cuanta confianza, podemos extrapolar los hallazgos obtenidos trabajando sobre una muestra, al total de la población. Específicamente, calcularé el intervalo de confianza (IC) del dato proporcionado al público por el PL. El IC se utiliza para saber hasta cuanto puede variar un valor en la población, dado ese valor en nuestra muestra, en este caso, el dato del PL.
A Partir de los datos del PL comenzamos calculando el porcentaje o proporción de votos para cada partido. Considerando los votos de la Alianza más los del PN como el 100% (excluiremos a los demás partidos y los votos nulos para facilitar el cálculo), entonces una diferencia de 3,396 nos revela un porcentaje de 50.08% para la Alianza, y de 49.93% para el PN.
El IC depende de dos factores: 1) Del tamaño muestral, y 2) Del porcentaje de confianza que estamos dispuestos a dar a nuestro análisis. A mayor tamaño muestral, más seguros estaremos de nuestro resultado y el IC será más estrecho.  Por otro lado, a menor confianza, más estrecho será el rango de IC y viceversa. En los cálculos más estrictos se utiliza un 99% de confianza, y en los menos estrictos de las ciencias sociales, un 90% (no hace falta comprender los detalles de la estimación de IC, solo el significado que pronto explicaré).
Aplicando la ecuación del IC de la proporción de votos en la muestra del PL para estimar entre qué límites se encontrará el total de votos, y con una confianza del 99.7%, obtenemos los siguientes resultados: Número máximo de votos en favor de la Alianza, 9,335. Número máximo en contra de la Alianza, 1,437. En otras palabras, con una probabilidad muy alta (99.7%) podemos asegurar, que dados los datos proporcionados por el PL, el PN no le puede ganar a la Alianza por más de 1,437 votos. Como el intervalo de confianza comprende ambos casos (gana o pierde la Alianza), los datos del PL muestran lo que se considera un empate técnico.
Ahora bien, según los resultados del TSE, el PN le gana a la Alianza por 52,445 votos que deben encontrarse incluidos dentro del 14% restante no escrutado por el PL. La probabilidad de que esto se de por azar es muy baja. Dicho en otras palabras, la probabilidad de que el PN le haya ganado a la Alianza por más de 1,437 votos por pura casualidad dados los datos del PL es igual a 0.15%, mucho más bajo que el valor alfa del 5% usualmente aceptado por la ciencia para rechazar hipótesis. Por lo tanto, lo más convincente es descartar que el resultado se debe al azar si no más bien a algún tipo de manipulación. Ignoro si los datos faltantes del PL corresponden a los enviados al TSE durante la caída del servidor, pero sería interesante saberlo.

Dadas así las cosas, desde el punto de vista estadístico todo indica una suerte de manipulación de los resultados en los votos faltantes del PL, lo que no descarta la manipulación de otros votos ya incluidos en el escrutinio de ese partido, evidenciado por el cambio brusco en la tendencia después de la caída del servidor con 57% de votos escrutados. Sin embargo, presiento que JOH será declarado ganador por el TSE, aún bajo los cuestionamientos de los hondureños y la comunidad internacional. Ese fue siempre el plan. Para el partido oficialista, no hay acción alterna posible. 

2 comentarios:

  1. Te felicito Edwin. Un comentario basado en la ciencia y no en la especulación.

    ResponderEliminar
  2. Estimado Edwin, felicitaciones. Buen Trabajo. Sin embargo sugiero una revisión metodológica: El Ing. Zelaya Medrano presenta una muestra de un 86% de actas, no del 100% que conforma el universo, De ahí que el punto de comparación ha de ser en base de una muestra de 15,591 MER (De 18,129 mesas, el 86% son 15,591 mesas). Con ese tamaño de muestra el margen de error es de 0.29%, que en votos se traduce en 10,082 votos, ya sea sumándolos, ya sea restándoles. Esto quiere decir que, estadísticamente hablando, cualquier resultado brindado por el TSE entre 13,478 votos a favor del Ing. Salvador Alejandro César Nasralla Salum o 6,686 votos a favor del Abg. Juan Orlando Hernández Alvarado, AL 86% DEL ESCRUTINO OFICIAL, indicaría que los resultados son coincidentes con los del Partido Liberal. Con el 82.89% de los resultados dados por el TSE, el Abg. Juan Orlando Hernández Alvarado aventajaba al Ing. Salvador Alejandro César Nasralla Salum por 2,911 votos (1,157,083 versus 1,154,172). Lamentablemente no tengo el registro de cuanto fue el reporte del TSE al 86%. Cómo la carga del universo no es lineal (unas mesas tienen mayor carga electoral que otras, en algunos casos decenas de votos y hasta centenas de votos) es difícil extrapolar ese análisis a las 18,129 mesas. Saludos, que Dios le bendiga y feliz año 2018.

    ResponderEliminar

Por favor comente este entrada.