miércoles, 13 de diciembre de 2017

Explicación de los cálculos estadístos sobre los datos del PL y el TSE en elecciones Honduras 2017

Edwin Francisco Herrera Paz



Ante las dudas expresadas por algunos amigos con respecto a los cálculos efectuados para determinar el intervalo de confianza de los resultados arrojados por las actas del Partido Liberal en elecciones Honduras 2017, describo aquí el procedimiento utilizado. Sencillo, por cierto, y puede encontrarse en cualquier libro de estadísticas o en documentos en el internet. El post anterior está aquí: http://lahondurasvaliente.blogspot.com/2017/12/elecciones-honduras-2017-fraude.html 
Primero, los datos se basan en la información proveída públicamente por el Tribunal Supremo Electoral (TSE) y por el Ingeniero Luis Zelaya, titular del Partido Liberal.
Según el TSE, los resultados finales fueron: 1,412,055 votos para el Partido Nacional (PN) y 1,359,610 para la Alianza, lo que representa una diferencia de 52,445 votos. Según estos datos la Alianza pierde con el 49.0539%.

Según el PL, ellos escrutaron el 86% de las actas obteniendo una diferencia de 3,396 votos a favor de la Alianza. Otro dato brindado es que ese 86% es representativo del territorio nacional. Es decir, están representados todos los departamentos y las zonas rurales y urbanas.

Los datos del PL se consideraron como una muestra del caudal electoral total y se procedió a calcular el intervalo de confianza para las proporciones según la siguiente fórmula:



Donde p es la proporción de votos de la Alianza (0.5007); 1-p es la proporción de votos del otro partido (o de la suma del resto según se desee), que en este caso es 0.4993; n es el tamaño muestral que en este caso es de 2,383,632, z es el número de desviaciones estándar en un conjunto de muestras aleatorias, y va a depender del nivel de confianza que escojamos; y finalmente el valor obtenido se le suma y se le resta a p y así obtendremos los límites superior e inferior de nuestro intervalo. Por lo tanto, el intervalo de confianza comprenderá todos los valores que caigan entre estos dos límites. Podemos estar seguros de que, con un porcentaje de confianza escogido por nosotros, el universo o población total N se encontrará dentro de estos límites.

A partir de la ecuación, se ve que el tamaño del intervalo se estrecha a medida que aumentamos el tamaño muestral n. Es decir, a mayor tamaño muestral, más seguros estamos de que nuestra muestra refleja realmente el total. Por otra parte, a mayor nivel de confianza, el intervalo se ampliará. Esto sucede porque el valor de confianza será 1 menos el error, y si queremos minimizar el error, tenemos que ampliar la incertidumbre, es decir, el rango de valores posibles del total.

Solo un par de conceptos más. La característica que estudiamos, extraída de la muestra, en este caso la proporción de votos de la Alianza en la muestra del PL, se le denomina variable. Ese mismo valor al ser estimado en la población, recibe el nombre de parámetro. Vemos que en este caso el parámetro no es un valor fijo sino un rango de valores posibles inferidos a partir de la muestra. Ese es precisamente el intervalo de confianza, y su cálculo proporciona validez científica a los datos obtenidos de una muestra.

¿Y los datos del caudal electoral proporcionado por el TSE qué papel juegan? Pues bien, cuando calculamos el intervalo de confianza en un experimento científico no conocemos el verdadero valor poblacional (parámetro) y lo único que podemos hacer es estimarlo. Pero en este caso, sí tenemos el total proporcionado por el TSE. Podemos analizar si ese valor poblacional se encuentra dentro del intervalo de confianza de nuestra muestra. Si no es así, podemos inferir que nuestra muestra, con mucha probabilidad, no es representativa del total.

¿Por qué nuestra muestra del PL no sería representativa del total del RNP? Hay varias posibilidades.

1. Que se trata de dos conjuntos de datos diferentes. Es decir, hay una gran cantidad de ocurrencias (votos) en el total que no están en la muestra o viceversa. Esto es lo que pasaría en el caso de que el PL hubiera recibido copias de actas diferentes a las que fueron computadas en el TSE.

2. Que el 14% de los votos restantes presentan una proporción muy diferente a los del 86% escrutado. Es decir, que el conteo del PL haya sido estructurado. Sin embargo, no hay ninguna razón para pensar que existe una estructuración natural puesto que la muestra es representativa.

3. Ambas afirmaciones son correctas.

Las pequeñas fluctuaciones aleatorias, por ejemplo un acta con solo votos nacionalistas o con solo votos de la Alianza, serían compensadas por el alto número de actas analizadas, y precisamente estas fluctuaciones son las que producen una variación entre diferentes muestras. Más aun, la evidencia indica que, desde el punto de vista electoral, el territorio hondureño es más o menos uniforme, lo que permite hacer proyecciones de ganadores con solo una muestra pequeña (así ha ocurrido en todas las elecciones).

En mi cálculo, utilicé un valor de confianza del 99.7% (en las ciencias biomédicas se utiliza un 95%) lo que amplía el intervalo y minimiza nuestra posibilidad de error a un 0.3%. Vea la siguiente gráfica:

Fuera joh


El intervalo de confianza se muestra con una línea sólida vertical ubicada en la parte superior de la barra azul, que representa la proporción de votos de la Alianza en la muestra del PL. La verdadera proporción total se encuentra dentro de este rango con una probabilidad del 99.7%. Es decir, la probabilidad de que la verdadera proporción se encuentre fuera de este rango es apenas del 0.3%. Más aun, la probabilidad de que se encuentre por debajo de este rango es de 0.15%. La barra amarilla representa la proporción de votos a favor de la Alianza. Se puede ver que no solo se encuentra fuera de los límites sino muy por debajo del límite inferior. Se puede concluir entonces, con una alta probabilidad, que la muestra del PL no es representativa del total publicado por el TSE.

En general, los métodos utilizados en estadística pueden ser descriptivos, en los que se intenta inferir parámetros poblacionales a partir de muestras; correlacionales, donde se comparan dos variables y se establece con qué magnitud varía una cuando varía la otra; de agrupamiento, en las que se juntan grupos de poblaciones con características similares; y comparativas, en donde intentamos establecer si hay diferencias entre dos grupos con respecto a una variable.

Las estadísticas descriptivas como el IC antes descrito no son ideales para comparar dos grupos, por lo que utilizaremos un método de las estadísticas comparativas para dilucidar si el conjunto de datos del PL y los del TSE son iguales, o al menos razonablemente parecidos como para concluir que proceden de la misma fuente. En particular, estos métodos utilizan lo que se denomina contrate de hipótesis, en donde tenemos una hipótesis nula llamada H0, que es la afirmación “ambos grupos son iguales o provienen de la misma fuente”, y una hipótesis de trabajo H1, en la que afirmamos que se descarta la igualdad o fuente común ara ambos grupos.

Los métodos son variados, y la escogencia de uno depende del tipo de datos a analizar, y de los recursos computacionales disponibles. En este caso utilizaremos el llamado Chi cuadrado (o X2), y nuestra H0 será: los datos del PL y del TSE no son similares puesto que proceden de la misma fuente. H1 será: ambos conjuntos de datos son significativamente diferentes.

No entraré en detalles técnicos acerca del método, pero la finalidad es establecer un valor de probabilidad, o p, que nos dice qué tan probable es que tengamos esos conjuntos de datos DADO QUE ambos provienen de la misma fuente. Obviamente, mientras más bajo el valor de p, menor la probabilidad de que pertenezcan al mismo conjunto. Los valores que puede tomar p van desde uno, en el caso de dos grupos de datos idénticos, y 0, donde no hay manera posible de que los datos provengan de la misma fuente.

Se comienza construyendo una tabla de contingencias de 2X2 con los datos observados del TSE y los del PL de la siguiente manera:

TSE Ob
PL Ob
PN
1412055
1190118
2602173
Alianza
1359610
1193514
2553124
2771665
2383632
5155297

Seguidamente, se construye una segunda tabla de los valores esperados bajo la hipótesis nula:

TSE Es
PL Es
PN
1399018
1203155
Alianza
1372647
1180477

Posteriormente se calcula el valor Chi cuadrado para cada uno de los cuatro valores mediante la siguiente fórmula:



Donde O son los valores observados y E los esperados en el caso de independencia. Finalmente se obtiene Chi cuadrado para el total sumando los cuatro valores y se establece el valor p mediante tablas (Las hojas de Excel tienen incorporada esta prueba estadística lo que facilita el cálculo y usted la puede replicar en su computadora).
El valor de p para la prueba en nuestro caso específico es de 2.11 X 10-17, un valor tan bajo que para fines prácticos es igual a 0.

Una palabra más sobre Chi cuadrado: esta prueba tiene bajo poder, es decir, es proclive a incurrir en error tipo 2 o beta, en el que se aprueba H:0 siendo falsa. Es decir, es débil para detectar pequeñas diferencias entre muestras, lo que se denomina “falsos negativos”. Si deseamos disminuir la probabilidad de falsos negativos usaremos una prueba con mayor poder, como el test exacto de Fisher, que demanda mayor capacidad computacional y no está incluido en Excel. Pero hay un motivo por el que utilicé Chi cuadrado: tiende a favorecer H:0, o sea, a los que alegan que el conjunto de datos es el mismo y que por ende no hubo fraude.

¿Por qué el conjunto de datos del TSE y el del PL son significativamente diferentes? De nuevo, como en el caso del análisis del IC, nos toca especular. O hay amplias diferencias a lo largo de ambos conjuntos, o la diferencia se encuentra concentrada en el 14% no escrutado por el PL. Esto último es sumamente improbable dada la representatividad de la muestra del PL, pero es aquí donde surge otra pregunta aun no despejada por el organismo político. ¿Por qué no fue escrutado el resto? ¿Son las actas no escrutadas las mismas que fueron enviadas al TSE pero no a los partidos políticos durante la caída del servidor? A medida que recibamos información refinaremos los análisis.

Se hace evidente que todas las dudas se despejarían cotejando las actas del PL con las del TSE, y quiero enfatizar que estos cálculos no son evidencia fehaciente de fraude. Como en toda disputa, cada pieza de evidencia se debería analizar independientemente otorgándole un peso (lea más sobre la evidencia en "La falacia del fiscal y la falacia de la defensa". Una explicación más sencilla la encontrará en "La falacia del fiscal y la falacia de la defensa para dummies).

Por otro lado, los procedimiento aquí utilizados son del mismo tipo de los que se realizan rutinariamente en cualquier trabajo científico, por ejemplo cuando se compara la eficacia de dos tratamientos para una enfermedad. Su validez científica es indiscutible y de los resultados depende que se acepten teorías, tratamientos, etc. Si usted tiene conjeturas sobre las elecciones Honduras 2017 o mejores ideas para develar el fraude, en caso de que lo haya habido, por favor deje sus comentarios en este blog o en las páginas donde se postee.
Saludos patrióticos.

1 comentario:

  1. WOW... estoy asombrada con su blog Dr. Herrera...
    felicidades

    ResponderEliminar

Por favor comente este entrada.