Edwin Francisco Herrera Paz
Ante las dudas expresadas por algunos amigos con respecto a
los cálculos efectuados para determinar el intervalo de confianza de los
resultados arrojados por las actas del Partido Liberal en elecciones Honduras
2017, describo aquí el procedimiento utilizado. Sencillo, por cierto, y puede
encontrarse en cualquier libro de estadísticas o en documentos en el internet. El post anterior está aquí: http://lahondurasvaliente.blogspot.com/2017/12/elecciones-honduras-2017-fraude.html
Primero, los datos se basan en la información proveída
públicamente por el Tribunal Supremo Electoral (TSE) y por el Ingeniero Luis
Zelaya, titular del Partido Liberal.
Según el TSE, los resultados finales fueron: 1,412,055 votos para
el Partido Nacional (PN) y 1,359,610 para la Alianza, lo que representa una
diferencia de 52,445 votos. Según estos datos la Alianza pierde con el 49.0539%.
Según el PL, ellos escrutaron el 86% de las actas
obteniendo una diferencia de 3,396 votos a favor de la Alianza. Otro dato
brindado es que ese 86% es representativo del territorio nacional. Es decir,
están representados todos los departamentos y las zonas rurales y urbanas.Los datos del PL se consideraron como una muestra del caudal electoral total y se procedió a calcular el intervalo de confianza para las proporciones según la siguiente fórmula:
Donde p es la proporción de votos de la
Alianza (0.5007); 1-p es la proporción de votos del otro partido (o de la suma
del resto según se desee), que en este caso es 0.4993; n es el tamaño muestral
que en este caso es de 2,383,632, z es el número de desviaciones estándar en un
conjunto de muestras aleatorias, y va a depender del nivel de confianza que
escojamos; y finalmente el valor obtenido se le suma y se le resta a p y así
obtendremos los límites superior e inferior de nuestro intervalo. Por lo tanto,
el intervalo de confianza comprenderá todos los valores que caigan entre estos
dos límites. Podemos estar seguros de que, con un porcentaje de confianza
escogido por nosotros, el universo o población total N se encontrará dentro de
estos límites.
A partir de la ecuación, se ve que el
tamaño del intervalo se estrecha a medida que aumentamos el tamaño muestral n.
Es decir, a mayor tamaño muestral, más seguros estamos de que nuestra muestra refleja
realmente el total. Por otra parte, a mayor nivel de confianza, el intervalo se
ampliará. Esto sucede porque el valor de confianza será 1 menos el error, y si
queremos minimizar el error, tenemos que ampliar la incertidumbre, es decir, el
rango de valores posibles del total.
Solo un par de conceptos más. La
característica que estudiamos, extraída de la muestra, en este caso la
proporción de votos de la Alianza en la muestra del PL, se le denomina
variable. Ese mismo valor al ser estimado en la población, recibe el nombre de
parámetro. Vemos que en este caso el parámetro no es un valor fijo sino un
rango de valores posibles inferidos a partir de la muestra. Ese es precisamente
el intervalo de confianza, y su cálculo proporciona validez científica a los
datos obtenidos de una muestra.
¿Y los datos del caudal electoral proporcionado
por el TSE qué papel juegan? Pues bien, cuando calculamos el intervalo de
confianza en un experimento científico no conocemos el verdadero valor
poblacional (parámetro) y lo único que podemos hacer es estimarlo. Pero en este
caso, sí tenemos el total proporcionado por el TSE. Podemos analizar si ese
valor poblacional se encuentra dentro del intervalo de confianza de nuestra
muestra. Si no es así, podemos inferir que nuestra muestra, con mucha
probabilidad, no es representativa del total.
¿Por qué nuestra muestra del PL no
sería representativa del total del RNP? Hay varias posibilidades.
1. Que se trata de dos conjuntos de
datos diferentes. Es decir, hay una gran cantidad de ocurrencias (votos) en el
total que no están en la muestra o viceversa. Esto es lo que pasaría en el caso
de que el PL hubiera recibido copias de actas diferentes a las que fueron
computadas en el TSE.
2. Que el 14% de los votos restantes
presentan una proporción muy diferente a los del 86% escrutado. Es decir, que el
conteo del PL haya sido estructurado. Sin embargo, no hay ninguna razón para
pensar que existe una estructuración natural puesto que la muestra es
representativa.
3. Ambas afirmaciones son correctas.
Las pequeñas fluctuaciones aleatorias,
por ejemplo un acta con solo votos nacionalistas o con solo votos de la Alianza,
serían compensadas por el alto número de actas analizadas, y precisamente estas
fluctuaciones son las que producen una variación entre diferentes muestras. Más
aun, la evidencia indica que, desde el punto de vista electoral, el territorio
hondureño es más o menos uniforme, lo que permite hacer proyecciones de
ganadores con solo una muestra pequeña (así ha ocurrido en todas las
elecciones).
En mi cálculo, utilicé un valor de
confianza del 99.7% (en las ciencias biomédicas se utiliza un 95%) lo que
amplía el intervalo y minimiza nuestra posibilidad de error a un 0.3%. Vea la
siguiente gráfica:
El intervalo de confianza se muestra
con una línea sólida vertical ubicada en la parte superior de la barra azul,
que representa la proporción de votos de la Alianza en la muestra del PL. La
verdadera proporción total se encuentra dentro de este rango con una
probabilidad del 99.7%. Es decir, la probabilidad de que la verdadera
proporción se encuentre fuera de este rango es apenas del 0.3%. Más aun, la
probabilidad de que se encuentre por debajo de este rango es de 0.15%. La barra
amarilla representa la proporción de votos a favor de la Alianza. Se puede ver
que no solo se encuentra fuera de los límites sino muy por debajo del límite
inferior. Se puede concluir entonces, con una alta probabilidad, que la muestra
del PL no es representativa del total publicado por el TSE.
En general, los métodos utilizados en
estadística pueden ser descriptivos, en los que se intenta inferir parámetros
poblacionales a partir de muestras; correlacionales, donde se comparan dos
variables y se establece con qué magnitud varía una cuando varía la otra; de
agrupamiento, en las que se juntan grupos de poblaciones con características similares;
y comparativas, en donde intentamos establecer si hay diferencias entre dos
grupos con respecto a una variable.
Las estadísticas descriptivas como el
IC antes descrito no son ideales para comparar dos grupos, por lo que
utilizaremos un método de las estadísticas comparativas para dilucidar si el
conjunto de datos del PL y los del TSE son iguales, o al menos razonablemente
parecidos como para concluir que proceden de la misma fuente. En particular,
estos métodos utilizan lo que se denomina contrate de hipótesis, en donde
tenemos una hipótesis nula llamada H0, que es la afirmación “ambos grupos son
iguales o provienen de la misma fuente”, y una hipótesis de trabajo H1, en la
que afirmamos que se descarta la igualdad o fuente común ara ambos grupos.
Los métodos son variados, y la
escogencia de uno depende del tipo de datos a analizar, y de los recursos
computacionales disponibles. En este caso utilizaremos el llamado Chi cuadrado
(o X2), y nuestra H0 será: los datos del PL y del TSE no son similares puesto que proceden de la misma fuente. H1 será: ambos conjuntos de datos son significativamente diferentes.
No entraré en detalles técnicos acerca
del método, pero la finalidad es establecer un valor de probabilidad, o p, que
nos dice qué tan probable es que tengamos esos conjuntos de datos DADO QUE
ambos provienen de la misma fuente. Obviamente, mientras más bajo el valor de p,
menor la probabilidad de que pertenezcan al mismo conjunto. Los valores que
puede tomar p van desde uno, en el caso de dos grupos de datos idénticos, y 0,
donde no hay manera posible de que los datos provengan de la misma fuente.
Se comienza construyendo una tabla de
contingencias de 2X2 con los datos observados del TSE y los del PL de la
siguiente manera:
TSE Ob
|
PL Ob
|
||
PN
|
1412055
|
1190118
|
2602173
|
Alianza
|
1359610
|
1193514
|
2553124
|
2771665
|
2383632
|
5155297
|
Seguidamente, se construye una
segunda tabla de los valores esperados bajo la hipótesis nula:
TSE Es
|
PL Es
|
|
PN
|
1399018
|
1203155
|
Alianza
|
1372647
|
1180477
|
Posteriormente se calcula el valor
Chi cuadrado para cada uno de los cuatro valores mediante la siguiente fórmula:
Donde O son los valores observados y E los esperados en el caso de independencia. Finalmente se obtiene Chi cuadrado para el total sumando los cuatro valores y
se establece el valor p mediante tablas (Las hojas de Excel tienen incorporada
esta prueba estadística lo que facilita el cálculo y usted la puede replicar en
su computadora).
El valor de p para la prueba en
nuestro caso específico es de 2.11 X 10-17, un valor tan bajo que
para fines prácticos es igual a 0.
Una palabra más sobre Chi cuadrado:
esta prueba tiene bajo poder, es decir, es proclive a incurrir en error tipo 2
o beta, en el que se aprueba H:0 siendo falsa. Es decir, es débil para detectar
pequeñas diferencias entre muestras, lo que se denomina “falsos negativos”. Si
deseamos disminuir la probabilidad de falsos negativos usaremos una prueba con
mayor poder, como el test exacto de Fisher, que demanda mayor capacidad
computacional y no está incluido en Excel. Pero hay un motivo por el que
utilicé Chi cuadrado: tiende a favorecer H:0, o sea, a los que alegan que el
conjunto de datos es el mismo y que por ende no hubo fraude.
¿Por qué el conjunto de datos del TSE
y el del PL son significativamente diferentes? De nuevo, como en el caso del análisis
del IC, nos toca especular. O hay amplias diferencias a lo largo de ambos
conjuntos, o la diferencia se encuentra concentrada en el 14% no escrutado por
el PL. Esto último es sumamente improbable dada la representatividad de la muestra
del PL, pero es aquí donde surge otra pregunta aun no despejada por el
organismo político. ¿Por qué no fue escrutado el resto? ¿Son las actas no
escrutadas las mismas que fueron enviadas al TSE pero no a los partidos políticos
durante la caída del servidor? A medida que recibamos información refinaremos
los análisis.
Se hace evidente que todas las dudas
se despejarían cotejando las actas del PL con las del TSE, y quiero enfatizar
que estos cálculos no son evidencia fehaciente de fraude. Como en toda disputa,
cada pieza de evidencia se debería analizar independientemente otorgándole un
peso (lea más sobre la evidencia en "La falacia del fiscal y la falacia de la defensa". Una explicación más sencilla la encontrará en "La falacia del fiscal y la falacia de la defensa para dummies).
Por otro lado, los procedimiento aquí utilizados son del mismo tipo de los que se realizan rutinariamente en cualquier trabajo científico, por ejemplo cuando se compara la eficacia de dos tratamientos para una enfermedad. Su validez científica es indiscutible y de los resultados depende que se acepten teorías, tratamientos, etc. Si usted tiene conjeturas sobre las
elecciones Honduras 2017 o mejores ideas para develar el fraude, en caso de que
lo haya habido, por favor deje sus comentarios en este blog o en las páginas
donde se postee.
Saludos patrióticos.