Mostrando entradas con la etiqueta estadísticas. Mostrar todas las entradas
Mostrando entradas con la etiqueta estadísticas. Mostrar todas las entradas

domingo, 10 de diciembre de 2017

Análisis estadístico de los resultados parciales en las elecciones Honduras 2017

Fuera joh
Gráfica del porcentaje electoral para presidente versus tiempo para los dos movimientos mayoritarios en los comicios Honduras 2017. La gráfica fue construida a partir de datos del Tribunal Supremo Electoral de Honduras. En Honduras, las lineas de tendencia se han mantenido horizontales con pequeñas fluctuaciones en todas las elecciones anteriores. En cambio, en las presentes elecciones se observan puntos de inflexión que son notables. A estos cambios bruscos de tendencia le llamaremos "Anomalía de Corrales y Matamoros", en honor a David Matamoros Batson, titular del TSE, y Arturo Corrales Álvarez, ideólogo y tecnólogo del oficialismo. Esta anomalía tiene su origen en la que llamaré "Conjetura de Matamoros Batson" (ver texto). 

Edwin Francisco Herrera Paz


Yo, no soy activista de ningún partido político. Le di mi voto al candidato del Partido Liberal, por considerarlo el más apto para cumplir con el trabajo de dirigir los destinos de Honduras. Pero no me considero una persona partidaria. Como ni la Alianza de Oposición ni el Partido Nacional me parecen opciones deseables, me considero en una posición lo suficientemente neutral como para hacer un análisis estadístico (aunque superficial) de los resultados parciales de las elecciones recién pasadas en Honduras.
Un tipo de análisis factible para resultado parciales (que llamaremos muestra)es aquel en el que contrastamos hipótesis y establecemos un valor P, que es una probabilidad expresada en porcentaje. Supongamos que en nuestra muestra gana el candidato A, pero las elecciones las ganó el candidato B. Nuestra hipótesis de trabajo es que la muestra que tenemos es realmente representativa del total, en cuyo caso obtendremos un valor P alto, o por lo menos mayor a un límite arbitrario llamado alfa, que usualmente es del 5%. Si después de nuestro procedimiento estadístico P resulta ser menor al 5% entonces nuestra muestra no es representativa del total. Una posible causa de esta falta de representatividad es un tamaño de muestra muy bajo. Por ejemplo, que nuestra muestra sea solo el 10% de los votos escrutados. Otra causa es una población estructurada, es decir, muy subdividida en cuanto a sus preferencias, y eso es precisamente lo que alega el Tribunal Supremo Electoral (TSE) de Honduras.
Obtener un valor P para el proceso electoral Honduras 2017 sería relativamente sencillo desde el punto de vista computacional. Se obtienen los datos totales del TSE, en este caso, 1412,055 para el PN y 1359,610 para la Alianza. Luego, se ejecuta un algoritmo que tome una muestra aleatoria del mismo tamaño que nuestra muestra, en este caso del 57% del total. Si en esta simulación el PN obtiene una proporción igual o superior a la que obtuvimos en nuestra muestra original, se aumenta un contador en 1. Esta simulación se repite miles de veces (unas 10,000 iteraciones), y al final, el valor del contador se divide entre el número de iteraciones. Si esa proporción (P) es menor al 5%, concluimos que nuestra muestra no es representativa del total y por lo tanto no es aleatoria, es decir, tiene algún tipo de sesgo o estructuración.
Según el titular del TSE y el gerente de Ingeniería Gerencial Arturo Corrales Álvarez las votaciones en Honduras están estructuradas. De hecho, Corrales Álvarez sospechosamente nos lo anticipó desde el domingo de las elecciones cuando publicó en un canal de televisión las encuestas de boca de urna. Nos explicó que, en Honduras, las elecciones no eran como antes, que hoy en día es el voto rural el que decide un ganador, y por ello las elecciones las ganaría Juan Orlando Hernández, el candidato del oficialista Partido Nacional (PN).
¿Cómo explica el TSE y el oficialismo (la misma cosa a juicio de muchos) que, con un 57% de las actas escrutadas y un 5% de ventaja de Salvador Nasralla (SN), candidato de la Alianza de Oposición, al final ganara Juan Orlando Hernández (JOH) por 1%? Ellos achacan esta anomalía a la estructuración en el escrutinio de las actas. Según ellos, la primera parte del escrutinio la ganaba SN porque correspondía exclusivamente a las zonas urbanas. El motivo, según ellos, es que las actas provenientes de las zonas urbanas son transportadas mucho más rápidamente al TSE que las rurales donde el acceso es más difícil. Entonces, ese 57% corresponde a esas zonas urbanas donde SN gana con un 5%. La segunda parte en cambio, o sea el 43% restante, corresponde a las zonas rurales donde gana JOH contundentemente.
Hay varios motivos por los qué dudar de la argumentación del TSE (que llamaremos “la conjetura de Matamoros-Batson, o CMB) y el oficialismo y los enumeraré.
1) La CMB asume que las votaciones están perfectamente estructuradas por preferencia electoral. Toma como hecho que en todas o casi todas las comunidades rurales gana JOH, y en todas o casi todas las urbanas SN. Suponer una estructuración de ese tipo es absurdo debido a que las preferencias electorales están fuertemente marcadas por el tradicionalismo, y este suele exhibir cierta variación tanto localmente dentro de los departamentos como entre departamentos. Si bien puede ser cierto que es probable que haya ciertas preferencias según el criterio urbano o rural, no hay evidencia de que esa preferencia esté perfectamente estructurada.
2) La CMB asume que el conteo fue un proceso perfectamente estructurado, con las regiones urbanas escrutadas primero y las rurales después. Esto es evidentemente falso, primero, porque el acceso por carretera a las diferentes comunidades es variable. Algunas localidades rurales son de fácil acceso, y algunas urbanas se encuentran lejos del TSE. Aunque es posible que haya una tendencia de las actas urbanas a llegar al TSE antes que las rurales, esa tendencia no debe ser tan marcada como para producir la marcada estratificación observada en el proceso.
3) La mayor parte del territorio nacional es relativamente homogéneo en cuando a su clasificación urbano rural. Muchas localidades urbanas muestran características rurales, por lo que no se observa una fuerte estratificación entre estos dos sectores.
4) Más del 50% de la población hondureña es urbana.
5) El tipo de estructuración asumido por la CMB jamás se ha visto en las elecciones en Honduras, donde usualmente la tendencia no cambia desde una muestra tan baja como el 10% de los votos escrutados. Variaciones desde el 5% con 57% escrutado hasta invertir la tendencia es un fenómeno inédito en nuestros procesos electorales.
Ahora, démosle al TSE el beneficio de la duda, y asumamos que la CMB es verdadera y que en realidad el proceso fue sumamente estructurado y que, además, la inversión de la tendencia después de la caída y el reemplazo del servidor fue un evento casual sumamente desafortunado. En este escenario, calcular un valor P con las muestras parciales ofrecidas por el TSE sería una labor inane.
Entonces, ¿Podemos encontrar una muestra del actual proceso electoral que realmente sea aleatoria y representativa de la totalidad de los votantes? Desde luego que sí. Los partidos políticos recibieron copia de las actas durante el proceso, y el Partido Liberal (PL) escrutó el 86% de ellas. Según las palabras del titular del PL Ingeniero Luis Zelaya, con ese porcentaje escrutado SN supera a JOH por 3,396 votos. Para comenzar, no tenemos ninguna razón para suponer que esta muestra no sea aleatoria puesto que las actas son escaneadas directamente del sitio de votación (MER). Es decir, la CMB no aplica para esta muestra.
Podemos realizar algunos cálculos, derivados de la estadística descriptiva, sobre los datos para determinar si es probable que JOH haya realmente ganado por puro azar, sin manipulación de la votación, dados los datos proporcionados por el PL. Estos cálculos son los mismos que se realizan en las investigaciones científicas y permiten saber hasta qué punto, o con cuanta confianza, podemos extrapolar los hallazgos obtenidos trabajando sobre una muestra, al total de la población. Específicamente, calcularé el intervalo de confianza (IC) del dato proporcionado al público por el PL. El IC se utiliza para saber hasta cuanto puede variar un valor en la población, dado ese valor en nuestra muestra, en este caso, el dato del PL.
A Partir de los datos del PL comenzamos calculando el porcentaje o proporción de votos para cada partido. Considerando los votos de la Alianza más los del PN como el 100% (excluiremos a los demás partidos y los votos nulos para facilitar el cálculo), entonces una diferencia de 3,396 nos revela un porcentaje de 50.08% para la Alianza, y de 49.93% para el PN.
El IC depende de dos factores: 1) Del tamaño muestral, y 2) Del porcentaje de confianza que estamos dispuestos a dar a nuestro análisis. A mayor tamaño muestral, más seguros estaremos de nuestro resultado y el IC será más estrecho.  Por otro lado, a menor confianza, más estrecho será el rango de IC y viceversa. En los cálculos más estrictos se utiliza un 99% de confianza, y en los menos estrictos de las ciencias sociales, un 90% (no hace falta comprender los detalles de la estimación de IC, solo el significado que pronto explicaré).
Aplicando la ecuación del IC de la proporción de votos en la muestra del PL para estimar entre qué límites se encontrará el total de votos, y con una confianza del 99.7%, obtenemos los siguientes resultados: Número máximo de votos en favor de la Alianza, 9,335. Número máximo en contra de la Alianza, 1,437. En otras palabras, con una probabilidad muy alta (99.7%) podemos asegurar, que dados los datos proporcionados por el PL, el PN no le puede ganar a la Alianza por más de 1,437 votos. Como el intervalo de confianza comprende ambos casos (gana o pierde la Alianza), los datos del PL muestran lo que se considera un empate técnico.
Ahora bien, según los resultados del TSE, el PN le gana a la Alianza por 52,445 votos que deben encontrarse incluidos dentro del 14% restante no escrutado por el PL. La probabilidad de que esto se de por azar es muy baja. Dicho en otras palabras, la probabilidad de que el PN le haya ganado a la Alianza por más de 1,437 votos por pura casualidad dados los datos del PL es igual a 0.15%, mucho más bajo que el valor alfa del 5% usualmente aceptado por la ciencia para rechazar hipótesis. Por lo tanto, lo más convincente es descartar que el resultado se debe al azar si no más bien a algún tipo de manipulación. Ignoro si los datos faltantes del PL corresponden a los enviados al TSE durante la caída del servidor, pero sería interesante saberlo.

Dadas así las cosas, desde el punto de vista estadístico todo indica una suerte de manipulación de los resultados en los votos faltantes del PL, lo que no descarta la manipulación de otros votos ya incluidos en el escrutinio de ese partido, evidenciado por el cambio brusco en la tendencia después de la caída del servidor con 57% de votos escrutados. Sin embargo, presiento que JOH será declarado ganador por el TSE, aún bajo los cuestionamientos de los hondureños y la comunidad internacional. Ese fue siempre el plan. Para el partido oficialista, no hay acción alterna posible. 

domingo, 3 de octubre de 2010

Algunas estadísticas de "Ciencias, Política, Religión"


En este post muestro algunas estadísticas de este blog (Ciencias, política y religión) recopiladas del servicio que proveen algunos portales. Comenzaré con el servicio de estadísticas de Blogger, el portal en donde reside el blog.
Según Blogger en el último mes se han abierto un total de 5,180 páginas. En toda su existencia (algo más de un año) se han visto un total de 10,313 páginas, lo que significa que la mitad del flujo de lectura ha ocurrido en el último mes, lo que a su vez es parte de la evidencia que muestra que la página está entrando en una fase de crecimiento exponencial.
Los artículos más leídos en el tiempo de existencia son: “Los estrógenos y la luz de luna llena,” “El universo es de los gigantes. ¿O no?,” “Que no le den gato por tigre,” y “Ensayo. El Superorganismo universal,” en ese orden. Tres de estos han sido publicados en los últimos tres meses. El país que más ha visitado en todos los tiempos del blog es Honduras, seguido de México, Estados Unidos, Colombia, España y Argentina, en ese orden, manteniéndose la tendencia durante el último mes.
¿Los mejores amigos del blog? “Networkblogs” (una aplicación de Facebook especialmente diseñada para publicar blogs), y el motor de búsqueda de Google. Por mucho Google de México es la página que más ha direccionado público al blog.
Según “Histats” el número de visitas nuevas y subsiguientes ha aumentado drásticamente durante el último mes. La figura 1 muestra las nuevas visitas (barras rojas), las subsiguientes (barras amarillas) y el total de páginas vistas (barras azules) por día durante los últimos tres meses.
Según el portal “Alexa” el blog se encuentra en la posición 717,172 de todas las páginas web a nivel mundial. Aunque a usted le parezca un número muy grande, esta es una posición relativamente buena tomando en cuenta que se trata de un blog. En Honduras, ocupa la posición 152, la mejor para cualquier blog particular hondureño.
Mucho más importante es la tendencia. La posición en el ranking mundial ha mejorado durante los últimos treinta días a un ritmo aproximado de 15,000 posiciones diarias, y la tendencia ha aumentado en los últimos días, lo que evidencia que el blog se encuentra en una fase ascendente de crecimiento exponencial. También, según Alexa, el flujo de visitas ha aumentado un 6,200% en los últimos tres meses.
Bien, hasta aquí las estadísticas.
Figura 1. Visitas diarias a este blog en los últimos tres meses