Advertencia: Lo que sigue no debe tomarse como un estudio científico concluido, aunque sí podría considerarse como la parte inicial de uno. Tiene algo de datos duros verificables obtenidos de fuentes reconocidas, descripciones fenomenológicas de los mismos e hipótesis sugeridas por los datos las cuales implican consecuencias adicionales que podrían y deberían ser exploradas. Estas podrían formar el inicio de investigaciones posteriores para confirmar o desechar las hipótesis. Además, hay especulaciones, hilos sueltos, preguntas y opiniones. Todos éstos son elementos de toda investigación en la vida real, aunque la mayor parte de ellos debería destilarse o eliminarse antes de producir una publicación científica.
Nota: Para los que quieran/puedan hacer otros estudios, al final hay ligas a información y datos adicionales, incluyendo el PREP completo, ¡casilla por casilla!
En otro tema... Parece fuera de lugar, pero no puedo dejar de aprovechar la oportunidad de felicitar a Gerardo García Naumis y a José Luis Aragón por su artículo, el cual fue reseñado en la primera plana de Nature News. Quizás no se imaginan el enorme honor que significa para ellos, para la UNAM y para la comunidad científica mexicana. ¡Felicidades!
Petición: Empezaron las vacaciones en la UNAM y no es imposible que se vaya la luz o la red en Cuernavaca. Si alguien quiere y puede hacer un espejo de esta página, la puede bajar en formato tar-gzip de aquí. Si me comunican la liga, yo la añadiría a esta página.
En construcción:De la figura 7 en adelante.
Acaba de concluir la votación presidencial en México y el programa de resultados electorales preliminares (PREP) puso a disposición del público en general los datos parciales conforme eran procesados. Durante la noche de la elección hice un pequeño programa de cómputo para capturar dicha información cada cinco minutos (más el tiempo necesario para que el servidor me contestara). Aquí y aquí guardo copias de todas las páginas capturadas. De ellas es de donde extraje la información que presento abajo, aunque contienen mucha más información que podría serles útil.
Un amigo (Guillermo Barrios del Valle, ¡gracias!) me hizo el favor de organizar los primeros correos recibidos respecto al contenido de esta página. Los puede consultar organizados como cronológicamente o como hilos de discusión. Asimismo, organizó un blog.
Nota:Alfonso Baqueiro (su correo está aquí y su blog aquí) escribió un programa muy similar al mío. Afortunadamente inició más temprano y concluyó más tarde su captura sistemática de datos. Muy amablemente, me los hizo llegar, por lo cual rehice las gráficas que contenía mi página original. Para quienes estén interesados, junto a las nuevas gráficas añadí ligas a las viejas gráficas y a los nuevos y viejos datos. ¡Gracias Alfonso! Gracias también a otros lectores de esta página que me han mandado datos. Desafortunadamente, no he tenido tiempo para incluirlos.
Otra característica que me llamó la atención de esta figura es la ausencia de fluctuaciones, aunque creo que eso es normal (ver abajo).
Finalmente, es curioso que la tendencia al alza de AMLO que se había mantenido constante durante el 70% del conteo se revierte rápidamente al llegar al 70%+ de las actas procesadas. Sin embargo, esto podría explicarse si fuera que el voto rural, quizás mayoritariamente pro PRI, hubiera empezado a llegar y a computarse cerca de las 2AM. Otra posible explicación es la llegada de los resultados del noroeste, retrasada debido a las diferencias de huso horario.
Advertencia:Modifiqué la curva correspondiente a Madrazo añadiéndole 13% para poder mostrarla en la misma gráfica. Por lo tanto, el lector deberá restar 13% del valor que lea en el eje vertical.
Figura 1

Gráfica previa
Datos
(Datos previos)
La figura 2 indica la velocidad de recepción y proceso de actas. El eje horizontal corresponde a el número de accesos de el programa, diseñado para tomar una fotografía de la página del PREP cada 5 minutos, aunque dada la saturación del sistema, el tiempo de acceso osciló entre 5 y 10 minutos. El eje vertical muestra el porcentaje de actas procesadas. Claramente, hubo una desaceleración notable en la velocidad de recepción y proceso, lo cual podría explicarse con el arribo tardío del voto rural (ver arriba). Cerca del 31-avo dato (correspondiente al 42-avo acceso (los números difieren pues descarté datos repetidos, i.e., datos capturados antes de que se actualizara la página del PREP))), alrededor de la 1:01AM, hay un pequeño salto. Este se debe a que el PREP no actualizó su página en poco más de 20 minutos. A partir de ahí el ritmo de captura empieza a disminuir. Poco después los datos de AMLO en la figura de arriba muestran un máximo e inician un descenso. Antes del pequeño salto el comportamiento es aproximadamente lineal, mientras que después decrece gradualmente. Una explicación tentativa es que al principio del conteo las actas arribaron a una velocidad mayor a la capacidad de proceso del PREP, por lo cual se formó una cola. Hasta la 1AM el PREP estaría trabajando a su máxima capacidad, que podemos estimar como la pendiente de la región recta. De las páginas del PREP se infiere que de las 21:30 a la 1:01 se procesaron cerca de 70,000 actas, por lo que la capacidad de proceso del sistema es de aproximadamente 330 actas por minuto. Como hubo 300 distritos, esto da un ritmo de un acta por minuto en cada oficina. Habiendo disminuido el ritmo de llegada de las actas, las actas se procesarían inmediatamente conforme fueran llegando y la velocidad de proceso aparente en la figura sería simplemente la velocidad promedio de arribo.
Figura 2

Gráfica previa
Datos (los mismos que para la figura 1)
(Datos previos)
Figura 3

Gráfica previa
Datos
(Datos previos)
Figura 4

Gráfica previa
Datos
(Datos previos)
Figura 5

Gráfica previa
Datos (los mismos que para la figura 3)
(Datos previos)
En esta figura muestro los datos iniciales de la figura 3, correspondientes a las primeras 20,000 actas capturadas. Con una línea vertical he marcado desde donde tengo datos capturados sistemáticamente (con 10943 actas procesadas). De ahí a la derecha se muestran los datos capturados para los tres candidatos. Los tres candidatos muestran una tendencia lineal sin fluctuaciones aparentes, quizás por haberse acumulado ya un número grande de votos, del orden de un millón. Del lado izquierdo de la línea vertical muestro tres líneas rectas (no rotuladas) que parten del origen y terminan en el primer dato capturado para cada candidato. Extrapolé dichas líneas hacia el lado derecho de la gráfica para compararlas con los datos iniciales de los candidatos. En el caso de Calderón, los datos del PREP y la línea recta que parte del origen son prácticamente indistinguibles. En el caso de Madrazo hay una ligera diferencia, lo cual refleja que la votación por acta hacia Madrazo iba aumentando gradualmente, lo cual es consistente con la figura 4. Sin embargo, la línea recta correspondiente a AMLO se aleja bastante más rápidamente de los datos obtenidos del PREP. Eso hace suponer que en las primeras 10,000 casillas la votación por AMLO fue significativamente menor que en las subsiguientes. La pendiente inicial correspondiente a la curva de AMLO tuvo que ser notablemente menor que la pendiente subsiguiente, pues obviamente los datos deberían pasar por el origen. Es sin embargo interesante hacer una extrapolación de los datos de AMLO. Empleando los datos del intervalo [10,000:20,000] hice una extrapolación lineal. La ordenada al origen es -126,000. Curiosamente, dicho número es muy cercano a (menos) el número total de casillas. La figura que le sigue (figura 7) es la misma que la figura 6 pero extendida hasta 70,000 actas. Me llama la atención que el ajuste lineal a los datos iniciales de AMLO, empleando para el mismo sólo los datos entre 10,000 y 20,000, es prácticamente indistinguible de los resultados correspondientes del PREP sobre todo el rango. ¿Por qué la extrapolación hacia el lado derecho de la gráfica es tan buena, mientras que la extrapolación hacia el lado izquierdo es tan mala?
En un escenario de mucha especulación sobre conspiraciones, estos datos podrían interpretarse de la siguiente manera: Pareciera haberse restado un voto a favor de AMLO por cada una de las 130,000 casillas durante la acumulación de los resultados. Seguramente, se podrían encontrar otras explicaciones. Será interesante saber por qué el voto de las primeras 10,000 casillas fue tan distinto al de las 60,000 casillas subsiguientes, el cual habíamos visto en la figura 5 que es muy distinto al de los que siguieron. Urge procesar los datos correspondientes a las primeras 10,000 casillas. Un lector de esta página acumuló datos manualmente desde las 8:00PM. Están disponibles aquí. En cuanto tenga tiempo intentaré añadir esos datos a la figura 6.
Figura 6

Datos (los mismos que para la figura 3)
Figura 7

Datos (los mismos que para la figura 3)
Empecé (7/VII/06) a procesar la base de datos del PREP y me encontré con algunas dificultades.
Figura 9

Datos (como en la figura 8).
Figura 10

Datos (como en la figura 8).
Figura 11

Datos (como en la figura 8).
Figura 12

Datos (como en la figura 8).
La figura 16, correspondiente a Madrazo, muestra un comportamiento muy común en procesos con cierta aleatoriedad. Tiene un máximo que resulta estar en 53 votos con una altura de 1603 actas, i.e., obtuvo 53 votos en 1603 de las cerca de 117000 actas. A ambos lados del máximo, el número de actas disminuye gradualmente con algunas fluctuaciones. Como el número máximo de votos que podría haber obtenido es mucho mayor que 55 (del orden de 700), mientras que el número mínimo de votos que pudo haber sacado (0) es relativamente cercano a 55, el decaimiento hacia la derecha es más lento que el decaimiento hacia la izquierda, i.e., su distribución es unimodal (tiene un pico), y corresponde a una curva suave ligeramente asimétrica. Se ve cualitativamente como la famosa campana de Gauss pero deformada. Apenas obtuvo cero votos en un manojo de actas.
Los datos correspondiente a AMLO se ven bastante peculiares. Tienen un máximo en una posición cercana al máximo de Madrazo, aunque con una altura menor. A la derecha del máximo muestra un decaimiento suave mucho más extendido que el de Madrazo pero cualitativamente similar. Lo que me llama mucho la atención es que el decaimiento hacia la izquierda del máximo no parece ser una curva suave sino más bien podría describirse muy bien por una burda línea recta, cuya ordenada al origen estaría entre 25 y 50 actas donde habría obtenido 0 votos. De hecho, obtuvo 0 votos en 45 casillas. A diferencia de la curva típica de Madrazo, la de AMLO tiene un quiebre abrupto en el máximo. Las curvas usuales suelen empezar con curvatura positiva, la cual cambia de signo antes de llegar al máximo y vuelve a cambiar de signo a medio descenso. Esta curva podría describirse como una curva típica a la que se le cortó una parte.
Los datos correspondientes a Calderón son más curiosos aún. Tienen un máximo muy ancho cercano a los 80 votos por acta con una altura cercana a 700 actas. Hacia la derecha tiene un decaimiento extendido y suave cualitativamente similar al de AMLO. Hacia la izquierda, el decaimiento comienza de una manera normal, con la misma forma que el de Madrazo, pero cambia su comportamiento pues aparece un segundo pico con un máximo cerca de 15 votos. La mayor parte de la contribución a este segundo pico se debe a las actas que más tarde llegaron al IFE. Para ilustrar esta afirmación, en la figura 19 se muestra el histograma de la votación de Calderón correspondiente a las últimas 30,000 actas procesadas. Es sorprendente que la diferencia con la figura 18 sea tan grande. Era de esperar una curva similar aunque con una altura menor y con fluctuaciones más visibles por tener menos datos. En lugar de eso, vemos que la parte derecha de la curva ha sido muy abatida, mientras que la parte izquierda apenas empieza a cambiar su tamaño. Estos datos tienen la forma típica que corresponde a la suma de dos distribuciones distintas, cada una con sus propias características. En este caso una describe la banda gris horizontal previamente discutida y que se extiende a todo lo ancho de la figura 13. La segunda distribución corresponde a la región anómala que muestra la figura 13 sobretodo a partir del acta número 90,000. Las dos distribuciones parecen cruzarse alrededor de los 30 votos. Podemos eliminar la subjetividad en esta estimación, usando el mínimo de la distribución, el cual está en 29 votos. Consideremos un punto tomado de la figura 18, correspondiente a H actas con N votos cada una. Ese punto contribuye HxN votos en total. Sumando dichos productos sobre todos los puntos desde que N es igual a cero y hasta que sea igual a 29, donde se cortan las dos distribuciones, podemos estimar el número total de votos que obtuvo Calderón a partir de sumar la segunda distribución anómala: el número de actas en que Calderón obtuvo 29 o menos votos fue de 9914; el número total de votos contenidos en dichas actas fue de 149,329. Una forma más cuantitativamente aceptable de hacer el cálculo previo es mediante un ajuste en que se proponga cierto número de curvas tomadas de una familia tal y como la familia de curvas Lorentzianas, se optimizan los parámetros de cada una de las curvas de manera que su suma sea la mejor aproximación posible a los datos, y finalmente se integran las funciones analíticas resultantes para obtener el número de actas y el número de votos contribuidos por cada una de las distribuciones. Este trabajo está en curso con la colaboración de un colega.
Para que el lector lo pueda comparar, a continuación muestro los histogramas correspondientes a Madrazo y a AMLO calculados con las últimas 30,000 actas. En ambos casos, la forma del histograma es igual a las correspondientes a los datos completos, 16 y 17, solo que escaladas por contener menos datos.
Figura 26

Datos.
Noten la escala. Noten la estructura... pero no, no significa nada,
pues Campa y Mercado obtuvieron votaciones de un dígito, por lo cual
la distribución no tiene por qué ser azarosa.
En todo caso, los
valores de la variancia de las gráficas previas son:
Calderón 141.00
Madrazo 102.15
AMLO 69.88
Campa 7910.26
Mercado 2122.94
Como referencia, hay cerca de N=117000 votos, la probabilidad de obtener
un dígito cualquiera es p=0.1, el valor promedio del número de veces
que aparece un dígito es p*N=11700 y la raiz cuadrada de
p*(1-p)*N=102.61. ¿Es esta una buena estimación de la variancia para
estos datos? ¡El único dato típico es el de Madrazo! Las enormes
variancias de Campa y Mercado son por su extremadamente baja captación
de votos. ¿Son razonables las variancias de Calderón (40% más que la
esperada) y de AMLO (70% de la esperada)? Este análisis debe repetirse
sobre muchos subconjuntos antes de que pueda ser conclusivo.
Algunas preguntas en la primera versión de esta página pueden contestarse ahora que tenemos más datos. Por ejemplo, la ventaja numérica inicial de Calderón sobre AMLO en las primeras casillas computadas no fue tan grande como podría suponerse de su gran ventaja porcentual, sino que se fue construyendo gradualmente durante las primeras 70000 casillas computadas. No hay que olvidar que un porcentaje se obtiene de hacer una división y puede resultar grande tanto si el numerador es grande como si el denominador es pequeño. Sin embargo, los nuevos datos originan nuevas dudas.
Si entiendo bien, los resultados arriban al PREP en un orden determinado principalmente por la accesibilidad y facilidades de comunicación. Así, los datos de ciudades grandes arribarían antes que los de ciudades pequeñas y éstas antes que de poblaciones rurales. Sin embargo, no esperaría otras distinciones geográficas ni de clase socioeconómica. Por lo tanto me queda abierta la pregunta ¿son normales y explicables los datos mostrados arriba? ¿cual es su explicación? ¿son consistentes con resultados de elecciones previas?
Es importante resaltar que la elección se define por el valor final del recuento de votos y que el 'ganador provisional' durante el recuento debería considerarse un dato circunstancial sin valor alguno. Si las mismas boletas fueran contadas en un orden distinto, podría fácilmente modificarse la identidad del 'ganador provisional' durante parte, o incluso, durante la mayor parte del conteo. Sin embargo, su identidad sí tiene un valor psicológico y estratégico, pues fortalece la imagen entre la ciudadanía de que hay un ganador establecido desde el inicio del conteo. De hecho, desde la noche de la elección, el candidato del PAN argumentó que había estado por arriba de su contrincante durante todo el conteo, como si esa infomación sirviera para establecer su triunfo de manera irrebatible. Este argumento ha sido repetido en días posteriores en los medios. La implicación es, desde luego, falaz.
Si desea comentar esta página, por favor envíeme un mensaje aquí o, mejor aún, añada un comentario al blog. Puede consultar los mensajes recibidos con anterioridad, organizados como cronológicamente o como hilos de discusión.