Tributo al campeón

El ajedrez se ha convertido en algo muy especial con la llegada de la computación.

Ha cambiado la forma en la que se juega, obligando a que las partidas se terminen al momento, sin posibilidad de que los jugadores abandonen un recinto controlado.

Ha cambiado la forma en la que se ve.

El aficionado sabe más que el jugador y suspira porque su jugador favorito haga la jugada que está viendo. Que está viendo gracias al ordenador.

La partida va por otro derrotero: dos cabezas pensando sin ayuda. Construyendo un relato, una táctica, una idea por donde desarrollar las piezas y hacer fluir el juego o el contrajuego.

Los fallos se ven al instante. Los aciertos parecen menos. Y así ha transcurrido todo el mundial.

Las partidas largas han sido en general bastante precisas. Creo que recordar que sólo dos fallos de los gordos: Magnus buscando una victoria improbable cuando tenía tablas decentes y Sergei perdiendo una oportunidad de tablas y perdiendo.

Las tres últimas partidas rápidas de anoche han explotado todo el potencial del juego.

En la primera Magnus ha tenido una posición abrumadora con ordenadores cantando mate en 10 jugadas o algo así. No ha sabido construir el relato, entender la posición, o asignar las casillas correctas a sus piezas. Ha desaprovechado una ocasión ventajosa. Sergei ha hecho todo lo contrario. Encontrar su relato, su fortaleza y sacar unas increíbles tablas por ahogado.

En la siguiente partida Magnus simplemente ha destrozado a Sergei. Hay un movimiento crítico 29… Bxf6 que todos los ordenadores y comentaristas del mundo han cantado como malérrima. Todos preferían gxf6 porque abría la columna g para el ataque de Magnus. El siguiente movimiento de Magnus 30… e4 ha dejado boquiabiertos a casi todos los que criticaron Bxf6: ha abierto la gran diagonal negra. Frente a un ordenador no habría ganado pero frente a Sergei fue suficiente. Hizo crack.

La última partida era épica por su trascendencia pero muy desequilibrada. A Magnus, con blancas, le bastaban las tablas para seguir siendo campeón. Sergei tenía que ganar sólo para seguir jugando. Era demasiada ventaja. Sergei sólo ha podido complicar buscando más que nada el error del adversario.

La partida ha dado un momento bellísimo. Los comentaristas cantando una línea aguda, peligrosa pero digna de una traca final de mundial. Y, esta vez, el ajedrecista ha dado con ella, que la ha preferido a un movimiento más calmado, suficiente, anodino y seguro.

Así fue en chess24 en inglés con Peter Svidler y Jan Gustafsson. Peter jugó el torneo de candidatos (la prefinal del mundial). Es como tener a uno de los mejores jugadores de un deporte comentando la final del mismo deporte. En un momento Jan llega a decir que Peter es el mejor ordenador en estos momentos (la partida rápida) porque piensa más o menos como quienes están jugando la partida. Peter se da cuenta de la línea y de su último movimiento y estalla con un wooo. Prácticamente descarta que esa línea vaya a ocurrir por lo arriesgado del momento. Lo que ocurrió después le sorprendió

Y así fue en chess24 en castellano.

Fue una gran noche.

Anuncio publicitario

Reparto proporcional (y II)

Como prometí en mi entrada anterior voy a analizar la elección al Congreso de los Diputados, es decir el artículo 68 de la Constitución y su desarrollo en los artículos 161 y 162 de la Ley Orgánica del Régimen Electoral General del año 1985.

Para ello inicialmente voy a comparar el reparto electoral del Congreso de los Diputados con el reparto electoral de la Cámara de Representantes (el Congreso) de Estados Unidos. Hay semejanzas entre ambos procesos. Por ejemplo se trata exactamente del mismo número de entidad administrativas: 50 provincias (Ceuta y Melilla tiene un tratamiento diferente y no se considera aquí) y 50 estados.

La estructura poblacional de las entidades son muy parecidas si ordenamos las entidades de mayor a menor en base a su población. Entre la más (California y Madrid) y menos poblada (Wyoming y Soria) hay un factor 40 de diferencia. La mayor representa algo más del 10% de la población en los dos casos. El número de entidades que sobrepasan el 5% de la población es similar. La diferencia más significativa es que en España hay dos grandes entidades de tamaño parecido (Madrid y Barcelona) mientras que en Estados Unidos la segunda entidad (Texas) es apreciablemente más pequeña que la primera.

La cámara americana tiene 435 escaños, la española 348. El tamaño es parecido pero en relación al número de habitantes es apreciablemente diferente. Estados Unidos cuenta con 1.41 congresistas por millón de habitantes. España con 7.52 diputados por millón de habitantes. Hay un factor 5 de diferencia. Si lo prefieren, el Congreso de los Diputados debería tener 65 escaños, o la Cámara de Representantes 2175 escaños para que fueran comparables en relación tamaño a población.

En la primera figura que les he preparado se compara la influencia relativa de cada entidad (provincia y estado) en función del ránking de población. El color de cada dato nos indica el número de escaños de la provincia o estado. A la izquierda están los datos de España, a la derecha los datos de Estados Unidos. En el eje Y se mide la influencia relativa: se toma como unidad de influencia la ratio de cada país.

loreg

La diferencia entre el reparto español y el americano es evidente. En el caso español la influencia aumenta monótonamente conforme disminuye la población (mejor dicho el ránking) en Estados Unidos permanece más o menos independiente del ránking. Por favor, no concluyan de la figura que el sistema americano es «mejor» o «más justo». O que el sistema español «no es democrático». Son conclusiones gruesas.

En España la mayor diferencia de influencia se da entre la provincia más poblada (Madrid) y la segunda menos poblada (Teruel) y representa un factor 4. Teruel es más influeyente que Soria porque alcanza a tener 3 diputados aún cuando la diferencia de población no es muy grande.

En Estados Unidos la diferencia mayor ocurre entre estados consecutivos en ránking de población: Rhode Island y Montana. Y la razón es que Rhode Island alcaza a tener dos representantes (el segundo representante de Rhode Island es el 419º representante de la cámara) mientras que Montana no llega a alcanzarlo: sería el 440º representante pero sólo hay disponibles 435. El factor de diferencia es 2, que es simplemente la diferencia entre tener uno o dos representantes.

La cuestión es ¿por qué el reparto español está tan sesgado hacia las provincias menos probladas?

Hay doble razón. La primera diferencia es que en España se asignan como mínimo 2 escaños a cada provincia. Este mínimo asignado representa el 28% de los diputados. En Estados Unidos el mínimo es un escaño por estado y totaliza el 12% de los representantes. Un detalle: 11% es la población de la entidad más poblada tanto en Estados Unidos como en España. Un 28% es mucho más que esa cantidad.

La segunda razón es el método de reparto de los escaños sobrantes. En Estados Unidos se usa el método de Huntington (lo tratamos en la entrada anterior) que está sesgado hacia las entidades más grandes. Recuerden que después de asignar el primer escaño a todos las entidades el método divide por 1, 1.73\dots en vez de 1,2\dots. En poco se nota la diferencia. Los estados más poblados son California (37.3M), Texas (25.2M) y Nueva York (19.4M). California consigue su segundo escaño (51º del orden) por ser el más poblado. El siguiente escaño (52º) es para Texas por ser el segundo estado más poblado. Y el escaño 53º vuelve a ser de California: su poblacion es 1.92 veces la de Nueva York, no la duplica pero sí sobrepasa las 1.73 veces (\sqrt{3}) del método de Huntington. En conjunto el método de Huntington «rectifica» el efecto del mínimo asignado penalizando a los menos poblados y primando a los más poblados. Satisface el requerimiento constitucional de asignación proporcional con un mínimo asignado.

En España los escaños sobrantes (248) se distribuyen por el método de los restos mayores que es todo lo contrario del método de Huntington ya que está claramente sesgado hacia entidades menos pobladas. Es decir, ahonda aún más la desproporción que implica el mínimo asignado; el cuál a su vez ya está generosamente ampliado a dos escaños.

De forma efectiva al usar el método de los restos mayores es casi como si se asignaran tres diputados a todas las circunscripciones: sólo Soria no alcanza el tercer diputado y sí lo alcanzaría si se usara el censo en vez de la población como criterio de reparto (hay pocos niños en Soria).

Les he preparado la siguiente simulación en la que se varían el mínimo y el método de reparto. A la izquierda el mínimo es dos escaños; a la derecha el mínimo es un escaño. La figura sólo muestra datos de España pero les aseguro que los datos de Estados Unidos serían indistinguibles de los españoles en esa gráfica.

comparativa_2

Todas las simulaciones mejoran la influencia de las provincias más pobladas a costa de las menos pobladas. Y causa más efecto reducir el mínimo que variar el método de reparto.

Fíjense en el factor que relaciona a la provincia más influyente con la menos influyente, es un factor más importante en mi opinión que si la influencia es cercana o lejana a la unidad (es decir a la ratio del país). A la izquierda la diferencia entre la provincia más influyente y la menos pasa de 3.6 a 3.3, frente al 3.9 del método vigente; un cambio modesto. A la derecha, la diferencia se reduce casi a la mitad: de 3.9 a 1.8 y es muy próximo al valor que se observa en Estados Unidos (1.9). Este valor está relacionado con la naturaleza discreta del problema.

También es muy significativo que a la izquierda la provincia menos influyente sea siempre la más poblada y la más influyente la menos poblada. Indica que el sesgo que introduce el mínimo de dos escaños es difícil de contrarrestar por un método de reparto.

A la derecha la población menos influyente: en la primera simlación sigue siendo Madrid pero ya hay menos distancias con las poblaciones más pobladas que consiguen un determinado número de escaños. Es decir, la línea discontinua horizontal casi llega a tocar a los puntos de 1 escaños, 3 escaños, 4, 5, 7 y 8 escaños. Esto indica que la asignación mínima (un escaño) y el método de reparto (d’Hondt) producen un resultado proporcional donde la dispersión de los datos proviene esencialmente de la naturaleza discreta de la asignación. Es, en mi opinión, el escenario ideal.

Las otras dos simulaciones de la derecha producen resultados más independientes del ránking porque sesgan la atribución hacia las provincias más pobladas. La provincias más y menos influyentes pertenecen al segmento de las menos pobladas.

La última figura muestra el baile de escaños y es suficientemente descriptiva

comparativa

Déjenme que concluya con tres reflexiones. Es difícil saber a posteriori por qué la LOREG atribuye los escaños de esa forma en la que todas las decisiones que se pueden tomar favorecen a las provincias menos pobladas. Se suele decir que fue una forma de apuntalar el bipartidismo. No es más que una falacia post hoc ergo propter hoc. De hecho la LOREG implica que en todas las circunscripciones salvo en Soria, Ceuta y Melilla pueden elegirse representantes de al menos tres partidos diferentes. Es decir, se podría argumentar justamente todo lo contrario: fue para atemperar un posible bipartidismo. También sería un brindis al sol.

Por otra parte conocemos las aversiones de muchos españoles por los sistemas mayoritarios, sobre todo en la izquierda: al aumentar los mínimos asignados se evitaban elecciones uninominales. ¿Pudo ser que a algunos les nublara la alergia al sistema mayoritario? ¿Que prefirieran asegurar el segundo o tercer escaño de Teruel en vez de luchar por el 40º de Madrid?

La segunda reflexión tiene que ver con las entidades. En Estados Unidos los estados son bastante iguales en derechos/obligaciones y sus ciudadanos celosos de esa igualdad. El método de Huntington, que es de 1940 tras inumerables discusiones sobre la representatividad de los estados, puede entenderse como una manifestación extrema de esa igualdad. En España las provincias son entidades administrativas más que otra cosa, con la excepción quizá de las provincias vasco-navarras. No ha habido un celo especial en atender este problema o no ha pasado el tiempo necesario para que se generen estas discusiones. Por otra parte creo que la solución americana de estricta proporcionalidad sería inconstitucional en España porque aquí, a diferencia de alli, por una parte está el mínimo asignado y por otra el reparto de los sobrantes. Sólo el último ha de ser proporcional sin que quepa, aparentemente, sesgar el método de reparto a uno u otro lado.

Mi última reflexión es sobre otra diferencia entre Estados Unidos y España; quizá la más notable. En Estados Unidos el estado no tiene porqué ser la circunscripción. El reparto determina los representante del estado pero luego las elecciones suelen ser uninominales (casi siempre) y lo que se discute es el tamaño y forma de la circunscripción. Cada diez año cambia el censo, puede cambiar el número de representantes de un estado y obliga a redefinir distritos electorales, y aparece el gerrymanderimso. Si hablamos de tamaños actualmente la circunscripción más grande es Montana (1M de habitantes); las más pequeñas son las dos de Rhode Island, que tienen aproximadamente la mitad de tamaño. La diferencia se debe, únicamente, a la naturaleza discreta del problema y es irresoluble.

En España cuando hablamos de este reparto estamos fijando las circunscripciones, que han de ser provinciales por mandato constitucional. Entonces aquí conviven una elección de 2 diputados en Soria con una de 36 en Madrid. Si usáramos primer modelo de la derecha (mínimo un escaño, reparto por d’Hondt) conviviría una elección de un diputado con elecciones 45 diputados. El diferencia, enorme, no está en la naturaleza del problema sino en la restricción constitucional.

Ojalá circunscripciones subprovinciales y su gerrymanderismo.

Reparto proporcional

En esta entrada voy a retomar el cuñadil y actual tema electoral y voy a explicar los distintos métodos todos de reparto electoral. Sin embargo, no lo voy a hacer pensando en la atribución de escaños a candidaturas en un sistema de listas cerradas. Lo voy a hacer pensando en la atribución de escaños a una circunscripción en función de su población. Es un problema similar pero con una importante diferencia.

La discusión de los métodos de reparto la voy a hacer en relación con dos sistemas legales reales: el estadounidense y el español. Ambos abordan el problema de forma similar pero con un sutil diferencia. La Constitución americana trata el tema en la Sección 2.3 y viene a señalar que el número de representantes de cada Estado (que no es necesariamente una circunscripción) será proporcional a la población (originalmente la población se refería a las personas libres, excluía a los indios y un esclavo era sólo tres quintos de persona) y que todo Estado tendrá al menos un representante. Además la Constitución manda realizar un censo decenalmente, que sirve para realizar el reparto.

La Constitución española es igual pero diferente. En su artículo 68.2 se dice que la circunscripción provincia, que Ceuta y Melilla estarán representadas por un diputado y que la ley distribuirá el número de diputados atribuyendo un mínimo inicial a cada circunscripción y distribuyendo los demás en proporción a la población.

La diferencia principal entre una elección en la que se asignan escaños a partidos y el reparto de escaños de una diputación entre circunscripciones es que en este último caso hay que garantizar al menos un escaño a cada circunscripción, mientras que en el primero, obviamente, no. Y esa atribución mínima se trata de forma diferente en ambas constituciones. En la americana parece incrustando en la forma de repartir los escaños mientras que en la española se describen dos procesos diferentes.

Como decía al principio esta entrada trata de describir los principales métodos de reparto proporcional y para una posterior, un análisis más pormenorizado de la LOREG. Matemáticamente me pongo a ello.

1. El método de Vinton, Hamilton, Hare o de los restos mayores

Es, probablemente, el método de reparto que se le ocurriría a un bachiller, a un cuñado, a un tuno o a alguien que hiciera la cuenta de la vieja. Es decir es el primer método que se le ocurre a uno. Y, también, es una estafa intelectual.

El método consiste en obtener una cuota que es el resultado de dividir la población del país entre los escaños. Pongamos que hablamos de cuarenta millones y de 350 escaños, lo que da un número de 114285 habitantes por escaño. Se cogen las poblaciones de cada circunscripción y se dividen por la cuota. Pongamos que tenemos una circunscripción de un millón de habitantes y obtendremos un número tal que 8,75. A la circunscripción se le asignan ocho escaños (la parte entera) y al resto todo igual.

Cuando sumamos todos los escaños asignados observaremos que nos hemos quedado cortos. Hay un déficit por asignar. Esos escaños se asignan a las circunscripciones con restos (fracciones decimales) mayores.

Intuitivo cómo es, resulta en una estafa porque la fracción decimal obtenida no guarda proporcionalidad con la población original. Efectivamente la fracción decimal sólo puede variar entre 0 y 1 sea cual sea la población de la circunscripción. Esto ocasiona una vasta literatura de paradojas electorales con nombre submarino americano.

2. El método de Jefferson o de d’Hondt

En América es el método de Jeffeson aquí, el de d’Hondt. Al parecer Jefferson no estuvo contento con la forma en la que se repartieron los escaños de las primeras Cortes americanas e ideó un método alternativo que, casualmente, favorecía a su estado natal. Un siglo después y un continente más lejos, d’Hondt ideó su celebérrimo algoritmo que tan feliz he hecho a su familia.

El método comparte una secuencia de operaciones idéntica al de resto de métodos que voy a describir por lo que entenderlo, y explicarlo, es importante para la discusión posterior.

Es un método iterativo que primero ordenaría las circunscripciones de mayor a menor según su población. Asignaría el primer escaño a la circunscripción más poblada. El segundo escaño se lo asignaría a la circunscripción más poblada salvo que la primera circunscripción doble en población a la segunda.

La idea es que si ocurriera esto la circunscripción más poblada de podría dividir en dos subcircunscripciones iguales y aún así cada una de ellas estaría más poblada que el resto.

El tercer escaño se atribuye de forma diferente según se ha atribuido el segundo. Si la atribución va por (1,1) el tercer escaño se atribuye a la tercera circunscripción más poblada, salvo que la circunscripción más poblada le doble en población. Si la atribución va por (2,0) el tercer escaño se atribuye a la segunda circunscripción más poblada, salvo que la circunscripción más poblada la triplique en población.

Exactamente se coge la secuencia de divisores más simple posible: 1, 2, 3,… y se divide la población por esos divisores. Los resultados más altos reciben los escaños.

Si hablamos de circunscripciones el método d’Hondt no garantiza per se que todas tenga un escaño pero podemos forzar esto de dos formas. La primera sería la española, asignando un escaño ad hoc a cada circunscripción con independencia de su población y repartiendo el resto de escaños por el método d’Hondt.

La otra forma es a la americana. Formalmente basta con incluir el cero entre los divisores. Al hacerlo la primera división es siempre infinito, con independencia de la población de la circunscripción y se asignarán escaños uno a uno a todas las circunscripciones. Y después el método sigue igual. A esta forma de proceder se le llama también método de Adams.

Como ven la secuencia de divisores se diferencia exactamente en una unidad, y la razón entre dos divisores consecutivos es

\frac{n}{n+1}
3. El método de Webster, Sainte-Laguë; números impares; o media aritmética

Todo lo que viene a continuación son pequeñas variantes que se han ideado para pasar a la posteridad. La mecánica es similar el método d’Hondt, lo que cambian son los divisores.

Si en el método d’Hondt fijamos la atención en un número y en su sucesor n, n+1 ya que sólo podemos asignar n escaños o n+1 escaños, el método de Webster fija su atención en la media aritmética de los número naturales consecutivos. Si empezamos en el cero los divisores serían 0.5, 1.5, 2.5\dots y si dividimos por el inicial se obtienen los número impares 1, 3, 5, 7\dots

Con el ejemplo vemos que la diferencia entre dos divisores consecutivos no es demasiado importante. En la primera sucesión se diferencian en uno y en la segunda se diferencian en dos. Sin embargo la razón entre dos divisores consecutivos es siempre

\frac{2n+1}{2n+3}

Hay dos diferencias importantes con el método anterior. La primera es que para reparto de escaños entre circunscripción sólo se puede añadir el cero con un calzador ya que el cero no es un número impar.

La segunda es que tiende a perjudicar a las circunscripciones grandes. Basta con ver el primer paso: la provincia más poblada sólo obtiene su segundo escaño si triplica en población a la segunda provincia más poblada.

4. El método de Dean o de la media armónica

Si antes hemos utilizado la media aritmética de n,n+1 el método de Dean usa la media armónica de dos números consecutivos. La media armónica de dos números es el doble del recíproco de la suma de los recíprocos. Es decir H=2/(1/x + 1/y).

Si los dos números son consecutivos la media armónica es 2x(x+1)/(2x+1) y la sucesión que se obtiene es: 4/3, 12/5, 24/7, 40/9\dots que se puede escribir como 1, 9/5, 18/7, 30/9, 45/13\dots y en notación decimal es: 1, 1.8, 2.57, 3.333, 4.09\dots

Como ven la diferencia entre dos divisores consecutivos no es constante y el cociente entre ambos es

\frac{n(2n+3)}{(2n+1)(n+1)}

Saben el problema de las dos personas esas de las que una se come un pollo y el otro no se come ninguno. La media aritmética dice que se han comido medio pollo. La media armónica dice que no se han comido ninguno. Es decir, el cero es un elemento natural de la serie y el método puede usarse de un golpe para asignar escaños a circunscripciones con la garantía de que cada una obtendrá, al menos, un escaño.

Si lo comparamos con el método d’Hondt los divisores son ahora más pequeños y el sesgo se produce hacia las poblaciones más pobladas. Descontando una posible atribución inicial, la primera circunscripción un segundo escaño si tiene más de 9/5 (y no 10/5) veces la población de la segunda circunscripción.

5. El método de Huntington, de Hill o de Huntington-Hill

Este método es el que se usa en las Cámara de Representantes americana desde 1940 y fue implementado por un matemático americano Huntington que estudió el tema y que llegó a la sorprendente conclusión de que lo bueno no eran números consecutivos, ni la media arimética de números consecutivos, ni siquiera la media armónica de números consecutivos… no, lo que debería usarse es la… media geométrica de números consecutivos.

La media geométrica de dos números es la raíz cuadrada del producto de los números. Así que en el ejemplo del pollo, la media geométrica sigue siendo cero. Y, por tanto, también podemos asegurarnos de que todas las circunscripciones tendrán al menos un escaño.

Junto con la arimétrica y la armónica la media geométrica conforman lo que se conoce como medias pitagóricas, que se conocen desde tiempos de Pitágoras.

Para números consecutivos la media geométrica es \sqrt{n(n+1)} y eso es 0, \sqrt{2}, \sqrt{6}, \sqrt{12}, \sqrt{20}, \sqrt{30}\dots o, si lo prefieren la raíz cuadrada de 0, 1, \sqrt{3}, \sqrt{6}, \sqrt{10}, \sqrt{15}\dots que en notación decimal se convierte en 0, 1, 1.73, 2.44, 3.16, 3.87\dots

La razón entre dos divisores consecutivos es siempre

\sqrt{\frac{n}{n+2}}

De nuevo es un método sesgado hacia las circunscripciones más pobladas. A la primera circunscripción le basta ahora un 73% más de población (y no un 100% más) para obtener el segundo escaño en liza.

Lógica

El método de Vinton, Hare o Hamilton se usó en el reparto de escaños en Estados Unidos. Descubrieron que daba más paradojas y quebraderos de cabeza que otra cosa y lo desecharon.

El método Adams o Jefferson también se usó o, al menos se intentó usar, para el reparto de escaños americano.

El método de Webster o Sainte-Laguë se ha usado en diversas ocasiones en el reparto de escaños americano y en la asignación de escaños a candidaturas en diversos países de europa.

No he encontrado casi nada sobre el método de Dean.

El método de Huntington-Hill es el que se usa en el legislativo americano desde 1940. Responde al intento de equilibrar el poder de los estados dentro de la cámara. El «poder» se representa numéricamente por el cociente entre la población del estado y el número de escaños. Mayor cociente implica menor poder o influencia.

Hay tres razones que originan que este cociente sea variable. Una es consustancial al problema: las poblaciones de los estados varían independientemente unas de otras y los escaños sólo pueden ser números naturales consecutivos.

Otras dos son de índole práctica y pueden ajustarse. La primera es el tamaño de la cámara, que siempre es finito. El tamaño de la cámara (que puede ajustarse) y la población del país (que es dada) determina el promedio de influencia. En Estados Unidos con 320 millones de habitantes y una cámara de 435 escaños tocan a unos 700000 hombres libres por escaño.

El segundo parámetro distorsionador es la atribución mínima de un escaño a cada estado, independientemente de la población, que es cualquier cosa menos proporcional; y tanto menos cuanto más diferente sea la población de los estados. En Estados Unidos va desde los 40 millones de California al medio millón de Wyoming (un factor ochenta).

El tamaño de la cámara está también relacionado con esto. Una propuesta sería hacer la cámara tan grande como para que la razón entre la población total de Estados Unidos y los escaños de la cámara sea el medio millón por escaño. De esta forma la atribución de un escaño a Wyoming, que tiene una poblacíon de medio millón de habitantes, sería «natural». Esto haría que la Cámara pasase de 435 escaños a 547 escaños. Descontando los cincuenta iniciales habría 497 escaños repartidos proporcionalmente lo que amortigua la influencia de los escaños asignados por mínimo. Sorprendentemente la propuesta de aumentar la cámara proviene de Wyoming.

El método de Huntington no es una solución real a un problema sino, más bien, otra forma de estabilizar el sistema. La idea es que dado que los estados con población más pequeña están «favorecidos» por la atribución mínima de escaños usar un método sesgado hacia los estados más poblados para que el resultado global sea más «justo». Es decir usa secuencia de divisores como 1, 1.73 (más fácil para la circunscripción más poblada que el 1,2 del método d’Hondt) para contrarrestar el divisor inicial que asigna el escaño mínimo.

Es una cuestión interesante analizar la bondad del argumento porque, en cierta forma, equivale discriminar a los estados pequeños por el simple hecho de tener una representación mínima… que está garantizada constitucionalmente. En España sería dudosamente legal porque aquí, a diferencia de allí, la Constitución diferencia más nítidamente lo que es la asignación inicial de lo que es el reparto de los sobrantes. Y este reparto de sobrantes ha de hacerse necesariamente por un criterio proporcional sin que, aparentemente, quepa «castigar» a las circunscripciones más pequeñas porque ya tuvieron su mínimo.

No obstante analizaré el caso español en una próxima entrada.

Un voto particular sobre los umbrales de representación

Ayer inicié en tuiter una conversación con una tal mandarina sobre los umbrales que fija la ley para acceder al reparto de escaños.

Indagué un poco y me encontré con una sentencia del TC al respecto. Es esta. Se refiere a una elección por la circunscripción de Barcelona al parlamento de Ponilandia. Voy a argumentar unas discrepancias.

Antes que nada debo decir que estaría más cómodo si el recurso se refiriera a una elección al Congreso. El motivo es que la Constitución Española trata de forma diferente las elecciones al Congreso y las elecciones a parlamentos autonómicos. Probablemente porque uno estaba formado y lo otro, no.

Respecto del Congreso la CE fija todos sus parámetros. El constituyente se constituyó en la práctica en legislador electoral: fija la circunscripción, los escaños mínimo y máximo que hay en el Congreso, los escaños mínimos que debe tener una circunscripción y que, y esto es lo importante, dentro de una circunscripción la elección se verificará atendiendo a criterios de representación proporcional (artículo 68). Por contra el artículo 152 dice que los Estatutos de Autonomía fijarán en todo caso una Asamblea Legislativa que será elegida por sufragio universal con arreglo a un sistema de representación proporcional (artículo 152). La diferencia de matiz entre criterio (artículo 68) y sistema (artículo 152) es creo clara. La primera es precisa y restrictiva; la segunda es laxa e imprecisa.

Hecha esta salvedad voy a entender que el artículo 68 es aplicable al caso que entendió el TC y, alternativamente, pueden imaginarse que se planteara para una elección al Congreso.

Lo que me llama la atención de la sentencia son los fundamentos jurídicos 4 y 5. En ellos el Tribunal muestra una falta de pericia matemática a la hora de argumentar.

En el caso se resuelve el recurso de un partido que no obtuvo representación parlamentaria por no haber superado el umbral del 3% fijado para la ocasión. Es decir, la estricta aplicación del método d’Hondt le habría asignado al menos un escaño. No se le asigna porque no supera el umbral legal. En la elección del pasado domingo 24 de mayo del 2015 este caso se ha planteado en Navarra (donde Ciudadanos no alcanzó el 3%) y en Madrid (donde hasta cuatro partidos que no alcanzaron el límite del 5% habrían obtenido un escaño según el método d’Hondt).

El problema constitucional se refiere a la igualdad, el acceso a cargos públicos y, directamente, al artículo 68 por cuanto un umbral legal no es un criterio proporcional.

En su fundamento jurídico 4 el Tribunal dice:

No es aceptable, por último, el argumento de que la discriminación se produce por referencia a las personas que integran las distintas candidaturas, esto es, si se tiene en cuenta que el número de votos que corresponden a candidatos incluidos en listas que no han rebasado el límite del 3 por 100, y, por tanto, no llegan a ser proclamados electos, puede ser, no obstante, superior, como sucede en los casos que nos ocupan, al número de votos correspondientes a candidatos que obtienen esa proclamación al figurar en las listas que sí han superado dicho límite. La comparación es inviable, pues nos encontramos ante magnitudes cualitativamente diversas: En un caso el total de los votos conseguidos por unas ciertas candidaturas (las excluidas del reparto de escaños), en el otro caso, uno o varios cocientes, que no son, y aquí está la diferencia esencial, votos efectivamente obtenidos, sino más bien resultados convencionales deducidos, a efectos del reparto, del número total de votos de cada candidatura. Y es que, en un sistema de listas como el vigente en nuestro ordenamiento electoral, no cabe hablar de votos recibidos por candidatos singularmente considerados, sino, en relación a éstos, de cocientes, que son resultados de la operación prevista para determinar, entre las listas que han superado el límite legal, los escaños que corresponden a cada una de ellas.

Aquí el tribunal se demuestra hipnotizado por los cálculos del método d’Hondt (prolijamente descritos en la Ley Orgánica del Régimen Electoral General) y desconoce palmariamente su signficado.

La lógica matemática del método es la siguiente: el partido A obtiene n escaños antes que el partido B obtenga m escaños si y sólo si V(A)/n > V(B)/m donde V son los votos de cada partido. La desigualdad se puede escribir alternativamente como V(A)/V(B) > n/m; lo que evidencia su carácter estrictamente proporcional. El método implica que el partido más votado obtiene el primer escaño (caso n=1;m=1) y que un partido obtiene un segundo escaño antes que otro el primero si recibe más del doble de votos (caso n=2; m=1).

En contra de lo que dice el TC estos números no son resultados convencionales sino que tienen una explicación y un significado electoral preciso. Una vez expliqué que significa esto. Repito: el partido A obtiene n escaños antes que el partido B obtenga m escaños si n paquetes de votos del partido A son más que m paquetes de votos del partido B.

En el sistema electoral de listas cerradas el resultado del método d’Hondt es exactamente el mismo que si un grupo de votantes del partido A hubiera votado al partido por su estricta simpatía con el primer candidato de la lista. Otro grupo de igual número de electores por estricta simpatía con el segundo candidato… y así sucesivamente hasta completar los escaños que el método asigne al partido. En esto se cisca gloriosamente el TC.

El desconocimiento de esta interpretación no plantea ningún problema práctico salvo que aparezcan umbrales que privilegian unos votantes respecto de otros.

Por ejemplo en Madrid IUCM-LV obtuvo 130890 votos, sin escaños, por no rebasar el 5% de los votos, y C’s 383874, con 17 escaños. Esos 17 escaños significa que 17 grupos de 22580 votantes cada uno mostró su preferencia por cada uno de los 17 primeros candidatos de C’s. Y, evidentemente, esos mismos 22580 votantes de IUCM-LV no fueron tratados de la misma forma.

La segunda cita de la sentencia se refiere al fundamento jurídico 5 y dice así:

El límite del 3 por 100 que señala el art. 20.4 b) del Real Decreto-ley 20/1977 respeta, en sustancia, el criterio de la proporcionalidad, ya que la restricción no impide que el reparto de escaños se realice conforme a ese criterio respecto a la inmensa mayoría de los votos emitidos en la circunscripción, y eso que, en el presente caso, al tratarse de unas elecciones y de una circunscripción en las que estaba en juego un elevado número de escaños (85), aumentaba considerablemente la posibilidad de que listas que no hubiesen alcanzado ese límite, de no existir éste, hubiesen tenido acceso al reparto, y la existencia de la barrera legal aparece, por otra parte, plenamente justificada, según todo lo anteriormente expuesto, al haber actuado el legislador con fines cuya licitud, desde la perspectiva constitucional, no es discutible, por lo que no puede, por todo ello, apreciarse que los preceptos de la Constitución y del Estatuto Catalán de Autonomía que determinan la existencia de un sistema de representación proporcional hayan sido vulnerados por la norma legal que impone esa barrera, y esta inexistencia de infracción constitucional o estatutaria nos conduce a la conclusión de que dicha norma tampoco contradice el contenido del derecho del art. 23.2 de la Constitución, en cuanto al carácter de los requisitos que para el ejercicio de tal derecho se señalan.

Aquí la falta de rigor del tribunal es mucho más evidente. Primero cuando dice que se dice «respeta, en sustancia» saltan todas las alarmas. O se respeta o no se respeta. Pero es sobre todo en el resaltado en negrita donde aparece problema. Es la indefinición que implica el sintagma «inmensa mayoría» ¿Cómo de inmensa ha de ser la inmensa mayoría para el TC? ¿Quiere decir que el 3% sí, el 5% tal vez pero el 10%, no? Todo buen científico sabe que esos animalitos hay que relacionarlos con el problema en cuestión. En este caso con el tamaño de la circunscripción. El TC resuelve el asunto ignorando que en una circunscripción de 85 diputados un diputado representa sólo el 1.1% de la diputación. Es imposible desde cualquier punto de vista que eliminar un partido que tenga el 2.9% de los votos sea razonable y proporcional en esta circunstancia.

Pero a más a más, y como segundo argumento, el tribunal ignora matemáticamente que es posible una elección con 20 candidaturas que obtuvieran el 2.9% de votos y 10 candidaturas que obtuvieran el 3.5%. En ese supuesto el límite legal del 3% haría repartir los escaños sólo entre 10 candidaturas despreciando casi el sesenta por ciento de los votos. Y que el resultado de una elección sea ese depende exclusivamente de la libérrima voluntad del soberano máximo: el pueblo.

Entiendo que el poder constituido trate de poner reparos a la «fragmentación» del arco parlamentario. Porque eso favorece los intereses de los partidos mayoritarios que conforman ese arco parlamentario. Pero el constituyente trazó unas líneas rojas muy definidas y es sorprendente que el Tribunal Constitucional no las respete y no limite el ansia legislativa del poder constituido.

Yo también soy poco amigo de la fragmentación del arco parlamentario. Pero hay que reconocer que ya se aplican métodos que no la promocionan. Por ejemplo no elegimos 3000 diputados. O, por ejemplo, usamos el método d’Hondt. Es falso que este método favorezca a los partidos grandes; es, simplemente, que favorece que las personas se agrupen antes de las elecciones en intereses sustanciados en candidaturas. O, alternativamente, que los partidos no se disgreguen.

Pero si uno organiza una mega elección con 129 diputados a elegir (caso de Madrid, donde un diputado es el 0.77% del parlamento y de la circunscripción), no deberías poder impedir que un partido con un 1% de los votos obtenga un escaño. O mejor dicho, la forma constitucional y elegante que tiene el legislador de impedir eso es reduciendo el número de escaños; no seleccionando umbrales arbitrarios.

Igualmente si, como en el caso de Navarra, la elección se verifica sobre 50 diputados (un diputado es el 2% del parlamento) y el pueblo soberanamente decide fragmentar su voto con hasta 8 partidos con más del 2% de los votos, ¿cómo se justifica el trato desigual dado a uno y a otros partidos?

No es sólo una discusión técnica. Tanto en Madrid como en Navarra estos umbrales van a condicionar qué tipo de mayorías pueden formarse en el parlamento. En Madrid el resultado estricto de la ley d’Hondt habría sido 45-34-25-16-5-2-1-1, con IUCM-LV obteniendo cinco escaños, UPyD 2, y VOX y PACMA un escaño cada uno. Pierden escaños PP (-3), PSOE (-3), Podemos (-2) y C’s (-1). En Navarra, Geroa Bai habría cedido un diputado a C’s.

La magnitud del problema se pone también en evidencia si se calcula el número de escaños necesarios para que ni C’s en Navarra ni IUCM-LV en Madrid hubieran obtenido escaño.

En el caso navarro deberían haberse elegido 28 diputados (la mitad de lo que se eligió y con una mayoría absoluta en 15) que se habría distribuido de la siguiente forma: UPN (9), Geroa Bai (5), EHBildu (4), Podemos (4), PSOE (4), PP (1), I-E (1). En el caso de Madrid, deberían haberse elegido ¡19 diputados! (casi la sexta parte de lo que se eligió, y con mayoría absoluta en 10) que se habrían repartido de la siguiente forma PP (7), PSOE (6), Podemos (4), C’s (2).

La presunción de sapiencia.

Me escribe un wasap mi editor de wordpress:

– Tienes que escribir una entrada defendiendo al 25% de los españoles que saben que el Sol gira alrededor de la Tierra.

Cunde el desánimo. Estoy holgando y el encargo es básicamente melancólico. Algo he sabido de la encuesta. A algunos enunciados cabe hacerles un pequeño fisking pero el astronómico merece una enmienda a la totalidad.

Analicemos los enunciados:

  1. «El centro de la Tierra está muy caliente V/F» Un lugar común de la Ciencia: poco, mucho, grande, pequeño es siempre en relación a algo. Que falta en el enunciado.
  2. «Los continentes se han estado moviendo a lo largo de millones de años y continuarán haciéndolo» Nihil obstat.
  3. «Los seres humanos provienen de especies animales anteriores» Parece que el enunciado responda a un diseño inteligente (léase la ironía): han desaparecido palabras como «evolución» o, simplemente, «mono». También se ha evitado usar el nombre común de la especie: «hombre». En su lugar esa perífrasis tan humana y políticamente correcta. No digo que no haya razones científicas para estos cambios pero el resultado es un enunciado pastiche-quistch postmoderno.
  4. «El oxígeno que respiramos en el aire proviene de las plantas» ante lo que cabe preguntarse si el que respiramos de botellas de oxígeno proviene del sexo de los ángeles.
  5. «El Sol gira alrededor de la Tierra» Es difícil imaginar una forma peor de abordar el problema del movimiento de los astros. El hecho de que el 25% de los encuestados diga que la afirmación es verdadera no permite concluir nada. Porque el hecho incontestable es que el Sol gira aparentemente alrededor de un observador fijo situado en la Tierra (como los destinatarios de la encuesta) y que tarda un día sideral en hacerlo. La relatividad de los movimientos es algo consustancial a la Ciencia y se conoce desde tiempos de Galileo (¡ni siquiera hay que mentar a Einstein!); mal hace una encuesta pretendidamente científica en ignorarlo y mal se hace en calificar de ignorantes a quienes podrían saber más que quien califica.

    Es cierto que un sistema rotante no es sistema inercial y, por eso, podemos saber dentro de la Tierra que es ésta la que gira y que el movimiento diario del Sol es aparente. Ahora bien, estos efectos son muy coñazo de entender y de percibir: la forma achatada de la Tierra, el giro de las tormentas, o el batimento de un péndulo de Foucault.

    Así tenemos que el enunciado más malamente planteado es el que genera el titular massmedia y que una parte importante de la población tuitera se chotee de los que responden a este enunciado con un verdadero. Es un paradigma del nivel de conocimiento científico.

    Como muestra de que esta cuestión es difícil de plantearle le traigo la formulación americana «Does the Earth go around the Sun, or does the Sun go around the Earth?». Que es maquiavélicamente jodida: la revolución de la Tierra alrededor del Sol (primera cláusula) es el movimiento de traslación de la Tierra, mientras que la revolución aparente del Sol alrededor del observador terrestre (segunda cláusula) está relacionada con la rotación de la Tierra.

    Mi propuesta para esta cuestión sería un enunciado afirmativo: el movimiento diario del Sol en el cielo se debe a la rotación de la Tierra. Es posible que se redujera el número de respuestas «equivocadas». A cambio sería detectaría a los que realmente desconocen el asunto.

    Finalmente hay otra cuestión técnica. La secuencia de respuestas es verdadero-verdadero-verdadero-verdadero… y ahora se rompe al presentar el primer enunciado pretendidamente falsario.

  6. «Los primeros humanos vivieron al mismo tiempo que los dinosaurios» Es una pregunta cachonda porque no sabemos por qué no iban a vivir con los dinosaurios los «segundos» humanos. Aparece humanos, no hombre.
  7. «Toda la radiactivdad del planeta es producida por los seres humanos» Salvo el pertinaz ser humano, nihil obstat.
  8. «Los antibióticos curan enfermedades causadas tanto por virus como por bacterias» Nihil obstat.
  9. «Los rayos láser funcionan mediante la concentración de ondas de soniod» Nihil obstat. Estas tres últimas son paradigmas de enunciados falsos correctamente planteados.

Bernard, se te escapan las mejores

Anoche en un momento de insomnio me encelé con este interesante viral.

A estas alturas no me dedico a resolver estas cosas, que casi siempre es variación de lo mismo. Pero me interesa leer sobre el problema: su formulación y su solución.

En este caso me llamó la atención la última cláusula como llama la atención el quinto postulado de Euclides. ¿Es necesaria? Dicho de otra forma ¿cuál es el número mínimo de cláusulas para resolver el problema? Entiéndase una cláusula como una intervención de los protagonistas, Albert y Bernard.

La respuesta es sencilla. El número mínimo es dos: uno dice el mes y otro dice el día y los dos saben el cumpleaños. Vale para todos los casos pero no es una solución interesante.

En algunos casos el problema se soluciona con una intervención si empieza a hablar quien posee el día. Pero si empieza a hablar quien tiene el mes el problema se soluciona como mínimo con dos intervenciones exahustivas. En este caso está la solución del problema planteado. Dicho de otra forma, el juego no tenía que volver a Albert.

En su primera intervención Albert dice que no sabe cuándo es el cumpleaños [afirmación innecesaria por otra parte si sabemos que sabe el mes] pero sí sabe que Bernard tampoco lo sabe; entonces Bernard podía responder que al principio no lo sabía, pero ahora ya lo sabe… y añadir también que sabe que lo sabe Albert.

Rizando el rizo Albert pudo hacer su primera intervención más descriptiva: «joder Cheryl, qué jodía eres, sé que Bernard no lo sabía al principio; y que yo lo sabré sabiendo ahora si él sabe o no sabe». A lo que Bernard podría responder: «yo ya sé». O no.

¿Importan las preguntas? (III) (making of)

Tenía dudas sobre sí explicar los detalles técnicos del análisis anterior. Por una parte es un aspecto de interés restringido. Por otra parte se utilizan comandos de muy venerable antigüedad. Pero, finalmente, son comandos y formas de pensar desconocidas en muchos currículos españoles al uso que se han adaptado a la ofimática de bolsillo y al uso compulsivo del pequeño roedor.

He necesitado un intérprete de comandos (bien servido de comandos) y un fichero (proporcionado gentilmente por El País) que contiene la transcripción de la declaración en formato plano (código ASCII-UTF8 sin pasar por programas tipo word o algo por el estilo) y en el que, afortunadamente, cada intervención es una línea. Esto es importante porque los comandos de edición en flujo actúan, comúnmente, línea a línea. Además, como señale en la primera entrada, cada interviniente se identifica por una etiqueta (tag) único. Así el juez de la causa aparece etiquetado como JUEZ y Cristina Federica como CF. Ambas cosas, cada intervención es una línea, y cada intervención está etiquetada según quién es el interviniente, hace posible el análisis que hice.

El primer comando que uso es cat que sirve para mostrar o concatenar archivos. Ahora lo usaré para mostrar, al final lo usaré para concatenar:

cat nombre_del_archivo

Realmente el listado no tiene porqué volcarse en pantalla para verse; puede dirigirse por una tubería (es un símil pero es el símil que se usa: igual que el agua fluye por una tubería el contenido del archivo fluye por otra). En esa tubería el contenido del archivo va a ser filtrado y procesado. Primero con un grep:

cat nombre_del_archivo | grep JUEZ -A 1

El carácter | es el que marca que el contenido del archivo va por una tubería donde lo captura grep. La instrucción grep busca expresiones regulares (entre ellas la búsqueda simple de la palabra que aparezca a continuación) y saca fuera de la tubería todas aquellas líneas que no contengan el primer argumento que, en este caso es la palabra JUEZ. Es decir, por la tubería sigue fluyendo aquellas líneas que contienen la palabra JUEZ: sus intervenciones. Con la opción -A[fter] 1, además, se deja seguir por la tubería la línea siguiente a cada una de las líneas donde apareció JUEZ. Ahora por la tubería fluye las palabras de JUEZ y la intervención siguiente. Algo como esto:


<p><strong>JUEZ:</strong> Folio dos mil quinientos y pico. Sabe usted de qué texto forman parte esos párrafos que se le han leído? Con los que estaba de acuerdo, sabe de qué texto más amplio forman parte?</p>
<p><strong>CF:</strong> No, estaba de acuerdo con la parte que estaba señalaba.</p>
<p><strong>JUEZ:</strong> Forman parte de un auto que se dictó próximo a dos años, pronto, el mes que viene hará dos años de ese acto, es obvio que usted estaba conforme, porque desestimaba una petición que se había cursado para que usted fuera citada a declarar en calidad de imputada. Un año después aproximadamente recayó otro auto, en el que se le citaba a usted, que luego no llegó a prosperar. Leyó alguna parte de ese auto, que no llegó a prosperar, porque fue revocado o suspendido por la Audiencia Provincial?</p>
<p><strong>CF:</strong> No lo leí en su integridad, pero mis abogados han...</p>

Ahora filtro las intervenciones de CF usando de nuevo grep y las enumero usando la opción -b de cat:

cat nombre_del_archivo | grep JUEZ -A 1 | grep CF | cat -b

Tendré entonces el conjunto enumerado de intervenciones de CF a preguntas de JUEZ. Also así como:


1 <p><strong>CF:</strong> Sí, lo sé.</p>
2 <p><strong>CF:</strong> Sí, sé cuáles son.</p>
3 <p><strong>CF:</strong> Voy a prestar declaración Señoría.</p>
4 <p><strong>CF:</strong> Muchas gracias.</p>
5 <p><strong>CF:</strong> Señoría, no lo recuerdo bien, pero bastantes.</p>
.
.
.
675 <p><strong>CF:</strong> Al estar al 50%, me imagino que algo sí, pero no tengo más conocimientos.</p>
676 <p><strong>CF:</strong> Si me permite, no voy a responder a ninguna acusación popular.</p>
677 <p><strong>CF:</strong> Sí.</p>
678 <p><strong>CF:</strong> No, estaba de acuerdo con la parte que estaba señalaba.</p>
679 <p><strong>CF:</strong> No lo leí en su integridad, pero mis abogados han...</p>
680 <p><strong>CF:</strong> He leído varios párrafos y mis abogados</p>
681 <p><strong>CF:</strong> No le puedo precisar ahora con qué párrafos puedo estar de acuerdo y cuáles no Señoría.</p>

Obviamente la numeración de las respuestas de CF coincide con la numeración de preguntas de JUEZ.

Ahora un poco de limpieza con sed (stream editor, o editor de flujo) que lo voy a usar simplemente para buscar-sustituir en el flujo (es capaz de muchísimo más; su ventaja, frente a otros buscar-sustituir radica en que es programable). Primero filtro y elimino las etiquetas html que contiene el archivo y después elimino los signos de puntuación más comunes, la coma y el punto. La sintaxis básica es sed s/"qué quiero encontrar"/"con qué lo sustituyo"/g. Así:

cat nombre_del_archivo | grep JUEZ -A 1 | grep CF | cat -b | sed 's/<[^>]\+>//g' | sed 's/[,.]/ /g'

La primera de las llamadas de sed elimina las etiquetas html. Si no entienden lo que ponen no se preocupen: sed es uno de los comandos que produce líneas de código más ininteligibles y contraintuitivas. En parte el código no se entiende porque usa patrón de búsqueda de expresiones regulares y no una búsqueda simple. Explicado con un ejemplo: no quiero encontrar «p» (una etiqueta html) y eliminarlo (sustituirlo por nada) quiero encontrar cualquier etiqueta html. Afortunadamente estas etiquetas son regulares: un signo « más varios caracteres más otro signo ». Así el comando de búsqueda hace: encontrar < y todos los siguientes caracteres salvo > «[^>]» (el ^ marca la excepción) que se aparezcan varias veces (+) hasta terminar en >. Es decir <whatever>. Y sustituye todo eso por un espacio en blanco para facilitar posteriormente la búsqueda.

La segunda es más simple. Busca puntos o comas y los elimina (sustituir por nada). El resultado es:


1 CF: Sí lo sé
2 CF: Sí sé cuáles son
3 CF: Voy a prestar declaración Señoría
4 CF: Muchas gracias
5 CF: Señoría no lo recuerdo bien pero bastantes
.
.
.
675 CF: Al estar al 50% me imagino que algo sí pero no tengo más conocimientos
676 CF: Si me permite no voy a responder a ninguna acusación popular
677 CF: Sí
678 CF: No estaba de acuerdo con la parte que estaba señalaba
679 CF: No lo leí en su integridad pero mis abogados han
680 CF: He leído varios párrafos y mis abogados
681 CF: No le puedo precisar ahora con qué párrafos puedo estar de acuerdo y cuáles no Señoría

Finalmente se usa el comando grep otra vez para encontrar la partícula no. Ahora lo uso con comillas para asegurame de que está aislada (espacio antes y después; por ello quité los puntos anteriormente) y no en medio (coNOcimiento), al final (balonmaNO) o al principio (NOvela) de una palabra:

cat nombre_del_archivo | grep JUEZ -A 1 | grep CF | cat -b |sed 's/<[^>]\+>/ /g' | sed 's/[,.]//g' |grep -i [-v] " no "

La opción -i hace la búsqueda insensible a si es mayúscula o minúscula y la opción -v, si está presente, haría una búsqueda inversa: en vez de encontrar cuándo aparece » no » encontraría cuándo no aparece » no «. El resultado sería algo así como:


5 CF: Señoría no lo recuerdo bien pero bastantes
.
.
.
675 CF: Al estar al 50% me imagino que algo sí pero no tengo más conocimientos
676 CF: Si me permite no voy a responder a ninguna acusación popular
678 CF: No estaba de acuerdo con la parte que estaba señalaba
679 CF: No lo leí en su integridad pero mis abogados han
681 CF: No le puedo precisar ahora con qué párrafos puedo estar de acuerdo y cuáles no Señoría

donde de debe observarse que algunas respuestas, por ejemplo la primera, segunda o la 680º no aparecen ya que en ella no se encuentra la partícula negativa » no «.

Como no me interesa el contenido de la respuesta filtro el resultado y me quedo únicamente con la primera parte del contenido gracias al utilísimo comando awk:

cat nombre_del_archivo | grep JUEZ -A 1 | grep CF | cat -b | sed 's/<[^>]\+>/ /g' | sed 's/[,.]//g' |grep -i [-v] " no " | awk '{print $1}'

que dejaría el resultado en algo así como:


5
11
.
.
.
675
676
678
679
681

Finalmente vuelco (con >) el contenido de la tubería en una botella, para conservar el resultado. Esa botella es un archivo que contiene el ordinal de las respuestas de CF a JUEZ que contienen la palabra » no «. En otro archivo se guarda las que no contienen » no «.

cat nombre_del_archivo | grep JUEZ -A 1 | grep CF | cat -b|sed 's/<[^>]+>/ /g' | sed 's/,.//g' |grep -i [-v] " no " | awk '{print $1}' > nombre_archivo_salida

Ahora tengo un fichero que me dice, por ejemplo que la quinta respuesta de CF y la 675ª y la 676ª fueron negativas. Es decir, que la primera respuesta negativa de CF fue a la quinta pregunta de JUEZ. La segunda respuesta negativa fue la respuesta a la undécima pregunta de JUEZ y así sucesivamente. De forma que puedo hacer las gráficas que aperecieron en la primera entrada.

Simplemente variando el orden de los comandos puedo buscar las intervenciones de JUEZ que son preguntas a CF y no diálogos con otras de las partes del interrogatorio:

cat nombre_del_archivo | grep CF -B 1 | grep JUEZ |cat -b

Ahora se busca primero CF y la línea anterior -B[efore] 1 para despúes buscar JUEZ. El resto sería igual.

Finalmente puedo interseccionar conjuntos de la siguiente forma:

cat preguntas_JUEZ_si respuestas_CF_no

concatena por la tubería el ordinal de las preguntas del JUEZ que no contienen » no » y las respuestas de CF que sí contienen » no «. Con el comando sort se ordena la tubería un con el comando uniq -d se retiene aquellas ocurrencias que aparecen en los dos archivos:

cat preguntas_JUEZ_si respuestas_CF_no | sort -n |uniq -d > fichero_salida

Es decir el conjunto de preguntas/respuesta que satisface un criterio dado. Variando los parámetros de los ficheros de entrada se pueden realizar las gráficas comparativas que aparecieron en la entrada anterior.

¿Importan las preguntas? (II)

El análisis de preguntas y respuestas basado en la ocurrencia de la partícula negativa ‘no’ no debe informar de mucho. Basta con pensar que en castellano se puede decir «nadie vino ayer» o «ayer no vino nadie» sin que pueda diferenciarse mucho el signficado de ambas oraciones.

Pero es lo que hay en este caso. Probablemente debido a que no hay nada más que rascar. El juez preguntador pregunta, el imputado responde. No hay pistola humeante solo tickets de aparcamiento. Me gustaría analizar miles de interrogatorios similares para ver si hay la estadística es similar o no. Pero no tengo ganas.

Atruibuir al imputado cualquier tipo de mala fe en la preponderancia de un tipo de respuestas frente a otro es bobo desde todos los puntos de vista. Sin duda, desde el que más, de aquel que menos domino: el jurídico, donde se hacen otro tipo de análisis más enjundiosos. Si el principio de presunción de inocencia rige como principio parece bobo esperar algún tipo de inculpación generosa por parte del imputado. Quiero decir, algún tipo de inculpación que corrobore nuestros (suyos, los de quienes se adhieran) prejuicios.

Supongo que un interrogatorio más jodido para el inculpado iría en la línea de:

JUEZ: ¿Estuvo usted en el salón de la casa sita en la calle de Arriba 57 donde se cometió el homicidio de Rogelio Acroread?
RESPUESTA: No señoría, nunca.
JUEZ: ¿Y entonces cómo explica que aparecieran su huellas dactilares en el pomo de la puerta de entrada al salón de dicha casa?

O algo parecido [ya sé que es un interrogatorio muy novelado]. Un tipo de interrogatorio que, por lo que se ve, algunos deseaban vehementemente para satisfacer sus prejuicios… y que no satisfecho han debido conformarse con un análisis gramatológico.

Volviendo al análisis, y terminando con él, por ahora, en la entrada anterior pareciera que hay una correlación entre las preguntas de JUEZ y las respuestas de CF.

He seguido jugado. Concatenando preguntas y respuestas. Haciendo lo que en la teoría de conjuntos que se explicaba hace muchos años era la intersección. Los comandos, viejos y venerables, que he usado para filtrar los datos del análisis anterior son cat, sort y uniq.

Dicho de otra forma, tomando como partida las preguntas de JUEZ, analizo cómo responde CF. Es decir, tomo las preguntas que contienen ‘no’ y analizo cuántas respuestas contienen ‘no’ y cuántas no. Es justamente esto:

Preguntas de JUEZ que contienen 'no' y análisis de la subsiguiente respuesta de CF según contenga o no contenga 'no'.
Preguntas de JUEZ que contienen ‘no’ y análisis de la subsiguiente respuesta de CF según contenga o no contenga ‘no’.

De las 248 preguntas de JUEZ que contienen ‘no’, 184 respuestas (un 75%) de CF también contiene ‘no’. Este 75% es solo ligeramente mayor que 65% global de ocurrencias de ‘no’ en las respuestas de CF.

Para las preguntas de JUEZ que no cotienen ‘no’ el balance es más ajustado:

xxxxxxxxx
Preguntas de JUEZ que no contienen ‘no’ y análisis de la subsiguiente respuesta de CF según contenga o no contenga ‘no’

Ahora de las 433 preguntas de JUEZ que no contienen ‘no’, 262 (un 60%) respuestas de CF sí contienen ‘no’. En la línea con la tendencia general del análisis.

La conclusión soportada por la gráfica final de la entrada anterior es entonces meramente ilusiva. Una vez más, correlation is not causation: CF no responde ‘no’ cuando JUEZ pregunta ‘yes’ y no responde ‘yes’ cuando JUEZ pregunta ‘no’.

Otro día haré otro análisis.

¿Importan las preguntas?

Una de las características del periodismo moderno es la ausencia de preguntas. No me refiero a esa crítica interesada de los periodistas que protestan por las «ruedas de prensa» sin preguntas sino al desconocimiento que tenemos en qué términos se pregunta.

En una entrevista podemos leer preguntas y respuesta pero el titular incidirá sólo en la respuesta amplificándola y muchas veces descontextualizándola de la pregunta. Si se trata de un informativo o de la declaración de un político o famoso la pregunta, inevitablemente, desaparece: todo es respuesta.

Viene esta introducción respecto del análisis que se ha hecho de las respuestas de Cristina Federica (CF) a las preguntas del JUEZ. Análisis a bulto donde se muestran ocurrencias de palabras y singularmente de palabras con connotación negativa.

Afortunadamente el sumario secreto es accesible a todos y ello incluye la transcripción de la «entrevista» en formato html. La transcripción es notable técnicamente por varias razones. Cada intervención aparece en una única línea. Cada interviniente está convenientemente etiquetado. Así las intervenciones del juez está etiquetadas por la clave JUEZ y las intervenciones de Cristina Federica por la clave CF.

Esto posibilita un análisis bruto relativamente fácil con comandos que tiene una antigüedad media de 30-40 años y que ustedes dejaron de aprender cuando se olvidaron de las pantallas negras.

Podría, por ejemplo, buscar ocurrencias de una etiqueta como JUEZ o como CF y contar cuántas veces aparecen. Sabría así el número de intervenciones de uno o de otro.

Más interesantemente me interesan las respuestas de CF a las preguntas del JUEZ. Primero porque es lo que se ha analizado periodísticamente, segundo porque es el conjunto más numeroso (varios centenares de ocurrencias) y el único que da para una estadística fiable. Para analizar ese conjunto ello he de filtrar ocurrencias de CF y quedarme solo con aquellas que sigan a una intervención de JUEZ en la creencia, lógica, de que JUEZ pregunta y CF responde a continuación.

De las respuestas de CF me interesan aquellas que contiene al menos una vez la partícula negativa «no» para diferenciarlas de aquellas que no la contienen. Es un análisis muy burdo y ciego que trata únicamente de diferencias potenciales respuestas negativas de potenciales respuestas afirmativas. La crudeza del análisis es evidente.

Con un poco de pericia puedo saber si la respuesta a la pregunta centésima (por ejemplo) contiene la negación o no y, comparando, puedo saber si la respuesta nonagésima da la séptima respuesta negativa o la decimonovena respuesta sin negación.

Trabajar con ordinales es mágico porque los ordinales también dan el número acumulado de ocurrencias hasta un punto dado. Así puedo obtener está gráfica en la que se presenta en el eje X el número acumulado de preguntas (o lo que es lo mismo el ordinal) y en el eje Y el número acumulado de respuestas (= el ordinal) que contienen la negación o que no la contienen.

Número acumulado de respuestas de CF conteniendo negativas o no conteniéndolas frente a número acumulado de preguntas de JUEZ.
Número acumulado de respuestas de CF conteniendo negativas o no conteniéndolas frente a número acumulado de preguntas de JUEZ.

La línea negra es la bisectriz del cuadrante y sería lo que se obtendría si CF respondiera con un «no» a todas las preguntas de JUEZ. Obviamente los resultados (líneas de colores) no pueden sobrepasar esa línea negra. Tampoco puede ocurrir que los resultados crezcan más rápidamente que esa línea negra: CF solo puede aportar negativas un ritmo máximo de una negativa por pregunta de JUEZ.

Puede observarse que las líneas de colores siguen una tendencia aproximadamente recta. Estadísticamente podríamos comprobar que la presencia de respuestas negativas es uniforme en la muestra (p=0.7 para un test de Kolmogorov-Smirnoff). La presencia de respuestas afirmativas también es uniforme aunque mucho más débilmente (p=0.08). Esto quiere decir que, aproximadamente, no hay intervalos en los que se solo se responda afirmativamente o lo contrario. En conjunto un 65% del total de respuestas (446 ocurrencias de 681 preguntas) contienen una negación frente al 35% que no la contiene.

El mismo análisis puede hacerse con las preguntas de JUEZ a CF filtrando aquellas intervenciones de JUEZ cuyo siguiente interviniente sea CF.

Número acumulado de preguntas de JUEZ a CF que contienen una negacion y que no la contienen frente al número acumulado total de preguntas de JUEZ a CF.
Número acumulado de preguntas de JUEZ a CF que contienen una negacion y que no la contienen frente al número acumulado total de preguntas de JUEZ a CF.

Las características globales son idénticas a la del ejemplo anterior solo que el análisis cuantitavito es inverso. El número de preguntas que contienen negación es el 36% del total (248 de 681) frente al 64% de preguntas afirmativas.

Podemos comparar ambos resultados

dos

De donde uno puede concluir que existe una correlación entre las preguntas de JUEZ y las respuestas de CF. Una correlación simplificada en el siguiente interrogatorio tipo (@sámuel dixit):

JUEZ: ¿Es usted una malandrina?
CF: No.
JUEZ: Entonces, ¿usted no es mala persona?
CF: Efectivamente.

Una variante a esta conclusión es que CF responde a todo que ‘no’. Si la pregunta es positiva la respuesta es negativa. Si la pregunta es negativa la respuesta es positiva.

Addenda: El análisis no está finalizado las conclusiones son prematuras, como esta publicación, liberada por descuido.

Salute to champion

Soy feliz y Carlsen es el nuevo campeón del mundo de ajedrez. De esto último hemos hablado algo gracias a tuister y voy a hablar aquí.

Soy un mal jugador de ajedrez; mi ELO debe ser cercano a mi hándicap de golf. Nunca he podido anticipar movimientos del contrario y, si juego, lo hago casi a lo loco, como si el contrario no respondiera o solo respondiera lo que me conviene. Leo mucho sobre ajedrez. Desde pequeño en libros y en el apunte diario de la prensa socialdemócrata. Desde Kuperman hasta Maiztegui, Morán o ahora García, y bien fácil gracias a tuister y el internet.

En 1987 asistí a dos jornadas del match Kasparov-Karpov que se disputó en España; una de ellas la jornada final, aplazamiento incluido. No me enteré de mucho en la soledad del patio de butacas y sin posibilidad práctica de atender comentarios.

Las jornadas finales del encuentro han presentado al campeón Carlsen básicamente como un frío y calculador hombre de silicio y, además, madridista. No negaré ninguna de las dos pero no me ha gustado el tono épico, dramático de de las crónicas de García.

Probablemente lo único dramático y épico de la partida es su contexto. Es una partida clave para el desarrollo del encuentro. Carlsen domina 5-3 y Anand solo le vale ganar. Deja a un lado las tácticas contemplativas y se lanza al ataque. Todo jugador de ajedrez que se lanza al ataque teme el contraataque que, normalmente, se desarrollan en flancos distintos. Todo jugador que se defiende de un ataque sabe que una de las mejores defensas es un buen contraataque. A veces es cuestión de un tiempo, de un movimiento, ser capaz de golpear con el ataque o con el contraataque. De acertar o de fallar con la intermedia.

Una ventaja, hoy en día, es que podemos saber, más o menos, lo que piensan o dicen que pensaron:

Carlsen no se muestra impresionado por la partida y explica serenamente lo que pasa por su cabeza. Simplemente trata de ampliar sus posibilidades con contraataque en el flanco de dama frente a una defensa pasiva que, muchas veces, lleva a una lenta agonía. Anand se muestra, creo, más confuso en sus explicaciones. Los movimientos de Carlsen le hacen tener que calcular muchas variantes, creo que se lía algo con sus explicaciones y, desde luego, se lía en la partida.

No se trata de que Carlsen calcule mejor sino que su cálculo es más fácil y, como él dice, sus movimientos son casi forzados una vez que da el visto bueno al plan. Y da el visto bueno tras calcular y comprobar que no hay mate que puedan forzar las blancas. Creo que no es ningún cálculo sobrehumano porque el ataque blanco era, más bien, lentorro.

Una posición clave de la partida es esta

carlsen

Carlsen optará por mover el caballo (una pieza defensiva ya que apuntala g7) como se indica en la figura y alejarlo del rey. Las alternativas son movimientos profilácticos tipo 18… g6 que lleva a las negras a una defensa pasiva. Carlsen busca el contraataque en el flanco de dama para complicar el cálculo de Anand. Con el movimiento Carlsen protege su torre de a6 lo que le permitirá abrir las columnas del flanco de dama. A partir de aquí Carlsen jugará forzado y obligado por su plan y no por el jugo de Anand. Tras alguna simplifación se llega a

carlsen1
donde Anand ha optado por avanzar en el flanco de rey primero con 19. f4 y al final con 22. f5 y Carlsen avanza en el flanco de dama 19… b4 y provoca la simplificación en dicho flanco. En vez de 19. f4 Anand podría haber jugado a apuntalar el flanco de dama pero tiene la necesidad imperiosa de ganar y con ese factor también juega Carlsen.

El plan de Carlsen demanda ahora 22.. b3 que crea un terrible peón pasado y apoyado que es la espada de Damocles sobre la cabeza de Anand quien tiene que calcular ahora las complicadas variaciones de su juego teniendo en cuenta esa amenaza. Invertirá cuarenta minutos en su próximo movimiento durantes los cuales dio muestras de una incomodidad creciente al no poder encontrar un plan directo que le garantizara su necesaria victoria. Se lanza al ataque, que es tan lento que a Magnus le da tiempo a avanzar g6 (la primera opción profiláctica) y retornar el caballo a e8 (que es donde está en la primera posición) sin que el ataque blanco pueda imponerse. Con las amenazas blancas cubiertas Carlsen solo tiene que avanzar su temible infante para crear la suya.

carlsen4

Anand seguirá con el ataque y de no haber mediado su error la partida habría continuado un largo tiempo con final incierto.

Creo que es una gran partida jugadas dentro de unos parámetros clásicos: ataque y contraataque en el contexto de la necesidad imperiosa de Anand por ganar en la que Carlsen muestra que tiene arrestos para no elegir una opción meramente pasiva.

De la partida se ha sacado mucho simbolismo. Carlsen no mueve en toda la partida ni su alfil de c8 ni su dama de d8. No es normal en una partida tan exigente. Solo moverá una vez la dama impostada que se crea en b1 y ese movimiento provoca la renuncia de Anand. Sin embargo y si de simbolismo se trata yo presento dos nuevos. Dadas las circunstancias, dado que Carlsen es madridista y que el Madrit ya elige el negro como alter ego, dado todo ello, el caballo es la única pieza mayor que mueve Carlsen (salvo el movimiento final de la dama impostada) y con sus movimientos e8-c7-a6-c7-e8 se basta y sobra para defenderlo todo. Es una especie simbólica de un Arbeloa sufrido, silencioso y corredor. Por contra, el peón de b3, que viene del exterior de columna a, es una muestra simbólica de lo que es capaz de hacer CR7: ganar una partida con su mera presencia.

Mañana, tal vez más.