 |
El gráfico está tomado de un artículo sobre el fenómeno del primer dígito publicado en 2007 por cuatro físicos de la Universidad de Córdoba(1) en el European Journal of Physics. Las cinco barras representan las frecuencias de cada dígito en el primer puesto de las cifras de datos de las siguientes cinco magnitudes; Variaciones anuales del IPC español, Poblaciones de los 8.107 municipios españoles en el último censo, Aves existentes en las distintas regiones españolas entre 1975 y 2002, Áreas en km2 de los países del mundo y Datos contables anuales de una empresa. Los rombitos blancos son las frecuencias de cada dígito en el primer puesto de los números premiados por la lotería española desde 1995. (Todos los datos están tomados del INE). Los puntos negros unidos por una curva, por último, son las frecuencias predichas por la Ley de Benford. |
Recapitulemos:Acababa mi anterior post sobre este asunto tan interesante como popular resumiendo mis perplejidades en tres preguntas fundamentales que, en mi opinión, se plantean ineludiblemente a cualquiera que se interese por el Extraño Caso del Primer Dígito:
1º ¿En qué se diferencian los fenómenos cuyos datos numéricos se ajustan a la Ley de Benford de aquellos otros que producen también cifras, pero ateniéndose a la ley de probabilidades monda y lironda, es decir, sin esa sorprendente distribución de frecuencias de su primer dígito que caracteriza a los primeros?
2º ¿Qué tienen en común entre sí los variadísimos fenómenos que sí se atienen, todos ellos, a la distribución logarítmica del primer dígito de sus datos numéricos? Y
3º ¿Por qué son más frecuentes los datos numéricos con primeros dígitos bajos que los que los tienen altos, y por qué en esa proporción?
Mi propósito es dedicar este tercer y último post de la serie a comentar lo más brevemente que pueda cada una de estas preguntas y las reflexiones a que me han dado ocasión, a las que sería más bien iluso llamar respuestas.
Unos sí y otros no. Qué cosas.
Estos días que llevo dándole vueltas al asunto y leyendo sobre él todo lo que cae en mis manos, me he encontrado hasta la saciedad la expresión "fenómenos que se presentan en el mundo real". Todo el que trata de la Ley de Benford recurre a esta expresión como si se tratara de una condición fundamental para que se cumpla la bendita ley, pero lo cierto es que yo no sé de ningún fenómeno que no se produzca en el mundo real, por lo que en principio no me parece que la expresión en cuestión sea de mucha utilidad. Los sorteos, los catálogos, los fraudes contables y los experimentos amañados son todos ellos fenómenos que también tienen lugar en el mundo real y, sin embargo, parece ser que las cifras que resultan de ellos no se atienen a la ley de Benford.
Como para casi todo en este asunto, yo he encontrado lo que me parece la clave en las dos paginitas publicadas por el pobre Newcomb en 1881, de las que nadie hizo ni caso en su momento.
"Tal como los números naturales se presentan en la naturaleza, escribe Newcomb, deben ser considerados como proporciones entre cantidades" . (Las negritas, como siempre, son mías. Les tengo afición).
Ese es el asunto, a mi entender. Las cifras distribuyen de un modo inesperado sus primeros dígitos solamente cuando expresan cantidades. Un número premiado en la lotería, un código numérico asignado a un elemento en un catálogo (números de teléfonos, Clasificación Decimal Universal de documentos, ISBN, números de identidad o de Seguridad Social...) o unos datos inventados para engañar a Hacienda son, todos, cifras que no se refieren a ninguna cantidad de ninguna magnitud medible de ninguna cosa existente. No son el resultado de una medición, y por eso Benford no tiene nada que ver con ellas. Solo las cifras que se han obtenido midiendo magnitudes cuantificables de cosas existentes son las que presentan primeros dígitos con una frecuencia logarítmica, y no equitativamente repartida entre las nueve posibilidades. Da lo mismo que se trate de áreas, de precios, de poblaciones, de alturas o de distancias. Da igual que lo medido sea obra de la naturaleza o del hombre. Lo que hace que una serie de cifras presente una distribución de primeros dígitos con arreglo a la Ley de Benford es, en mi opinión, el hecho de que esas cifras sean el resultado de medir cualquier magnitud cuantificable de cualquier cosa realmente existente, desde el número de camellos en los desiertos asiáticos hasta el de partículas nucleares en los compuestos químicos, pasando por el de ladrillos en los edificios construídos en la Expo lisboeta y por el de licencias de taxi concedidas en las ciudades centroeuropeas. Da igual qué se mida, lo importante es que algo se mide y que el resultado de la medición se expresa en números.
Y hay que hacer notar a este respecto la estupenda precisión de Newcomb, que no habla solo de cantidades, sino de proporciones (ratios) entre al menos dos cantidades; y que, a partir de ahí, desarrolla en cinco o seis párrafos largos y abstrusos toda su explicación matemática del asunto: "Por eso, sigue diciendo tras la frase citada arriba, en vez de tomar un numero al azar, debemos tomar dos y preguntarnos cuál es la probabilidad de que el primer dígito significativo de su cociente (ratio) sea n". Sea uno o no capaz de comprender el razonamiento matemático que sigue a este planteamiento, lo que sí es fácilmente comprensible es que cualquier medición, efectivamente, es siempre una proporción entre dos cantidades, la cantidad que se mide y la que se emplea como unidad de medición. La altura de una montaña es la que es, pero no tenemos ninguna cifra para expresarla hasta que, además de esa altura, tomamos otra para usarla como unidad, y establecemos la proporción entre ambas, que es la que nos da la cifra con que expresamos esa altura. Lo que hace Newcomb al hablar de proporciones entre dos cantidades es hablar de mediciones y situar la cuestión, desde el principio, en el terreno en el que yo creo que debe ser planteada.
Si cada uno es de su padre y de su madre...
... ¿qué pueden entonces tener en común fenómenos tan absolutamente distintos entre sí como, por ejemplo, los del gráfico que encabeza el post, y otros muchísimos que cada día se comprueba que producen series de datos con los primeros dígitos distribuidos según la Ley de Benford?
También sobre esta cuestión he leído las respuestas más sorprendentes –y las afirmaciones más obvias y anodinas, que sorprendentemente, se presentaban a sí mismas como respuestas–. Desde el matemático francés que, tras analizar sesudamente los aspectos más técnicos de la distribución de Benford, la justifica despreocupadamente con la hipótesis de que nuestra tendencia a pensar que todos los dígitos se han de repartir por igual el primer puesto es simplemente un condicionamiento psicológico sin ninguna otra base que la intuición –¡ahí queda eso!–, hasta los físicos chinos que están convencidos de que la Ley de Benford es algo parecido a una nueva ley de la gravitación universal, y obedece a la existencia de una constante universal, subyacente bajo la esencia misma de todo lo existente que, cuando sea descubierta y estudiada, nos ayudará a encontrar las explicaciones que aún no tenemos sobre la estructura subatómica de la materia. Lamento decir que ninguna me ha convencido, ni me ha parecido siquiera nada remotamente similar a una explicación sensata y aceptable del asunto.
Mi opinión personal es que los fenómenos que producen datos numéricos con la frecuencia de sus primeros dígitos distribuída según la Ley de Benford no tienen absolutamente nada en común, ni falta que les hace.
Nada, salvo el hecho de que los medimos, el resultado de lo cual expresamos en cifras.
Dicho de otro modo: en mi opinión, la de producir series de datos numéricos que empiezan más frecuentemente por números bajos que por números altos, todas ellas más o menos aproximadas a las frecuencias que para el primer dígito nos da la Ley de Benford, no es una propiedad de los fenómenos medidos, sino del sistema numérico con el que expresamos los resultados de nuestras mediciones. Ni en los ríos, ni en las aves, ni en el IPC, ni en los camellos asiáticos, ni en los compuestos químicos ni en los taxis rumanos hay nada que les lleve a distribuir sus cantidades de determinada manera. De hecho ninguna de estas cosas distribuye sus cantidades de ninguna manera. Somos nosotros los que, para referirnos a esas cantidades, a todas las cantidades, les asignamos cifras con arreglo a un sistema numérico que es el único lugar en el que se produce el fenómeno del primer dígito.
En la naturaleza no hay números. Los números son una convención artificial y arbitraria que solo existe en nuestras cabezas. Un lenguaje. Atribuir a las cosas concretas una cualidad que solo aparece en los números con que las cuantificamos tiene exactamente el mismo fundamento que atribuir a las vacas las particularidades de la palabra "vaca". Ni las vacas se escriben con V, ni los ríos tienen longitudes con los primeros dígitos distribuídos según la Ley de Benford. Tanto la de comenzar por una u otra letra como la de distribuir los primeros dígitos de uno u otro modo son propiedades de las palabras y de las cifras, no de las cosas a las que se refieren. De los lenguajes con que nos referimos al universo, no del universo mismo.
¿Por qué precisamente el 30'1 %, vamos a ver? ¿Por qué estos valores, y no otros?Ya situados estrictamente en el terreno al que creo que debe ceñirse la cuestión: el de nuestro sistema numérico, y no el de las cantidades para expresar las cuales lo usamos, y mucho menos el de los fenómenos a que se refieren esas cantidades, sigue siendo intrigante una cuestión: ¿por qué nuestro sistema numérico, cuando lo usamos para expresar cantidades de magnitudes de cosas existentes, tiende a producir números comenzados por 1 y por 2 con más abundancia que números comenzados por 8 y por 9? Y ¿por qué en esas proporciones precisas, y no en otras?
Porque una cosa seguimos teniendo clara, y es que, en el conjunto de TODOS nuestros números, todos los dígitos significativos (es decir, despreciando los ceros iniciales de los decimales) aparecen como primero con la misma frecuencia. Hay tantos números empezados por 1 como por 2, por 3... y por 9. Y lo mismo sucede cuando consideramos tramos redondos de este conjunto: los cien primeros, los mil primeros, los mil millones primeros... los 1080 primeros. Por eso funcionan las loterías, decíamos hace un par de posts.
Pero la cosa deja de suceder si los tramos considerados no son "redondos", esto es, si no terminan en potencias exactas de 10. Si consideramos los quince mil millones primeros de números, por ejemplo, en los diez mil primeros millones los nueve dígitos se reparten el primer puesto equitativamente, pero en los cinco mil millones siguientes todos los números empiezan por 1, lo que altera considerablemente la frecuencia con la que el 1 aparece como primer dígito en ese tramo concreto y, por tanto, la probabilidad de que una cifra cualquiera de ese tramo empiece por 1.
Sucede lo mismo, o más aún, en los quince primeros números, en los ciento setenta primeros números, en los mil novecientos primeros números, en los un millón novecientos mil primeros números... En todos estos tramos la frecuencia con la que el 1 es el primero de una cifra cualquiera es muy superior a 1/9.
En nuestra cabeza y en nuestros bombos de lotería(2)–valga decir, en cualquier proceso de obtención de cifras que no sea resultado de la medición de algo existente– consideramos tramos redondos de números, tramos terminados en potencias de 10, los únicos en que los nueve dígitos tienen la misma probabilidad de comenzar una cifra cualquiera. Pero las magnitudes de los fenómenos que suceden en el mundo real no toman esa precaución. Ni cuentan con TODOS los números, porque el universo y todo lo que hay en él es finito, ni ajustan sus dimensiones a tramos "redondos" de números, que acaben en potencias de 10. Entre otras cosas porque, como ya hemos dicho, en el mundo de fuera de nuestras cabezas no hay números, solo cantidades, a las que nuestro sistema numérico y nuestra base 10 les importan un pito. Las cantidades son las que son, cómo las expresemos es asunto exclusivamente nuestro, del que el Universo pasa olímpicamente.
Y en un tramo cualquiera de números, un tramo que no acabe en una potencia de 10, la frecuencia con que cada dígito ocupa el primer puesto de las cifras ya no es igual para todos, como hemos visto.
Parece, por eso, que investigar cómo varía la frecuencia, en distintos tramos de números, de cada dígito como ocupante del primer puesto, puede ser una vía prometedora de investigación.
Veamos, pues, dónde nos lleva con el 1, por ejemplo:
Si consideramos, de todos los números, solo el primero (que como es notorio es nuestro querido 1), la frecuencia con la que el 1 es el primer dígito de ese número es, evidentemente, del 100 %. Solo está él...
Si vamos ampliando el tramo de números considerados, va disminuyendo la frecuencia con la que el 1 es el primer dígito. Para el tramo de los dos primeros números, [1, 2], la frecuencia del 1 como primer dígito es del 50% (1/2). Para el tramo de los tres primeros, [1, 3], del 33'33 %, (1/3). Para el tramo de los cuatro primeros, [1, 4], del 25 %(1/4)...y así la frecuencia del 1 como primer dígito sigue bajando hasta que consideramos el tramo de los nueve primeros números, [1, 9], en el que la frecuencia del 1 como primer dígito es del 11'11 % (1/9).
Al ampliar el tramo en uno más y considerar los diez primeros números, [1, 10], la frecuencia del 1 como primer dígito vuelve a subir. Aquí ya hay dos números, el 1 y el 10, que tienen al 1 como primer dígito, luego la frecuencia es de 2/10, el 20 %. Conforme vamos ampliando el tramo considerado con los sucesivos números, va aumentando la frecuencia de números empezados por 1. Es del 27'27 % (3/11) en el tramo [1, 11], del 33'33 % (4/12 = 1/3) en el tramo [1, 12], del 38'46 % (5/13) en el tramo [1,13]... hasta llegar al tramo [1, 19], en el cual hay 11 números que empiezan por 1, es decir que su frecuencia alcanza el 57'89 % (11/19). Pero en el tramo [1, 20] baja al 55 % (11/20), en el tramo [1, 21] es del 52'38 % (11/21)... y sigue bajando al ampliarse los tramos: 36'66 %(11/30) en el [1,30], 27'5 % (11/40) en el [1, 40]... hasta que en el [1, 99] es de nuevo del 11'11 % (11/99).
Para empezar de nuevo a subir en el [1, 100] (12/100 = 12 %) y seguir subiendo hasta la del tramo [1,199] (111/199 = 55'77 %), desde el que vuelve a bajar incesantemente hasta volver a ser del 11'11 % = 111/999 en el tramo [1, 999]. Y así todo el rato.
Por resumir, la gráfica que dibuja la frecuencia del 1 como primer dígito en los sucesivos tramos, –cada uno con diez veces más números que el anterior aunque yo los haya dibujado en una escala en la que aparecen todos iguales porque, si no, no me cabe y el principio es el mismo–, viene a ser algo así:
 |
Sobre el eje vertical se representan las frecuencias en % con las que el 1 es el primer dígito de una cifra en los tramos de cifras [1, n] representados sobre el tramo horizontal. Este último está dibujado a escala logarítmica, en la que se representa con la misma longitud el tramo [1.000, 10.000] que el [100, 1.000 y que el [10, 100]... Es decir, todos los tramos aparecen con la misma longitud,, a pesar de que cada uno es, en realidad, de una longitud igual a diez veces la del anterior.
|
La serie se prolonga indefinidamente hacia la derecha, con la frecuencia
con la que aparece el1 como primer dígito
oscilando en cada nuevo tramo entre dos límites, inferior y superior que, aunque en el gráfico no se advierta, no son siquiera constantes. El límite inferior va decreciendo hacia el valor
1/9 = 0'1111 (11/99, 111/999, 1.111/9.999...) y el superior también decrece hacia
5/9 =0'5555 (11/19, 111/199, 1.111/1.999...). A efectos prácticos podemos considerar que oscila periódicamente entre el
11'11 % y el
55'55 % (las variaciones entre los límites de un tramo y los del siguiente empiezan a la altura del tercer decimal, y de ahí en adelante son cada vez más pequeñas).
Y también a efectos prácticos parece que sería útilpoder establecer un valor promedio de esta sucesión de frecuencias, el valor hacia el que tiende –o en torno al cual oscila, en este caso– la frecuencia con la que el 1 es el primer dígito, a medida que el extremo derecho de los sucesivos tramos avanza interminablemente hacia el infinito. Lo que matemáticamente se llama el límite de la sucesión.
Mis habilidades matemáticas, que no son ya lo que alguna vez fueron y nunca fueron gran cosa, no se acercan siquiera a poder calcular el límite de una sucesión así. Me consuela que A. Jamain(3), que parece saber de lo que habla y pertenece al Imperial College of London, donde nunca dicen nada solo por decir, tras asegurar que tal límite no existe, suaviza la negativa (¡cómo disfrutan los matemáticos dándonos estos sustos!) diciendo que hay diversos métodos para definirlo, y que varios de ellos llevan al deseadologaritmo de 2, que vale, precisamente, 0'3010 (o 30'1 %), el valor de la probabilidad del 1 como primer dígito según la Fórmula de Newcomb (log (1+1/1), si recuerdan ustedes), fórmula que es, a su vez, la expresión matemática de la Ley de Benford. ¡Menos mal!
Con tal autorización me siento más libre de aventurar mi propia cuenta de la vieja explicativa, que a mí al menos me sirve para entender mejor la cuestión. Si coloreamos el espacio bajo la curva del anterior gráfico, tal que así:
el área coloreada parece bastante razonablemente asimilable –los picos que entran por los que salen, ya me entienden ustedes– a la del rectángulo así mismo coloreado en este otro gráfico; rectángulo cuya base es la misma y cuya altura he situado, así, por ver qué pasa, a la altura de... pongamos por caso... el 30'1 %:
Lo que a mi ojo de buen cubero geómetra le viene a decir que la oscilación de la frecuencia del primer dígito 1entre sus dos límites viene a ser como si se mantuviera todo el rato en ese valor de 30'1 % (o 0'3010), que es, no hace falta decirlo, la deseada probabilidad del 1 como primer dígito que nos daba la fórmula de Newcomb, o sea, quod erat demostrandum. ¿Me he explicao?
(Supongo que la cosa se podría comprobar con un poco más de rigor haciendo la
integral de la curva entre dos puntos suficientemente alejados, lo que nos daría el
área picuda, y dividiéndola luego por la distancia entre esos dos puntos para que nos saliera la
altura del
rectángulo equivalente, que es el valor buscado y al que
más le vale seguir entonces siendo lo más parecido que pueda a
0'3010. Pero para eso tendría que conocer la
ecuación de la curva y recordar cómo se resolvían integrales. Dios lo haga mejor. Se lo dejo a Jamain, que sabe mucho. Yo me conformo con mi heurística doméstica).
Naturalmente, el razonamiento es generalizable a todos los demás dígitos: de los nueve mil primeros números, solo el 1'25 % empieza por
9. Y lo mismo sucede en los nueve primeros millones, en los novecientos mil primeros millones...
Si trazamos para el 2 y el 9, por ejemplo, gráficas similares a las que hemos trazado para el 1, nos quedará algo parecido a esto (las del 2 en azul y las del 9 en verde):
Como se ve, las dos frecuencias, la del 2 como primer dígito y la del 9 en ese mismo puesto, oscilan, igual que lo hacía la del 1, en torno a sendos valores promedios
–los límites respectivos de ambas series
–, que, tanto de acuerdo con mi
ojímetro geométrico como
–o al menos eso espero
– con los sabios métodos de integración de A. Jamain, pueden situarse, respectivamente, en las alturas del
17'6 % la del 2 (la frecuencia que la fórmula de Newcomb nos daba para el 2 como primer dígito) y del
4'58 % la del 9 (la frecuencia que la fórmula de Newcomb nos daba para el 9 como primer dígito).
Resulta muy interesante, para terminar, superponer las tres curvas en un solo gráfico, en el que es fácil comprobar que las frecuencias con que cada uno de estos tres dígitos son el primero de una cifra solo coinciden para valores de
n iguales a
potencias exactas de 10 (10, 100, 1.000, 10.000..), en los que las tres frecuencias se encuentran a la altura del
11'11 % (1/9)
Con lo cual considero dicho todo lo que me apetecía decir sobre el asunto. No creo, naturalmente, haber contestado ninguna de mis tres preguntas, pero sí he conseguido que se me pasen las ganas de seguir planteándomelas, lo que en la práctica es bastante equivalente. Podemos descansar, por tanto, que bien nos lo hemos ganado.
Notas:(1) How do numbers begin? (The first digit law) J. Torres, S. Fernández, A. Gamero y A. Sola. European Journal of Physics, 24 April 2007.(2) En realidad en los bombos de lotería no es necesario hacerlo, y de hecho en el de Navidad no se hace, ya que de lo que se trata no es de acertar el dígito inicial, sino el número completo, y los números completos tienen todos la misma probabilidad sea cual sea el tramo elegido.(3) Benford's Law Adrien Jamain Imperial College of London, Department of Mathematics. April - September 2001