Introducción a la física estadística
Nos alejamos brevemente de la temática de este blog para entender como llegar a las ecuaciones maestras que rigen cualquier sistema
La física estadística es una de las ramas más importantes de la física, fundamental para entender el funcionamiento desde estrellas hasta redes atómicas, pasando por ser la piedra clave en nuestra comprensión de la biología fundamental.
Si la termodinámica nos dice cómo reacciona cierta variable de un sistema cuando alteramos otra (por ejemplo, cuánto cambia el volumen cuando variamos la temperatura) a través de la relación fundamental,1 que no es más que una fórmula que relaciona todas las variables extensivas2 normalmente (pero no necesariamente) expresadas respecto a la entropía, término en el que profundizaremos más adelante. En la mayoría de sistemas estas variables extensivas son la energía interna (U), la entropía (S), el volumen (V) y el número de partículas para cada componente (N_i), además de la imanación (M) en sistemas magnéticos.
Entonces, nuestro principal objetivo será encontrar la función que únicamente3 dependa de estos parámetros:
De esta tarea (y unas cuantas más) se encarga la física estadística.
Los fundamentos de la física estadística
Antes de tratar los fundamentos de la f. estadística conviene recordar los de la termodinámica:
Ley Cero: Si A está en equilibrio con B, y B con C, A lo está con C.
Primer principio, generalización de la conservación de energía: Un sistema cerrado puede intercambiar energía con su entorno en forma de trabajo (W) y calor (Q), o matemáticamente: U=W+Q
Segundo principio, sobre la irreversibilidad del tiempo y la imposibilidad de evitar la muerte: la entropía de un sistema cerrado siempre tiende a aumentar. Dos enunciados alternativos son:
Clausius: No es posible un proceso cuyo único resultado sea la transferencia de calor de un cuerpo de menor temperatura a otro de mayor temperatura.
Kelvin-Planck: No es posible un proceso cuyo único resultado sea la absorción de calor procedente de un foco y la conversión de este calor en trabajo.
Tercer principio:4 La entropía es mínima a temperatura nula.
La que más nos importa es la segunda ley. Cuando se desarrolló la termodinámica el concepto de “entropía” estaba vagamente definido; sin embargo puede probarse que el objetivo de la mecánica estadística puede cumplirse simplemente dando una definición microscópica de la entropía. A continuación profundizaremos más en esto, pero antes veamos cuáles son las “leyes de la física estadística”5:
Hay estados particulares, llamados de equilibrio6, que quedan completamente especificados ’macroscópicamente’ por la especificación de la energía interna U y un conjunto de otros parámetros extensivos.
Existe una función, llamada entropía (S), de los parámetros extensivos, definida para todos los estados de equilibrio y que tiene la siguiente propiedad: Los valores que cada parámetro extensivo toma en ausencia de restricción sobre él (pared no restrictiva) es el que maximiza la entropía sobre la variedad de estados de equilibrio restringido (paredes restrictivas).
La entropía de un sistema compuesto es aditiva sobre los subsistemas macroscópicos (función homogénea de grado uno), continua y derivable, y es función monótona creciente de la energía.
También hay que añadir el tercer principio de la termodinámica.
El segundo postulado quedará mucho más claro cuando hagamos un ejemplo. Y sé que esta sección se está haciendo larga, pero aún hay que añadir algunos postulados más. Ver que hemos estado hablando todo el rato de “parámetros extensivos”, y que tienen una relación muy estrecha con la entropía mediante el segundo postulado de la física estadística (y a su vez, ésta tiene una relación muy estrecha con la evolución de cualquier sistema por la segunda ley de la termodinámica), así que conviene profundizar en estos parámetros:
Un sistema termodinámico se representa formalmente mediante un espacio de probabilidad {Γ, F, p}, sobre el espacio muestral Γ de los microestados del sistema, donde p es una medida de probabilidad para las propiedades representadas por los sucesos del álgebra F.
En resumen, todo sistema tendrá una o varias “configuraciones” (imaginad una bombilla apagada o entendida), con una probabilidad asociada a cada configuración y algunas propiedades (la bombilla tendrá una probabilidad de estar encendida del 60% y su luminosidad será una candela; mientras que la bombilla apagada tendrá una probabilidad del 40% y su luminosidad será cero).
Las variables extensivas que definen el estado termodinámico de equilibrio son los valores esperados de ciertas funciones sobre el espacio muestral.
El valor esperado7 es, a grandes rasgos, la media de toda la vida, aunque matemáticamente la expresamos de forma distinta. El valor esperado de cualquier cosa lo calculamos como el valor de esa cosa por su probabilidad.8 Esto quedará mucho más claro cuando hagamos un ejemplo.
El macroestado de equilibrio, al que se alude en el postulado anterior, es auquel que hace máxima la desinformación, S_wall(p), condicionada a las restricciones macroscópicas (paredes) impuestas al estado termodinámico de equilibrio.
Ver que hemos usado la misma letra (S) para hablar de entropía y de “desinformación”. A continuación explicaremos cuál es su relación.
Desinformación y entropía
Los dos grandes referentes en el campo de la información son C.E. Shannon9 y A.I. Khinchin, que es el que más nos interesa ahora mismo, más concretamente su trabajo El concepto de entropía en teoría de la probabilidad.
Khinchin establece una analogía entre la cuantificación y comportamiento de la desinformación que resultó coincidir con el que se había hecho un siglo antes de la entropía. Vamos a pasar esta parte rápidamente y sin mucho detalle.
Un sistema tiene varios estados, que tendrán una “información” asociada. Contra más estados tengan y más equiprobable sean, menos informativos resultarán (podemos intuirlo como “si miro este sistema, ¿voy a saber qué propiedades va a tener?“, si tiene muchos estados con probabilidades similares y propiedades distintas entonces la respuesta será “no”).
Con algo más de rigurosidad que nosotros, Khinchin describe las propiedades que la “función desinformación” debe tener,10 y llega a la conclusión de que esa función tiene que ser la siguiente:
Donde λ es una constante arbitraria (que en nuestro caso se elegirá como la famosa constante de Boltzman Kb) y el índice “i” recorre los N estados del sistema, que tienen una probabilidad p(i).
El caso es que esta función replica exactamente el comportamiento de la entropía.11 Ahora bien, ¿dos cosas que se comportan igual son lo mismo? Es algo discutido que queda bien ejemplificado con las siguientes citas:
¿Qué hay en un nombre? En el caso de la medida [de información] de Shannon, el nombre no fue accidental. En 1961, uno de nosotros (Tribus) le preguntó a Shannon qué había pensado cuando finalmente confirmó su famosa medida. Shannon respondió:
"-Mi mayor preocupación era qué nombre darle. Pensé en llamarlo información, pero la palabra estaba demasiado utilizada, así que decidí llamarlo incertidumbre. Cuando lo discutí con John von Neumann, él tuvo una mejor idea. Von Neumann me dijo que debería llamarlo entropía, por dos razones. En primer lugar, tu función de incertidumbre ha sido utilizada en la mecánica estadística con ese nombre. En segundo lugar, y más importante, nadie sabe realmente qué es la entropía, por lo que siempre tendrás ventaja en un debate."
-Tribus, 1971
Y la otra:
En mi opinión, von Neumann hizo un desfavor a la ciencia... hay, por supuesto, buenas razones matemáticas por las cuales la teoría de la información y la mecánica estadística requieren funciones con la misma estructura formal. Tienen un origen común en la teoría de la probabilidad y también necesitan satisfacer ciertos requisitos comunes como la aditividad. Sin embargo, esta similitud formal no implica necesariamente que las funciones signifiquen o representen los mismos conceptos. El término entropía ya había sido asignado un significado físico bien establecido en la termodinámica, y aún queda por ver bajo qué condiciones, si las hay, la entropía termodinámica y la información son mutuamente inconvertibles.
-Denbigh, 1981
Distribuciones canónicas
Repasemos:
Queremos obtener los parámetros extensivos de un sistema. Estos parámetros, en equilibrio, serán los que maximicen la entropía, que por analogías con la teoría de la (des)información tiene la forma presentada en la sección anterior. Esta maximización ocurre además ante ciertas restricciones.
En esta sección presentaremos de forma general cómo obtener la relación fundamental para cualquier sistema en equilibrio y pondremos de ejemplo los sistemas con restricción a todos los parámetros menos a la energía.
Supongamos que un sistema tiene Xo,…Xt variables extensivas (su energía interna, volumen, etc), de las cuales las primeras Xo,…,Xs son libres y el resto están restringidas (por ejemplo, el volumen estará restringido si el sistema está encerrado en una caja rígida). Además hay una restricción que siempre vamos a tener, que las probabilidades siempre tienen que sumar 1:
Donde el índice “i” recorre únicamente los estados compatibles con las restricciones. Además, para las Xo,…,Xs variables extensivas libres, por el postulado comentado sobre que son un valor esperado de los estados microscópicos, cumplirán por definición que:
Hemos puesto la barra encima de Xj para indicar que se trata del valor en equilibrio (en matemáticas el valor esperado o media de x se indica con esa barra), mientras que Xj(i) es el valor del parámetro “j” para el microestado i (por ejemplo, volviendo a la bombilla, para el microestado “encendido” y el parámetro “luminosidad”, Bombilla_luminosidad(“encendido”) vale una candela).
El siguiente punto es algo técnico, pero para optimizar una función bajo restricciones usamos los llamados “multiplicadores de Lagrange”. Básicamente obtendremos el valor de p(i) optimizando la función Ŝ en vez de S a secas, donde Ŝ es:
Donde el índice “i” en el último sumatorio va de 0 a s, es decir, recorre los parámetros que NO están restringidos. A priori el valor de todas las λ es desconocido. Por comodidad vamos a redefinir λ*=Kb·ln(Z)+1, donde Z es otro valor a priori desconocido. Optimizar corresponde a derivar una función e igualarla a 0, es decir, buscamos el valor de p(i) que salga de hacer:
Por comodidad, vamos a usar notación vectorial para las λ’s y X’s12. Haciendo cuentas es inmediato ver que queda:
También es inmediato ver que Z, que es el parámetro más importante de la física estadística y recibe el nombre de “función de partición”, será:
Parémonos un momento a reflexionar sobre lo que hemos obtenido. Para cada microestado “i” conocemos su probabilidad, que será un determinado “peso” (el término en la exponencial) partido de la suma de los pesos de todos los microestados. Esta es la interpretación más natural de probabilidad que hay: la probabilidad de sacar un 6 en un dado es el peso del 6 (en este caso, 1) partido de la suma del peso del total de opciones (1+1+1+1+1+1=6).
Dicho esto, aún tenemos en nuestras fórmulas esas λ’s desconocidas. Por suerte pueden obtenerse fácilmente aplicando relaciones termodinámicas. Cada λ dependerá del parámetro al que acompañe, por ejemplo para la energía λ=1/T con T la temperatura.
Toda la información del sistema está contenida en la función de partición, así que conocer Z será equivalente a conocer la relación fundamental del sistema.
El formalismo canónico
Seguro que habéis oído muchas veces que la entropía es una medida del “desorden”. Esto tiene mucho sentido porque está muy ligada al número de configuraciones, pero es particularmente cierto cuando todos los parámetros extensivos (X) están restringido. En este caso todos los estados son igualmente informativos, por lo que la entropía sólo dependerá del número de estados (Ω):
Este es el llamado “formalismo microcanónico”. Sin embargo esto no tiene por qué darse siempre. En este apartado vamos a centrarnos en el formalismo canónico, aquel en el que la energía interna (U) es libre y todo el resto de parámetros extensivos están restringidos.
Este formalismo es el más relevante porque podemos ponernos “creativos” con qué es “la energía”, así que podemos extrapolar los resultados a sistemas que se salen de la física más tradicional, aplicándolo a biología, computación, economía, etc.
En este caso, la “no restricción” será:
Donde E(i) es la energía del microestado “i”. Entonces la probabilidad de equilibrio será la que maximice la entropía S bajo las restricciones (no liarse, maximizar bajo restricciones con este método implica añadir a la fórmula los términos de las “no restricciones”):
Y nos queda una probabilidad:
Donde β=1/(kb·T), simplemente lo renombramos por comodidad. Es decir, el peso dependerá de la energía de cada estado, y a mayor energía menor será el peso (por el signo “-” de la exponencial). Dicho de otra manera, los estados más energéticos son menos probables, así que para alcanzarlos hay que añadir energía al sistema en forma de aumentar la temperatura (¿no os recuerda esto mucho al principio de mínima energía?).
Y aunque no vamos a probarlo (tampoco es muy difícil), se cumple que la energía libre de Helmholtz F (a temperatura finita los sistemas evolucionan minimizando esta energía, no la energía interna U) cumplirá que:
Conocida F y mediante un par de trucos para quitarnos la temperatura (tanto la T que aparece en F como la β de la que depende Z) ya conocemos la relación fundamental del sistema.
Pero esto es demasiado genérico, vayamos con un caso mucho más concreto.
Ejemplo: el sistema de dos estados
Imaginad un sistema de N componentes (distinguibles13 e independientes) en el que cada partícula puede tener dos energías: 0 y e. Puede parecer algo muy básico, pero es la base de una enorme cantidad de sistemas más complejos y su utilidad es inmensa.
Nótese que aquí entran en juego dos parámetros extensivos, la energía interna y el número de partículas N. N está restringido (su valor es fijo).
El conjunto de microestados “i” hace referencia a las distintas posibilidades que tenemos (como son partículas independientes y hay dos estados, hay 2^N configuraciones distintas), y la energía de cada microestado será el número de partículas con energía “e” por “e”. Si modelamos el sistema como una sucesión de 1’s y 0’s y la llamamos {n(i)}={n0,…,nN}14, entonces:
Así, la probabilidad de equilibrio quedará:
Claro, tenemos muchísimos estados y no vamos a ir uno por uno calculando su peso para obtener Z, pero tampoco nos hace falta. Como las partículas son independientes entonces “factorizan”, es decir, podemos expresar el sistema en función de la función de partición de una única partícula15, que llamaremos Z=z^N.
Esta z sólo recorre las configuraciones de una única partícula, que en este problema son 2 (estado “0” con energía 0 y estado “1” con energía e):
Como β sólo depende de la temperatura, y tanto N como e son conocidos, ya hemos resuelto el sistema (para una temperatura dada). Por ejemplo, la energía libre de Helmholtz (a partir de la cual podemos calcular todo lo demás) será:
Aunque tampoco hace falta usar F para obtener información relevante, la energía la podemos calcular a través de la función de partición directamente16 como:
Si representamos esta función respecto a la temperatura podemos obtener información relevante, como a qué temperatura la energía del sistema será máxima:
Ver que obtenemos un resultado bastante obvio. La probabilidad de estar en los estados “0” y “1” de cada partícula es (la flecha no significa nada, es que Substack no deja usar los comandos habituales para hacer espacios de LaTeX):
Cuando la temperatura tiende a 0 el término e^{-βe} también tiende a 0, así que quedará p(0)=1 y p(1)=0. Esto es lógico, a temperatura nula todas las partículas están en el estado de mínima energía (esto se cumple siempre), y como la energía total es la suma de las energías individuales vemos que a T=0 ésta es nula.
Conclusión
Este ejemplo que hemos visto es muy básico, pero os sirve para resolver muchísimos problemas. Mientras las partículas factoricen lo único que tenéis que hacer es calcular la función de partición de una partícula. En cada caso la energía será distinta, pero la idea es exactamente la misma.
Este formalismo nos permite entender el comportamiento de un sistema grande a partir de conocer cómo se comportan sus componentes (siempre, repito, que los componentes no interactúen entre ellos, en cuyo caso las matemáticas se complican).
Sin embargo lo que más me gusta de él es la relación que hace entre la probabilidad y los parámetros extensivos como la energía o el volumen, una vez que lo asimilas no puedes dejar de pensar en este marco.
O una formulación equivalente a través de transformadas de Legendre, como la energía libre de Gibbs ,que os sonará del bachillerato científico, o la entalpía, no confundir con entropía
Por no entrar en detalles, suponed que las variables extensivas son las que “se suman”. El volumen es extensivo, si tienes 2 garrafas de 5 litros es como si tuvieras una de 10, pero la temperatura es intensiva, si juntas dos cuerpos a 20º no tienes un cuerpo a 40º. Además se cumple que todas las variables intensivas son derivadas de variables extensivas, por ejemplo, la temperatura es la derivada de la energía respecto a la entropía.
Por ejemplo, la famosa ecuación de los gases ideales PV=NRT no es una relación fundamental porque mezcla parámetros extensivos (N) con intensivos (P y T, R es sólo una constante). La relación fundamental de los gases ideales es:
Donde “c” es otra constante. Además, se puede probar que si conoces todas las ecuaciones de estado (todos los parámetros extensivos expresados en función de intensivos) puedes conocer la relación fundamental, y si las conoces todas menos una puedes extraer la gran mayoría de información.
En verdad este principio es bastante más complejo de enunciar, pero ahora mismo no es relevante. Ver “Postulado de Nest” para más información.
Postulados de Tisza-Callen.
Hemos hecho trampas al hablar de “las leyes de la física estadística”, porque vamos a centrarnos sólo en la física estadística en equilibrio.
https://en.wikipedia.org/wiki/Expected_value
Suponed que hacéis una apuesta: lanzáis una moneda al aire y si sale cara ganas 10 euros, si sale cruz pierdes 5. El valor esperado de esta apuesta será: E=10 euros x 1/2 + (-5 euros) x 1/2=2,50 euros.
The mathematical theory of communication Bell System Technical Journal, 27, 379- 423; 623-656 (1948)
Copiado con una cara de cemento armado de mis apuntes de física estadística y sin preocuparme siquiera de cuadrar los subíndices:
a) La primera de las propiedades que parece muy razonable exigir es la siguiente: S(p1, p2, . . . , pN ) = 0 si y solo si uno de los números p(i) es la unidad y el resto por lo tanto son nulos. En efecto, ese esquema finito tiene información completa, y por lo tanto desinformación nula, mientras que en cualquier otro esquema la información es incompleta. También es obvio que, fijado N, el esquema con mayor desinformación es el equiprobable, pi = 1/N para todo i . Para este esquema finito, la desinformación sólo es función de N, y la denotaremos como I(N). Por lo tanto S(p1, p2, . . . , pN ) ≤ I(N) para todo esquema finito.
b) Imaginemos ahora que añadimos un nuevo elemento al espacio muestral, al que asignamos una probabilidad nula. Parece razonable que con ello ni aumentamos ni disminuimos la cantidad de desinformación del esquema original, es decir, que debe cumplirse S(p1, p2, . . . , pN ) = S(p1, p2, . . . , pN , 0).
c) Asimismo, al comparar la desinformación de esquemas equiprobables correspondientes a distintos tamaños N del espacio muestral (p.ej. lanzamiento de una moneda y lanzamiento de un dado cúbico), no hay duda de que I(N) ha de ser función monótona creciente de su argumento.
d) Si dos esquemas finitos E = (em, pm) (m = 1, . . . , M) y E 0 = (e 0 m0, p0 m0) (m0 = 1, . . . , M0 ) son independientes, es decir la probabilidad del suceso conjunto em ∧ e 0 m0 es Pm,m0 = pmp 0 m0 para todos m y m0 , parece natural que la desinformación del esquema conjunto sea la suma de las desinformaciones de cada uno de ellos por separado. Imaginemos que un esquema corresponde al lanzamiento de una moneda y el otro al lanzamiento de un dado. Si lanzamos la moneda en primer lugar, su resultado no reduce la incertidumbre sobre el resultado del lanzamiento del dado.
e) Consideremos ahora la situación en la que los dos esquemas finitos considerados en el ítem anterior son dependientes (imaginemos p.ej. una compleja interacción física entre dado y moneda, de modo que el resultado de un lanzamiento condiciona el del otro). La desinformación del esquema conjunto no puede ser la suma de las desinformaciones de cada uno de los esquemas. Ello es obvio en el caso extremo en que p.ej. el resultado del lanzamiento del dado determinase completamente el del lanzamiento de la moneda, donde por razones de consistencia la desinformación del esquema conjunto y la del lanzamiento del dado han de ser iguales.
Con un matiz, “técnicamente” sólo lo replica en el llamado “límite termodinámico”, esto es, cuando los sistemas “son infinitos”. Sin embargo suele dar una aproximación muy buena en el resto de casos. Este resultado, aparentemente simple, costó décadas de trabajo a algunas de las mayores mentes del siglo pasado.
\vec{λ}*\vec{X}(i) es λoXo(i)+λ1X1(i)+…+λtXt(i), donde “i” indica el microestado.
“Distinguibles” quiere decir que “puedo etiquetarlos y no perder esa etiqueta”. Los electrones, por ejemplo, son “indistinguibles” porque dos electrones son iguales, y si los mezclo en una caja a ciegas, cuando la abra no sabré cuál es cuál. Un sistema con componentes indistinguibles siempre tendrá menos estados que uno distinguible, y además está probado que la indistinguibilidad actúa como una fuerza repulsiva.
Una posible configuración, llamémosla configuración “0”, sería {n(0)}={0,0,0,…,0}. Otra sería {n(1)}={1,0,0,0,…,0}, y otra podría ser {n(1294)}={1,0,0,1,1,1,0,…}. El número con el que identificamos al microestado es arbitrario.
Formalmente:
Otra forma sería aplicar la definición que hemos dado de energía como un valor esperado, teniendo en cuenta además que el sistema factoriza. Si operáis veis inmediatamente que queda lo mismo: