Qué es la Teoría de Juegos?

Un Juego es un problema de competencia o interacción incierta entre dos o más agentes. La Teoría de Juegos es una fascinante aplicación que combina matemática pura y psicología para desarrollar modelos matemáticos simplificadores de problemas complejos de competencia o forma similar de interacción incierta entre dos o más agentes; a tales problemas les ponemos la etiqueta de "juegos". Resultado de la utilización de estos modelos de simplificación son los criterios de decisión que optimizan la posición de un agente en un juego, e.g., elevan la probabilidad de éxito (disminuyen el riesgo de fracaso) del agente respecto al logro de sus intereses.

La Teoría de Juegos debe predecir cuál será el resultado cierto o el resultado más probable de una disputa entre dos individuos. Fue diseñada y elaborada por el matemático John von Neumann y el economista Oskar Morgenstern en 1939, con el fin de realizar análisis económico de ciertos procesos de negociación. Von Neumann y Morgenstern escribieron el libro The Theory of Games and Economic Behaviour (1944).

Albert W. Tucker formalizó el caso notable conocido como El Dilema del Prisionero.

John Forbes Nash creó en 1950 la noción de "equilibrio Nash", que corresponde a una situación en la que dos partes rivales están de acuerdo con determinada situación del juego o negociación, cuya alteración ofrece desventajas a ambas partes.

Otros importantes representantes de la teoría de juegos fueron el húngaro nacionalizado estadounidense John Harsanyi (1920-) y el alemán Reinhard Selten.

Nash, Harsanyi y Selten recibieron el Premio Nobel de Economía de 1994 por sus contribuciones a la teoría de juegos.

Existen diferentes herramientas para analizar un juego, entre ellas:

La Matriz de Premios

Una matriz de premios (o matriz de pagos) es una tabla de doble entrada. Las entradas superiores indican las opciones que puede tomar B, y las entradas de la izquierda muestran las opciones que puede tomar A. Los puntos matriciales definidos por las combinaciones de decisiones representan los posibles resulados del juego, incluyendo las ganancias (o pérdidas) que obtendrá cada jugador. Véase la siguiente matriz de pagos:

B1 B2
A1 10, -10 -8, 8
A2 -12, 12 11, -11


El primer componente de cada par de números es el pago que recibe A si el resultado se ubica en la combinación que define a cada determinado punto matricial. El segundo componente es el pago que recibe B en la misma situación.

Curvas de Reacción

En la teoría de juegos, las curvas de reacción muestran, en un gráfico cartesiano, las combinaciones de decisiones (puede ser en las abscisas) y pagos (puede ser en las ordenadas). Un ejemplo sencillo de curvas de reacción puede verse en las curvas de oferta y demanda. Supóngase que demanda y oferta son construídas por tanteo, según propuestas de precios a cobrar y pagar realizadas por un ofertante y un demandante en relación a una cantidad determinada a negociarse en el mercado. Las combinaciones (X*, pd) ofrecidas y las combinaciones (X*, pd) propuestas por el demandante determinarán que exista una diferencia de precios (pd - ps) mayor, menor o igual a cero. Si la diferencia es mayor que cero, el demandante debe decidir si le conviene proponer un nivel de negocios diferente combinado con un precio a pagar inferior. El ofertante debe, asimismo, decidir si propondrá un nivel de negocios diferente combinado con un precio a pagar superior. El procedimiento es similar cuando la diferencia es menor que cero: el ofertante quizás proponga un precio menor y el demandante quizás proponga un precio mayor. En el caso descrito por los mercados que siguen la ley de la oferta y la ley de la demanda, se demuestra que existe una combinación solución (X, p) que presenta convergencia y estabilidad.

En este modelo de mercado, se realiza un secuencia de movimientos, tomando como "señal" a la diferencia de precios. Los turnos son dobles, es decir que los dos jugadores actúan simultáneamente. Otro modelo notable de tipo secuencial es el Duopolio de Cournot.

Árboles de resultados sucesivos

Un diagrama de árbol de resultados sucesivos se utiliza en juegos que implican secuencias de movimientos (un movimiento es un binomio decisión-acción). En este árbol, se define un punto de partida (por ejemplo, la posición inicial del jugador A). A partir del inicio, se extienden ramas que representan los diferentes movimientos que puede realizar el jugador que inicia la competencia. Los diferentes movimientos o ramas definirán igual número de resultados o pagos, que pueden servir como punto de partida para nuevas decisiones del jugador siguiente (por ejemplo, el jugador B). El proceso se repite hasta completar el número de movimientos que A y B pueden realizar. Un juego con un movimiento para A y uno para B posee dos generaciones de ramas. Un juego con dos movimientos para A y dos movimientos para B posee cuatro generaciones de ramas. En general, un juego con movimientos para A y n movimientos para B (el valor absoluto de m-n no puede ser mayor que 1) tiene m+n generaciones de ramas. Las puntas de las ramas de última generación contienen la descripción de los posibles resultados del juego. En el caso particular de que tanto A como B pueda tomar sólo dos decisiones en cada estadio del juego, el número de puntas del árbol será 2m+n.

Secuencia de los movimientos en el juego

Un juego puede ser de movimientos simultáneos o de movimientos secuenciales. El popular juego de "piedra-papel-tijera" es un juego simultáneo, mientras que las damas y el ajedrez son juegos secuenciales. El Duopolio de Cournot también es un juego secuencial. Cada uno de estos tipos de juego presenta diferentes focos de interés para la teoría de juegos. El juego simultáneo más notable es el llamado Dilema del Prisionero.

Juego suma cero

Un juego suma cero es aquél en que todo lo que gana un jugador A lo pierde un jugador B, y viceversa. De esa manera, si A gana 10 dólares en un negocio, por ejemplo, B gana -10 dólares, es decir que pierde 10 dólares. 10 + (-10) da cero. La misma matriz que hemos expuesto anteriormente representa con precisión un problema de juego suma cero:

B1 B2
A1 10, -10 -8, 8
A2 -12, 12 11, -11


Un juego suma cero puede tener notación matricial, o no tenerla. La teoría de juegos, por su parte, dedica muchos esfuerzos al análisis de problemas suma cero susceptibles de ser notados matricialmente.

Juego suma no-cero

Representa una situación en que lo que A gane no siempre deberá ser perdido por B, y viceversa. Algunos juegos suma no-cero son susceptibles de tener notación matricial.

Matrices de premios: notación simple versus notación extendida

Esta matriz:

B1 B2
A1 10, -10 -8, 8
A2 -12, 12 11, -11


Puede ser simplificada y transformada en esta otra:

B1 B2
A1 10 -8
A2 -12 11


La notación simple es muy útil en los juegos suma cero, mientras que la notación extendida es imprescindible en los juegos suma no cero: los juegos suma cero son irreductibles. Tómese el caso de la siguiente matriz, correspondiente al caso del Dilema del Prisionero:

B1 B2
A1 -2, -2 0, -3
A2 -3, 0 -1, -1


Esta matriz no es simplificable, no hay manera de indicar, desde la perspectiva de un agente, el valor que tiene un determinado escenario para su contrincante (conozca más sobre esta matriz visitando la sección del del Dilema del Prisionero).

Las matrices de juego suma no-cero son analizadas usando comparaciones de trayectorias que llevarían a un agente a mejorar su posición dado un determinado escenario. Otros métodos de análisis pueden ser utilizados, entre ellos el analisis probabilístico (criterio de minimización de riesgo).

Resultado de un juego por análisis de una matriz de pagos

Los resultados se obtienen por criterios de convergenca y de estabilidad. La convergencia se produce cuando las decisiones de A y B tienden a generar un resultado favorable para ambos. Una combinación de decisiones que sea atractiva para B y no moleste a A permitirá que ambos obtengan beneficios del juego. Igualmente, una decisión que favorezca a A y no moleste a B dará beneficios a ambos. El análisis en la matriz de pagos muestra que muchas veces los caminos elegidos por A y los caminos elegidos por B convergen a un punto. Podría decirse que en ese caso "los caminos de A y de B llevan a Roma". La convergencia de los caminos, como en el caso de los verdaderos caminos seguidos en una región cualquiera, se produce en un punto determinado. A tal punto se le llama el óptimo colectivo del juego.

La convergencia con frecuencia produce una solución estable. Una solución estable corresponde a una decisión que no se cambiará en el futuro. Supongamos que A decidió realizar una acción A1 y que B decidió realizar una acción B1. Una vez que ambos han llegado a esta decisión óptima, es posible que se sientan satifechos con la solución. En tal caso, se dice que el punto solución es estable (un punto solución viene definido por dos acciones cualesquiera, una de un sujeto A y otra de un sujeto B, tal que dicho punto ofrece beneficios significativos a ambos sujetos o jugadores). A un punto estable se le puede considerar como un sumidero o atractor. Es un sumidero porque recuerda el punto en que el agua abandona un tanque, ocurriendo que todos los vectores del agua se dirigen hacia ese punto de escape. Es un atractor porque, si se considera a toda la matriz de pagos como una región espacial cubierta de puntos, el punto estable atrae a todos esos puntos. El concepto de estabilidad suele derivar en el concepto del equilibrio Nash.

Equilibrio Nash

Dada una situación cualquiera definida por una elección de A y una elección de B, si ocurre que A supone que B no modificará su elección y opta por no modificar la suya propia y, simultáneamente, B supone que A no modificará su elección y opta también por no modificar la suya, se dice que tal situación es un equilibrio Nash. Como se ve, el equilibrio Nash es una situación que presenta ventajas para los dos jugadores, y en razón de tales ventajas, ni A ni B cambiarán de decisión.

Sin embargo, puede ocurrir que A observe que puede ganar un poco más de beneficios si defrauda a B. Tal sería el caso de un punto solución inestable. Como la matriz de pagos se analiza en dos dimensiones, la convergencia es la que da la atracción. Se ve que la atracción no siempre da estabilidad. La atracción ejercida por las decisiones de A y B convierte a este punto en una solución, mientras que la repulsión ejercida por ellas lo convierte en un punto inestable. Defraudar a B significa aprovechar la posición del óptimo social para elevar aún más los beneficios obtenibles del juego. Por ejemplo, si A y B decidieron las siguientes acciones: A1: A no venderá mercadería en la zona C. B1: B no venderá mercadería en la zona C. (C resulta ser un área neutral). Si, finalmente, A decide vender mercadería en la zona C porque encuentra que puede lograr beneficios mayores, defraudará a B. B, al ver eso, decidirá que de nada sirve respetar la regla infringida por A. A y B poseían como resultado social óptimo una distribución equitativa de las regiones de venta. Ahora, A y B perderán esa posición social óptima como resultado de haber buscado cada uno su ventaja individual.

La cuestión de la convergencia y de la estabilidad caracteriza tanto a los problemas llamados juegos suma cero (en los cuales la matriz de pagos es de suma cero) como a los juegos de suma distinta a cero.

Juego suma-cero con decisiones inciertas

Cuando no puede encontrase una solución estable, la solución puede aparecer por análisis estadístico. Se entiende que la probabilidad de que A tome la decisión A5 no es del 100%. La probabilidad de que B tome B7 tampoco es del 100%. En tal caso, un estudio acerca de la probabilidad de que cada decisión sea tomada será el que defina la cuestión. La desventaja de este enfoque es que no siempre se podrá disponer de un estudio previo de la probabilidad de decisión de los rivales.

Un enfoque alternativo es el del análisis de riesgo mínimo. Este enfoque asume que los rivales A y B actuarán desendo minimizar el riesgo de perder. En este caso no se requiere un estudio de las probabilidades, sino un estudio de optimización estocástica. La solución del problema de optimización estocástica da la idea de qué camino debe ser elegido con la mayor frecuencia, en orden de reducir el riesgo de pérdida. Este enfoque de riesgo mínimo es analizado comúnmente por medio de programación lineal. Este enfoque será discutido más adelante.

El valor de un juego

El valor de un juego es la combinación de ganancias o pérdidas que da el juego a ambos jugadores, A y B. Como se sabe, si el juego es suma cero, lo que gana A lo pierde B y viceversa. En estos casos, se denota el valor del juego como la ganancia o pérdida que da éste, una vez resuelto, a A (que equivale a la pérdida o ganancia que obtiene B).

Cuando el juego es suma no-cero, se denota el valor del juego como la combinación de las ganancias que el juego da, una vez resuelto, a A y B.

El valor ex ante o esperado

En el momento en que el juego es planteado, el valor de éste puede ser estimado mediante una serie diversa de criterios y técnicas. Básicamente, no participar en el juego no es una opción, por lo que debe elegirse entre las opciones listadas en la tabla de premios. Luego del análisis, el cual por lo general consiste en determinar la plausibilidad de una determinada elección por parte del rival, el jugador determina su propia mejor opción, de manera que él determina el escenario final más probable. Este escenario tendrá un valor doble: uno para el jugador y otro para su rival. Luego, el dúo de premios asociado al escenario final más probable es lo que llamamos el valor ex ante del juego.

El valor ex post o realizado

Recorddemos que el valor ex ante sólo es una posibilidad que conlleva asociada una probabilidad. El desenlace del juego nos da el verdadero valor ex post puede ser obtenido mediante dos reglas de decisión: la de elegir el desenlace más probable, lo que, de ser seguido por los dos rivales llevaría a que el escenario final tenga el mismo valor que se estimó antes del juego. En este caso, valor ex ante y valor ex post coinciden.

Pero una segunda regla de decisión consistirá en "replicar" la distribución de probabilidades de los escenarios mediante asociandola a una decisión propia aleatoria que siguiese la misma distribución. En tal caso, el escenario final no necesariamente coincidira con el escenario más probable proyectado.

El concepto del juego socialmente justo

Este concepto se aplica a los juegos suma cero. Un juego suma cero es justo si su valor es cero. Que el valor sea cero implica que tanto A como B obtienen ganancia nula.

Dominancia de estrategias

Véase el siguiente juego suma-cero:

B1 B2
A1 0 3
A2 -4 9

El analisis de la dominancia de estrategias puede ayudar a resolver este tipo de juego. La dominancia de estrategias consiste en identificar qué opciones dominan a otras y qué opciones son dominadas por otras. En el caso de A, vemos que decidirse por la opción 1 puede darle como resultado la ganancia nula o un puntaje de tres. Si se decide por 2, puede ganar 9 o perder 4. La posición de A tiene un valor, pero para que dicho valor sea estimable es necesario conocer la probabilidad con la que B tomará cualquiera de sus opciones. Sin el conocimiento de esa probabilidad, no puede saberse si la opción A1 domina a la opción A2, o viceversa.

El caso de B es diferente. B siempre decidirá tomar la opción 1, ya que prefiere no perder nada a perder 3 puntos, y prefiere ganar 4 puntos a perder 9. La opción B1 domina a la opción B2. Puede decirse también que la opción B2 está dominada por la opción B1. La probabilidad de que B decida 1 es 100% y la probabilidad de que decida 2 es 0%.

El análisis de la dominancia de opciones sirve para reescribir el juego, eliminando siempre las opciones dominadas. El juego se transforma en:

B1
A1 0
A2 -4

Tanto B como A son conscientes de esta situación. Dado que la situación se ha simplificado, A puede ver las cosas con más claridad, y realizar un nuevo análisis de la dominancia de sus opciones. Naturalmente, sabiendo que B decidirá definitivamente B1, a A no le queda más remedio que optar por A1, que es la estrategia que domina a la otra. El juego se transforma en:

B1
A1 0

Por lo que la solución del juego es A1-B1, y el resultado del juego es la ganancia nula para ambos jugadores. Este juego es socialmente justo.

En realidad, son pocos los juegos que pueden ser resueltos mediante el análisis de dominancia. El procedimiento de análisis de dominancia suele tener aplicación limitada, es un mecanismo de "simplificación" de problemas. Son muchos los problemas que, sometidos al análisis de dominancia, no pueden ser simplificados. Véase el siguiente ejemplo:

B1 B2
A1 0 2
A2 3 0

En este caso, ni B ni A tienen estrategias dominadas o dominantes. Próximamente MINIMAX y Juegos Suma Cero.