Read El hombre anumérico Online

Authors: John Allen Paulos

Tags: #Ensayo, Ciencia

El hombre anumérico (17 page)

Consideremos el siguiente ejemplo, en el que el resultado inesperado de un simple test estadístico es una justificación suficiente para rechazar una hipótesis común y aparentemente obvia: que el cumpleaños de las personas no guarda ninguna relación con el día de su muerte. Concretando, parece natural suponer que aproximadamente el 25% de las muertes que se producen en una comunidad determinada tienen lugar en el trimestre siguiente al cumpleaños del difunto (y el otro 75% en los tres trimestres restantes) Sorprendentemente, sin embargo, una muestra al azar de 747 reseñas necrológicas aparecidas en los periódicos de Salt Lake City, Utah, en 1977 indicaba que el 46% de las defunciones consideradas se produjeron en los tres meses siguientes al cumpleaños. Dada la hipótesis nula en cuestión, que aproximadamente el 25% de las muertes se habrían producido en el intervalo de tres meses siguientes al cumpleaños del difunto, la probabilidad de que el 46% o más hayan muerto dentro de este intervalo de tres meses es tan baja que se puede considerar cero. (Hemos de considerar la hipótesis alternativa de que hayan muerto el 46% o más, y no la de que hayan muerto exactamente el 46%. ¿Por qué?)

Así pues, podemos rechazar la hipótesis nula y aceptar provisionalmente que, por el motivo que sea, parece que las personas esperan a cumplir años para morirse. Tanto si esto se debe al deseo de alcanzar otro hito o al trauma de cumplir años («¡Oh, Dios mío, ya tengo noventa y dos!»), parece claro que el estado psíquico de una persona es un factor determinante del momento de su muerte. Sería interesante ver qué resultados daría un estudio similar en otra ciudad. Intuyo que el fenómeno es más marcado entre gente muy mayor, para la que un último cumpleaños podría ser el único tipo de meta importante a su alcance.

Como ilustración del importantísimo modelo de probabilidad binomial, y como ejemplo numérico de test estadístico, imaginemos el siguiente test en miniatura para la ESP. (Este es uno de los párrafos que dije que podían saltarse sin demasiada preocupación.) Supongamos que se elige al azar un símbolo de entre tres posibles, se tapa con una cartulina y se pregunta al sujeto del experimento que lo identifique. Al cabo de veinticinco realizaciones del experimento, el sujeto ha acertado el símbolo oculto diez veces. ¿Da esto evidencia suficiente para rechazar justificadamente la hipótesis de que el sujeto no tiene ESP?

La respuesta la tenemos determinando la probabilidad de que el resultado se deba simplemente a la suerte. La probabilidad de acertar por chiripa exactamente diez veces es (1/3)
10
(que es la probabilidad de contestar correctamente a las diez primeras preguntas) × (2/3)
15
(la probabilidad de contestar equivocadamente a las quince restantes) × el número de conjuntos de diez preguntas que se puedan formar con las veinticinco preguntas que constituyen el test. Este último factor es necesario porque nos interesa saber la probabilidad de que haya diez respuestas acertadas, y no de que éstas sean precisamente las diez primeras. Nos vale cualquier conjunto de diez respuestas correctas y quince equivocadas, y todos ellos tienen la misma probabilidad, (1/3)
10
× (2/3)
15
.

Como el número de modos en que podemos escoger diez preguntas de entre veinticinco es 3.628.800 [(25 × 24 × 23 × … × 17 × 16)/(10 × 9 × 8 × … × 2 × 1)], la probabilidad de acertar diez preguntas de las veinticinco que componen el test es 3.628.800 × (1/3)
10
× (2/3)
15
. Se pueden hacer cálculos similares para la probabilidad de acertar once, doce, trece, y así hasta veinticinco. Si sumamos todas estas probabilidades obtendremos la probabilidad de acertar por chiripa diez preguntas o más de las que componen el test, aproximadamente un 30%. Esta probabilidad no es, ni muchísimo menos, lo suficientemente baja, para justificar el rechazo de nuestra hipótesis de que el sujeto no tiene ESP. (Algunas veces es más difícil desechar resultados experimentales basándose en razones probabilísticas, pero en tales casos siempre se han encontrado defectos en el diseño experimental que daban pistas al sujeto.)

Errores del Tipo I y errores del Tipo II: de la política a la apuesta de Pascal

Veamos ahora otro ejemplo más de test estadístico. Supongamos que formulo la hipótesis de que por lo menos el 15% de los coches de determinada región son Corvette, y que después de observar el paso de mil coches por unos cuantos cruces representativos de dicha región sólo he visto ochenta Corvette. Utilizando la teoría de la probabilidad, calculo que, en el supuesto de que mi hipótesis sea cierta, la probabilidad de este resultado es bastante inferior al 5%, cifra que comúnmente se usa como «nivel de significatividad». Así pues, rechazo mi hipótesis de que el 15% de los coches de la región son Corvette.

Hay dos tipos de errores que se pueden cometer al aplicar este test estadístico u otro cualquiera y se llaman, en un derroche de imaginación, errores del Tipo I y errores del Tipo II. Se produce un error del Tipo I cuando se acepta una hipótesis falsa, y uno del Tipo II, cuando se rechaza una hipótesis verdadera. Así, si una gran cantidad de Corvette procedentes de una exposición automovilística atravesara la región y esto nos llevara a aceptar la hipótesis falsa de que al menos el 15% de los coches de la región son Corvette, estaríamos cometiendo un error del Tipo I. Por el contrario, si no nos hubiéramos percatado de que la mayoría de los Corvette de la región no estaban en circulación, sino guardados en sus garajes, al rechazar la hipótesis verdadera estaríamos cometiendo un error del Tipo II.

Esta distinción admite también una presentación menos formal. Cuando se distribuye dinero, el liberal típico procura evitar como sea los errores del Tipo II (que el que ha hecho méritos no reciba su parte), mientras que el conservador típico se preocupa más por evitar los errores del Tipo I (que el que no lo merece reciba más de lo que le toca). Cuando se reparten castigos, el conservador típico se interesa más por evitar los errores del Tipo II (que el culpable no reciba el castigo que le toca), mientras que el liberal típico se preocupa más de evitar los errores del Tipo I (que el inocente reciba un castigo inmerecido).

Naturalmente, siempre hay gente que se quejará del exceso de rigor de la
Federal Drug Administration
al retardar la puesta en circulación del fármaco X que ahorraría tanto sufrimiento, y que se quejará también si el fármaco Y se pone en circulación prematuramente y como consecuencia de ello se derivan graves complicaciones. Al igual que la FDA, que ha de evaluar las probabilidades relativas de cometer un error del Tipo I (dando el visto bueno a un mal medicamento) o un error del Tipo II (negando la autorización a un buen fármaco), hemos de evaluar probabilidades similares para situaciones que nos afectan a nosotros directamente. ¿Hay que vender las acciones que están en alza y correr el riesgo de no beneficiarnos de que puedan subir más, o conservarlas y correr el riesgo de que vuelvan a bajar y perdamos lo que ya tenemos seguro? ¿Hemos de someternos a una operación o intentar arreglarnos con medicamentos?

¿Debería Henry pedirle a Myrtle que saliera con él arriesgándose a que le dijera que no, o no pedírselo y conservar su tranquilidad de ánimo, pero no enterarse de que ella le habría dicho que sí?

Consideraciones parecidas valen para los procesos de fabricación. Debido a que algún mecanismo fundamental se estropea por el fallo de alguno de sus componentes, o porque sale a la luz pública una anomalía de una serie de artículos que usualmente son de fiar (petardos, latas de sopa, chips informáticos, condones), a menudo se levantan voces reclamando unos controles más severos que garanticen que no se van a producir más fallos. Parece razonable, pero en la mayoría de los casos es sencillamente imposible o, lo que es equivalente, prohibitivamente caro. En los controles de calidad se analiza una muestra de cada lote de productos fabricados, para asegurarse de que la muestra no contiene artículos defectuosos o contiene muy pocos, pero no se analizan todos los artículos del lote (a veces éstos ni tan siquiera son analizables).

Casi siempre hay un compromiso entre la calidad y el precio, entre los errores del Tipo I (aceptar una muestra con demasiados artículos defectuosos) y los de Tipo II (rechazar una muestra con muy pocos elementos defectuosos). Además, si no se reconoce explícitamente este compromiso, se tiende a negar o a encubrir los artículos defectuosos, que son inevitables, con lo que la tarea del control de calidad se hace mucho más difícil. A propósito de esto tenemos la Iniciativa de Defensa Estratégica, cuyos programas de ordenador, satélites, espejos, etc. serían tan tremendamente complejos que hay que ser un poco anuméricamente ingenuo para creer que funcionará sin llevar el tesoro a la bancarrota.

La Iniciativa de Defensa Estratégica trae aparejada una meditación sobre la destrucción y la salvación, pero incluso aquí los compromisos pueden jugar un papel importante. La apuesta de Pascal acerca de la existencia de Dios, por ejemplo, puede presentarse como una elección entre las probabilidades relativas de los errores de Tipo I y II, y sus posibles consecuencias. Deberíamos aceptar la existencia de Dios y actuar en consecuencia, arriesgándonos a cometer un error del Tipo I (que Dios no exista), o deberíamos negar su existencia y actuar también en consecuencia, corriendo el riesgo de cometer un error del Tipo II (que exista). Naturalmente, las frases anteriores se apoyan en un buen número de suposiciones sobreentendidas, y carecen de valor o de significado si no se aclaran éstas primero. Pero lo que quiero señalar es que todas las decisiones se pueden presentar en estos términos y, de hecho, exigen una evaluación informal de las probabilidades. En ninguna parte dan duros por cuatro pesetas, y si los dieran, nadie nos asegura que no fueran falsos.

Haciendo encuestas fiables

Estimar las características de una población, como el tanto por ciento que prefiere a cierto candidato o a una marca concreta de comida para perros, es en principio simple, igual que el contraste de hipótesis. Se selecciona una muestra al azar (esto es más fácil decirlo que hacerlo) y luego se determina qué porcentaje de la muestra prefiere al candidato (pongamos, el 45%) o la marca de comida para perros (pongamos, el 28%), ¿qué porcentajes hemos de tomar como estimación de la opinión de la población total?

Sólo he trabajado efectivamente en una encuesta en una ocasión. Se trataba de una encuesta informal que pretendía resolver la cuestión candente: ¿Qué proporción, entre las mujeres universitarias, se lo pasa bien viendo series con
Los tres Stooge
? Descartando aquellas que no conocían esa payasada tan poco culta de los Stooge, encontré que un sorprendente 8% de mi muestra confesaba tal satisfacción.

No se puso demasiado cuidado en la selección de la muestra, pero al menos el resultado, el 8%, tenía ciertos visos de credibilidad. Un problema evidente de afirmaciones tales como «el 67% (o el 75%) de los encuestados prefirieron la pastilla X» es que fácilmente podrían estar basadas en muestras pequeñas de tres o cuatro individuos. Más descarado aún es el caso en que una celebridad avala una dieta, un medicamento, o lo que sea, en tal caso tenemos una muestra de uno, que generalmente, además, ha cobrado por ello.

Así pues, más difícil que hacer cálculos estadísticos es decidir qué fiabilidad nos merecen los mismos. Si la muestra es grande, podemos confiar más en que sus características se aproximen a las de la población total. Si la distribución de la población no es demasiado dispersa ni variada, podemos también confiar más en que las características de la muestra sean representativas.

Con ayuda de unos pocos teoremas de teoría de la probabilidad y estadística, podemos sugerir lo que se conoce como intervalos de confianza para estimar la probabilidad de que una muestra característica sea representativa del conjunto de la población. Así, podríamos decir que un intervalo de confianza del 95% para el porcentaje de electores que votarán a favor del candidato X es el 45% más o menos el 6%. Es decir, que tenemos una seguridad del 95% de que el porcentaje de la población se desviará como mucho un 6% con respecto a la estimación realizada en la muestra; en este caso, entre un 39 y un 51% de la población votará por el candidato X. Análogamente, podríamos decir que el intervalo de confianza del 99% para la proporción de consumidores que prefieren la marca Y de comida para perro es del 28% más o menos el 11%; o sea que tenemos una seguridad del 99% de que la proporción de la población se desvía como mucho un 11% respecto de la muestra; en este caso, entre el 17 y el 39% de los consumidores prefieren la marca Y.

Como en el caso del contraste de hipótesis, sin embargo, en ninguna parte dan duros por cuatro pesetas. Para muestras de un tamaño dado, cuanto más estrecho es el intervalo de confianza es decir, cuanto más precisa es la estimación, menos fiable es. Y a la inversa, cuanto más ancho es el intervalo de confianza esto es, cuanto menos precisa es la estimación, más fiable es. Naturalmente, si aumentamos el tamaño de la muestra, podemos afinar, al mismo tiempo, el intervalo de confianza y aumentar nuestra seguridad de que éste contiene el porcentaje de la población (o cualquier parámetro o característica de la misma), pero tomar muestras mayores es más caro.

Los resultados de sondeos o de encuestas que no llevan los intervalos de confianza o márgenes de error son a menudo engañosos. Lo más frecuente es que los sondeos sí lleven tales intervalos de confianza, pero que éstos no aparezcan en los reportajes de prensa. Las afirmaciones que no se comprometen demasiado y la incertidumbre rara vez son noticia periodística.

Si un titular dice que el desempleo ha disminuido del 7,1 al 6,8%, pero no dice que el intervalo de confianza es de más o menos 1%, uno puede llevarse la impresión equivocada de que algo bueno ha ocurrido. Sin embargo, dado el error del muestreo, esa «disminución» podría ser inexistente o, peor aún, podría haber habido un aumento. Si no se dan los márgenes de error, una buena regla empírica es que una muestra aleatoria de mil o más individuos da un margen suficientemente estrecho para la mayoría de fines, mientras que una muestra aleatoria de cien o menos da un margen demasiado ancho.

Mucha gente se sorprende de que el número de individuos que los encuestadores entrevistan para llegar a sus resultados sea tan pequeño. (La anchura del intervalo de confianza es inversamente proporcional a la raíz cuadrada del tamaño de la muestra.) En realidad, el número de encuestados generalmente es mayor que el que sería necesario en teoría. Lo hacen así para compensar problemas relacionados con la dificultad de escoger una muestra aleatoria. Si la muestra aleatoria seleccionada consta de mil individuos, el intervalo de confianza teórico del 95% para la estimación de los votantes del candidato X o de quienes prefieren la comida para perro de marca Y es aproximadamente de más o menos el 3%. Los encuestadores toman a menudo más o menos el 4% en esta muestra, para corregir el efecto de los que no contestan y otros problemas.

Other books

Garden of Empress Cassia by Gabrielle Wang
Flight Patterns by Karen White
Urban Shaman by C.E. Murphy