Es difícil que, hoy en día, cualquier persona no sepa de qué le están hablando cuando se menciona la palabra “estadística”. Los medios de información suelen hacer uso y, en ocasiones abuso, de lo que se llaman “datos estadísticos”, para facilitar determinadas informaciones. Sin embargo, la Estadística, como ciencia independiente, va mucho más allá de la simple acumulación y ordenación de datos en tablas y diagramas. Es una herramienta imprescindible en la investigación de muchas disciplinas, especialmente de las llamadas Ciencias Sociales, como la Medicina, la Psicología o la Biología.
Una de las tareas principales y, en ocasiones, la más engorrosa, de la estadística es la de recoger datos de un grupo de entes, datos que pueden ser desde las alturas de las personas que componen el grupo, el número de piezas defectuosas de una determinada cadena de fabricación… Se suele llamar población o universo a dicho grupo. Cuando se trata de grupos excesivamente numerosos, lo que se hace es trabajar con una pequeña parte representativa del mismo, a la que se denomina muestra.
Si el trabajo se limita a describir dicha muestra, sin sacar ningún tipo de conclusión sobre la población total, estamos haciendo un trabajo de estadística descriptiva. Pero si, en cambio, consideramos que las diferencias que hay entre la muestra y el grupo más amplio son válidas y sacamos conclusiones que puedan afectar a toda la población que estamos estudiando, hemos entrado en el terreno de la llamada estadística inductiva o inferencia estadística. En este último ámbito estaremos trabajando con ciertas suposiciones que, por muy razonables que sean, no llegaremos a poder precisar con toda exactitud, por lo que, de alguna manera, se hará necesaria la intervención del cálculo de probabilidades.El nombre de “estadística” proviene del latín, status, que significa “estado” en la acepción de territorio geográfico o entidad política. Y es que, desde sus orígenes, el ámbito de la estadística afectaba a asuntos de estado, como la elaboración de censos, la recaudación de impuestos o los índices de mortandad. Por lo tanto, afirmar de alguien que es un gran estadista sería, en rigor, como decir que se maneja muy bien en los cálculos estadísticos.
Variables
Una variable es un símbolo, generalmente una letra como x, y, H, P,…que puede tomar un conjunto prefijado de valores, al que se llama dominio de la variable. Por ejemplo, en un teatro con un aforo de 1.000 personas podemos llamar X a la variable “número de personas que acuden a la sesión de la noche a lo largo de toda la temporada”. Se trata de una variable que puede tomar valores como X = 275, X = 983; X = 14, etc. El dominio de esta variable es el conjunto de los números de 0 a 1.000. En algunos casos, la variable puede tomar un valor cualquiera entre dos valores dados.
Por ejemplo, si el tiempo de espera en una parada de autobús puede oscilar entre 0 y 15 minutos, la variable T “tiempo de espera” puede tomar el valor T = 3 minutos 25 segundos 8 décimas. En este caso se dice que se trata de una variable continua, a diferencia del ejemplo anterior del aforo del teatro, en el que se trataba de una variable discreta, ya que entre 45 y 46 personas no existe ningún tipo de valor intermedio. En general los datos continuos responden a mediciones (tiempo, alturas, temperaturas, etc.), mientras que los datos discretos a recuentos (dinero, número de hijos de una familia, etc.)
Gráficos
Los datos estadísticos de una determinada población se recogen normalmente en tablas especialmente diseñadas para cada ocasión. Pero es conveniente encontrar alguna forma de representación que nos proporcione una rápida información visual. Esto se hace mediante gráficas o diagramas.
Las gráficas se representan mediante dos ejes perpendiculares que relacionan entre sí dos variables. Por ejemplo, la población de un determinado país puede representarse en una gráfica en la que en el eje horizontal estén indicados los años y en el vertical el número de habitantes. La gráfica puede ser más sencilla de visualizar si se hace mediante un diagrama de barras. En este caso la altura de cada barra sería el número de habitantes y cada una se colocaría en el año correspondiente. La anchura de la barra puede ser cualquiera y se toma la que es mejor para la claridad del diagrama. Lo importante es que todas las anchuras sean iguales.
En algunos casos resulta más conveniente la utilización de diagramas circulares, más popularmente conocidos como “quesitos”. Por ejemplo, si queremos representar la superficie de los diferentes continentes, un diagrama circular nos proporciona una idea rápida de las distintas proporciones que hay entre ellos.
Frecuencias y distribuciones
Es interesante, cuando se dispone de una colección de datos estadísticos, crear una tabla en la que éstos se distribuyen de forma ordenada estableciendo clases o categorías. Por ejemplo, en un colegio X se determinan las alturas en centímetros de una muestra de 100 alumnos y se forma una tabla con los datos, estableciendo para ellos ciertos intervalos de alturas:
| Altura | Número de estudiantes |
| 185-180 | 5 |
| 179-174 | 18 |
| 173-168 | 46 |
| 167-162 | 24 |
| 161-156 | 7 |
| Total 100 |
Esto es lo que se llama una tabla de frecuencias. Para mayor sencillez hemos establecido en las alturas lo que se llama un intervalo de clase, definiendo para ello los límites inferior y superior de cada clase. En la segunda columna, por ejemplo, 179 centímetros es el límite superior de la clase y 174 el inferior, siendo la longitud o intervalo de cada una de las clases de 5 cm. El punto medio de cada clase recibe el nombre de marca de clase y se obtiene haciendo un promedio entre el límite superior e inferior. Según esto, la marca de clase de la segunda columna sería
Estableciendo ahora dos ejes de coordenadas en los que situamos en el eje horizontal la altura en centímetros, y en el vertical, la frecuencia (la segunda columna de la tabla), podemos obtener el llamado histograma o polígono de frecuencias, colocando un conjunto de rectángulos de igual anchura sobre el eje horizontal, de forma que el punto medio de cada rectángulo coincida con la marca de clase. Si unimos ahora los puntos medios de la parte superior de cada rectángulo, obtendremos una línea quebrada que recibe el nombre de polígono de frecuencias.
Curvas de frecuencia
Si los datos recogidos para establecer la tabla de frecuencias pertenecen a una población muy grande, se pueden escoger intervalos de clase lo suficientemente pequeños como para que el polígono de frecuencias se suavice y adopte la forma de una curva. En la práctica, estas curvas de frecuencias adoptan unas formas muy características, que permiten clasificarlas en tipos estándar .
Las formas simétricas o de campana nos dicen que aquellas observaciones que hemos realizado, y que se apartan del máximo, tienen todas la misma frecuencia, cosa que no sucede con las asimétricas, en las que puede aparecer un sesgo a la derecha o a la izquierda. Si en el ejemplo anterior hubiéramos tomado la población de un país, en vez de la de un colegio, hubiéramos observado un sesgo positivo, hacia la derecha, representativo de que el conjunto de la población que tiene una estatura menor de la media se presenta con mayor frecuencia. Las curvas en forma de “J” tienen una asimetría total y presentan un máximo en uno de sus extremos, a diferencia de las curvas en forma de “U”, que presentan un máximo en cada uno de los extremos. Si la curva presenta dos máximos, que no están en los extremos, se habla de una frecuencia bimodal y, si presenta más de dos, multimodal.
Medidas de tendencia centrales
El concepto de “media” o “promedio” está profundamente arraigado en la cultura popular, quizá debido a que nos da una idea de lo que es “normal”, una referencia que también nos permite saber cuándo algo se ha “desviado” de la norma. Por ejemplo, se habla de la velocidad media de un coche, del promedio de notas o nota promedio a lo largo de la enseñanza secundaria, etc.
En estadística estos conceptos se definen con precisión y adquieren un valor representativo para un conjunto determinado de datos, cuando éstos tienden a centrarse en un valor dado. Éste es el motivo por el que se les llama medidas de tendencia central. La más simple de estas medidas es la media aritmética. Si tenemos, por ejemplo, el siguiente conjunto de números: 3, 14, 26, 32, para calcular la media aritmética basta con hacer la suma de todos ellos y dividirla por el total de números que tenemos:
En algunos casos es necesario asociar a cada número lo que se llama un factor de peso, para obtener lo que se llama una media aritmética ponderada. Si consideramos que en un curso académico se realizan tres exámenes parciales y un examen final que tiene tres veces más valor que cada uno de los parciales, la media ponderada de un alumno que haya sacado 4, 8, 5, en los tres parciales y un 6 en el examen final será:
Cuando tenemos un conjunto de valores ordenados, se define la mediana como el valor que ocupa la posición central. En el conjunto de los siete números 2, 4, ,4, 8, 9, 23, 32, la mediana es el número 8. Cuando son dos los números que ocupan el valor central, la mediana es la media aritmética de ambos números. En el caso de los ocho siguientes números 1, 3, 3, 5, 7, 12, 24, 30 la mediana sería .
Al valor que aparece con mayor frecuencia en un conjunto de números se le llama moda. La moda del conjunto 2, 4, 7, ,7, 7, 9, 23, es el número 7. Puede haber conjuntos que no tengan moda y otros con dos modas (bimodales). Por ejemplo:
2, 4, 34, 65, 79 no tiene moda
1, 4, 4, 4, 6, 9, 23, 23, 23, 45, 78 tiene dos modas, que son 4 y 23.
En las curvas que son poco asimétricas se cumple siempre la siguiente relación:
Media – moda = 3(media – mediana)
Se ha de tener cierto cuidado cuando se hacen apreciaciones en función de estos índices de medidas centrales. Es muy popular la afirmación que dice: “si tenemos un pollo y te lo comes todo tú, la estadística afirmará que nos hemos comido medio pollo cada uno”; que pone de manifiesto una mala interpretación de la media aritmética. En una colección de vestidos en la que cada modelo tenga asignado un número: 2,3,7,16,22,34,45,45,67,78,90,91,… el modelo 45 sería la moda, algo que no apreciaríamos al salir a la calle.
Un juego de azar
Hace años existía, y es probable que en algunos sitios todavía exista, un curioso juego de feria consistente en dejar caer una bolita por un embudo que, después de seguir una azarosa trayectoria a través de unas celdillas hexagonales, caía en un cajón que tenía asignado un premio. La forma en como se distribuían las celdillas quedaba oculta al jugador. La cuestión es que cada bolita tiene la misma probabilidad de ir a la izquierda que de ir a la derecha, es decir ½. Cuando se han dejado caer un número suficiente de bolas se observa que éstas se amontonan en la parte central adquiriendo una forma acampanada. Siempre que repitamos el experimento, las bolitas se acumularán de la misma forma. Obviamente los premios estaban siempre en las casillas de los extremos. Esta curva recibe el nombre de campana de Gauss o curva de distribución normal y su forma obedece a leyes matemáticas.
Parte del secreto del comportamiento de las bolitas está en el triángulo de Pascal, que se utiliza para conocer el valor de los números combinatorios. Las probabilidades de que las bolas tomen una u otra dirección son proporcionales a los números combinatorios que aparecen en dicho triángulo
Cuyos valores vienen dados por la tabla siguiente
| 1 | ||||||||||||
| 1 | 1 | |||||||||||
| 1 | 2 | 1 | ||||||||||
| 1 | 3 | 3 | 1 | |||||||||
| 1 | 4 | 6 | 4 | 1 | ||||||||
| 1 | 5 | 10 | 10 | 5 | 1 | |||||||
| 1 | 6 | 15 | 20 | 15 | 6 | 1 |
En la que cada número no es más que la suma de los dos que tiene encima. Si prolongáramos las filas y en vez de números pusiéramos bolitas, veríamos aparecer la forma acampanada de la curva de Gauss.
Esta curva tiene una enorme importancia en estadística y es de uso corriente en economía, biología y en el estudio estadístico de la producción industrial, la mortalidad de la población o los accidentes de tránsito, por mencionar sólo algunas de sus aplicaciones.
La máquina de Galton
El fisiólogo Sir Francis Galton (1822-1917), que era primo y amigo de Darwin, llevó a cabo estudios sobre la herencia y las aplicaciones matemáticas a la misma. Creó una ingeniosa máquina que podía demostrar de forma mecánica un importante resultado de la teoría de probabilidades. La máquina de Galton está formada por una tabla vertical en la que hay una serie de filas de clavos que se encuentran intercalados unos con otros. Mediante una tabla inclinada se dejan caer 800 bolitas de acero. Cada bolita, al encontrarse con un clavo, tiene probabilidad ½ de caer a la izquierda o a la derecha. La acumulación de bolitas en las casillas finales dibuja una campana de Gauss.
Por otra parte, observando que las personas muy altas solían tener hijos bajos y viceversa, las personas muy bajas solían tener hijos altos, Galton afirmó que este suceso se debía a una ley de retorno a la media en cada generación. Hoy en día se sabe que este fenómeno es debido a que los valores extremos de una distribución se deben en gran parte al azar.
La Campana de Gauss
La campana de Gauss o curva de distribución normal tiene, como ya hemos visto, la forma parecida a una campana

desciende lentamente y de forma simétrica por ambos lados. El vértice de la campana se corresponde con lo que hemos denominado el valor medio, y la anchura nos muestra la frecuencia con que aparecen las desviaciones de dicha media, de forma que cuanto más estrecha sea la campana, más raras serán las desviaciones con respecto a la media. Si, por ejemplo, estamos hablando, como hicimos antes, de la altura en centímetros de un grupo de estudiantes y calculamos su distribución normal observaremos que

la media se sitúa alrededor de los 170 centímetros y que lo menos frecuente es encontrar estudiantes de 187 o 162 centímetros de altura.
La ley de Poisson
Hay un problema clásico que se plantea con frecuencia a los estudiantes de estadística en el que se proporciona una tabla de frecuencias del número de defunciones ocurridas en los cuerpos del ejército prusiano, por cuerpo y año, durante 20 años, a resultas de una coz de caballo. Se trata de demostrar que el fenómeno sigue una ley de Poisson.
En principio, el enunciado puede parecer desconcertante, ya que si el suceso sigue una ley tal parecería que los caballos del ejército deberían estar perfectamente organizados para perpetrar este tipo de crimen. Pero las cosas son justamente al contrario, demostrar que el fenómeno sigue una ley de Poisson es tanto como decir que es debido al azar, motivo por el que a esta ley se le llama también “ley de los sucesos raros”. La fórmula de la ley de distribución de probabilidades del tipo Poisson es algo complicada:
pero existen tablas que proporcionan los datos necesarios sin necesidad de llevar a cabo cálculos complejos. La importancia de esta ley se pone de manifiesto cuando se presentan sucesos inesperados que no obedecen a una razón aparente, como es el caso de defunciones que no se sabe, a priori, si son debidas al azar o a la presencia de un factor desconocido, como puede ser una enfermedad no catalogada o un factor de riesgo desconocido en accidentes laborales.
La Ley del Azar o Ley de los Grandes Números afirma que la frecuencia relativa de un suceso se aproxima cada vez más a su probabilidad teórica a medida que aumenta el número de experiencias que se realizan. Según esto se podría, por ejemplo, conocer aproximadamente la composición de una urna que contuviera bolas negras y blancas sin necesidad de abrirla. Bastaría con llevar acabo un número de experiencias lo suficientemente alto de extracción de bolas y anotar las frecuencias relativas.