Variància i desviació típica

Variància

La variància d'unes dades és la mitjana aritmètica del quadrat de les desviacions respecte a la mitjana de la mateixa. Se simbolitza com $$\sigma ^2$$ i es calcula aplicant la fórmula $$$\sigma^2=\displaystyle \frac{\displaystyle\sum_{i=1}^N (x_i-\overline{x})^2}{N}=\frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\ldots+(x_N-\overline{x})^2}{N}$$$ que es pot simplificar com: $$$\sigma^2=\displaystyle \frac{\displaystyle \sum_{i=1}^N x_i^2}{N}-\overline{x}^2=\frac{x_1^2+x_2^2+\ldots+x_N^2}{N}-\overline{x}^2$$$

De la mateixa manera que per a la mitjana, no sempre serà possible trobar la variància, i és un paràmetre molt sensible a les puntuacions extremes. Es pot observar que en estar la desviació elevada al quadrat, la variància no pot tenir les mateixes unitats que les dades.

Comparant amb el mateix tipus de dades, un variància elevada significa que les dades estan més disperses. Mentre que un valor de la variància baix indica que els valors estan en general més propers a la mitjana.

Un valor de la variància igual a zero implica que tots els valors són iguals, i per tant també coincideixen amb la mitjana aritmètica.

En un partit de bàsquet, es té la següent anotació en els jugadors d'un equip: $$0, 2, 4, 5, 8, 10, 10, 15, 38$$. Calcular la variància de les puntuacions dels jugadors de l'equip.

Aplicant la fórmula $$\overline{x}=\displaystyle \frac{0+2+4+5+8+10+10+15+38}{9}=\frac{92}{9}=10.22$$ s'obté la mitjana.

Seguidament s'aplica la fórmula de la variància: $$$\sigma^2=\displaystyle \frac{(0-10.22)^2+(2-10.22)^2+(4-10.22)^2+(5-10.22)^2+(8-10.22)^2+(10-10.22)^2+(10-10.22)^2+(15-10.22)^2+(38-10.22)^2}{9}=\\=\displaystyle \frac{10.22^2+8.22^2+6.22^2+5.22^2+2.22^2+0.22^2+4.78^2+27.78^2}{9}=\\=\displaystyle\frac{104.4484+67.5684+38.6884+27.2484+4.9284+0.0484+22.8484+771.7284}{9}=\\=\displaystyle \frac{1037.5556}{9}=115.28$$$

Càlcul de la variància per a dades agrupades

En el cas de $$N$$ mostres agrupades en $$n$$ classes s'aplica la fórmula: $$$\sigma^2=\displaystyle \frac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2 f_i}{N}=\frac{(x_1-\overline{x})^2f_1+(x_2-\overline{x})^2f_2+\ldots+(x_n-\overline{x}^2f_n}{N}$$$ que queda simplificada com: $$$\displaystyle \sigma^2=\frac{\displaystyle \sum_{i=1}^n x_i^2f_i}{N}-\overline{x}^2=\frac{x_1^2f_1+x_2^2f_2+\ldots+x_n^2f_n}{N}-\overline{x}^2$$$ La interpretació que es pot fer del resultat és la mateixa que per a dades no agrupades.

L'alçada en cm dels jugadors d'un equip de bàsquet està en la següent taula. Calcular la variància.

  $$x_i$$ $$f_i$$
$$[160,170)$$ $$165$$ $$1$$
$$[170,180)$$ $$175$$ $$2$$
$$[180,190)$$ $$185$$ $$4$$
$$[190,200)$$ $$195$$ $$3$$
$$[200,210)$$ $$205$$ $$2$$

En primer lloc, emplenem la següent taula:

  $$x_i$$ $$f_i$$ $$x_if_i$$ $$x_i^2f_i$$
$$[160,170)$$ $$165$$ $$1$$ $$165$$ $$27225$$
$$[170,180)$$ $$175$$ $$2$$ $$350$$ $$61250$$
$$[180,190)$$ $$185$$ $$4$$ $$740$$ $$136900$$
$$[190,200)$$ $$195$$ $$3$$ $$585$$ $$114075$$
$$[200,210)$$ $$205$$ $$2$$ $$410$$ $$84050$$
    $$12$$ $$2250$$ $$423500$$

S'ha de calcular la mitjana $$$\displaystyle \overline{x}=\frac{2250}{12}=187.5$$$ per poder aplicar la fórmula.

Es calcula llavors la variància $$$\displaystyle \omega^2=\frac{423500}{12}-187.5^2=135.42$$$

Propietats de la variància

  1. $$\sigma^2 \geq$$ La variància és un valor positiu, com ja s'ha comentat anteriorment, la igualtat només es dóna en el cas que totes les mostres siguin iguals.

  2. Si a totes les dades se'ls suma una constant, la variància segueix sent la mateixa.

  3. Si totes les dades es multipliquen per una constant, la variància queda multiplicada pel quadrat de la constant.

  4. Si es disposen de diverses distribucions amb la mateixa mitjana i es calculen les diferents variàncies, es pot trobar la variància total aplicant la fórmula $$$\sigma^2=\displaystyle \frac{\sigma_1^2+\sigma_2^2+\ldots+\sigma_n^2}{n}$$$ En el cas que les distribucions tinguin diferent grandària, la fórmula es pondera i queda com $$$\sigma^2=\displaystyle \frac{\sigma_1^2k_1+\sigma_2^2k_2+\ldots+\sigma_n^2k_n}{k_1+k_2+\ldots+k_n}$$$

En un examen, tots els alumnes de la classe van treure un deu. Trobar la variància de les notes.

Al coincidir tots els valors la mitjana coincideix també amb ells $$\overline{x}=10$$, i la variància és nul·la $$\sigma^2=0$$.

Desviació típica

La desviació típica és l'arrel quadrada de la variància i es representa per la lletra $$\sigma$$. Per calcular-la es calcula la variància i es treu l'arrel. Les interpretacions que es dedueixen de la desviació típica són, per tant, semblants a les que es deduïen de la variància:

Comparant amb el mateix tipus de dades, una desviació típica elevada significa que les dades estan disperses, mentre que un valor baix indica que els valors són propers els uns dels altres, i per tant de la mitjana.

Propietats de la desviació típica

  1. $$\sigma \geq 0$$ La desviació típica és un valor positiu, la igualtat només es dóna en el cas que totes les mostres siguin iguals.
  2. Si a totes les dades se'ls suma una constant, la desviació típica segueix sent la mateixa.
  3. Si totes les dades es multipliquen per una constant, la desviació típica queda multiplicada per aquesta constant.
  4. Si es disposa de diverses distribucions amb la mateixa mitjana i es calculen les diferents desviacions típiques, es pot trobar la desviació típica total aplicant la fórmula$$$\sigma=\displaystyle \sqrt{\displaystyle \frac{\sigma_1^2+\sigma_2^2+\ldots+\sigma_n^2}{n}}$$$ En el cas que les distribucions tinguin diferent grandària, la fórmula es pondera i queda com$$$\sigma=\displaystyle \sqrt{\displaystyle \frac{\sigma_1^2k_1+\sigma_2^2k_2+\ldots+\sigma_n^2k_n}{k_1+k_2+\ldots+k_n}}$$$