viernes, 10 de agosto de 2012


Distribución Hipergeométrica (N,R,n)



La distribución hipergeométrica suele aparecer en procesos muestrales sin remplazo, en los que se investiga la presencia o ausencia de cierta característica. Piénsese, por ejemplo, en un procedimiento de control de calidad en una empresa farmacéutica, durante el cual se extraen muestras de las cápsulas fabricadas y se someten a análisis para determinar su composición. Durante las pruebas, las cápsulas son destruidas y no pueden ser devueltas al lote del que provienen. En esta situación, la variable que cuenta el número de cápsulas que no cumplen los criterios de calidad establecidos sigue una distribución hipergeométrica. Por tanto, esta distribución es la equivalente a la binomial, pero cuando el muestreo se hace sin remplazo. Esta distribución se puede ilustrar del modo siguiente: se tiene una población finita con N

(Diabetes, obesidad, hábito de fumar, etc.). El número de “éxitos” en una muestra aleatoria de tamaño n, extraída sin remplazo de la población, es una variable aleatoria con

Distribución hipergeométrica de parámetros N, R y n.

Cuando el tamaño de la población es grande, los muestreos con y sin remplazo son

Equivalentes, por lo que la distribución hipergeométrica se aproxima en tal caso a la

Binomial.



Valores:

x: max{0,n-(N-R)}, ..., min{R,n}, donde max{0,n-(N-R)} indica el valor máximo entre 0 y n-

(N-R) y min{R,n} indica el valor mínimo entre R y n.

Parámetros:

N: tamaño de la población, N>0 entero

R: número de éxitos en la población, R³0 entero

n: número de pruebas, n>0 entero

martes, 7 de agosto de 2012


 

Variable aleatoria


Una Variable aleatoria X es una regla que asigna un valor numérico a cada resultado en el espacio mestrual de un experimento.

Una variable aleatoria discreta puede tomar en específico, aislado valor numérico, como resultado de lanzar un dado, o el número de dólares en una cuenta bancaria escogido de forma aleatoria.

Una variable aleatoria continua puede tomar cualquier valor dentro de un continuo intervalo de tiempo, como la temperatura en el Parque Central, o la altura de un atleta en centímetros.

Variable aleatoria discreta que sólo puede asumir finitamente muchos valores (como el resultado de lanzar un dado) se llama variables aleatorias finitas.

Distribución de probabilidad

La probabilidad P(X = x) es la probabilidad de que X realiza el valor x. Del mismo modo, la probabilidad P(a < X < b) es la probabilidad de que X se encuentre entre a y b.

Estas probabilidades pueden ser estimadas, o teoréticas (modeladas) (véa el capítulo 7 de Matematicas Finitas o el resumen de probabilidad para una discusión de los tipos de probabilidad.)

Para una variable aleatoria finita, la colección de números P(X = x) a medida que varia x se llama la distrubuición de probabilidad de X. Es frecuentemente útil representar gráficamente la distrubución de probabilidades por un histograma.



Distribución de probabilidad empírica or modelada

Para el experimento anterior, l
La distribución Normal suele conocerse como la "campana de Gauss".
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definición de función de distribución

a distribución de probabilidad empírica se muestra por el siguiente histograma.


Los valores de la distribución de probabilidad se cálcula por el número de combinaciones posibles que dan 0, 1, 2, o 3 caras.

Distribución de probabilidad

 

 




La distribucion Normal suele conocerse como la "campana de Gauss".
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definición de función de distribución


Dada una variable aleatoria  X su función de distribución

Fx(x)=P(x<- x)


 
Variancia.

Existen dos aspectos que caracterizan de forma simple el comportamiento de la distribución de probabilidad, porque proporcionan una descripción completa de la forma en que se comporta: la medida de tendencia central y la de dispersión.

La primera está representada por la media o valor esperado, ya vista en el punto anterior, y la segunda por la variancia o por la desviación estándar, que evalúan la dispersión de la distribución de probabilidad o grado en que se separan del promedio los valores de la variable aleatoria X.

Por ejemplo, en un espacio muestral equiprobable vemos que los valores 5, 10 y 15 tienen una media de 10 y que los valores 9.9, 10 y 10.1 la media también es 10. Sin embargo, advertimos que los dos conjuntos de valores difieren notablemente en la dispersión de los valores respecto a su media y que tal dispersión es de gran importancia. Por lo tanto, para tener un conocimiento claro y completo del comportamiento de los valores que puede tomar la variable aleatoria, es indispensable conocer tanto la media como la variancia o la desviación estándar de la distribución de probabilidad.
 

Distribución binomial

En estadística, la distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos.
Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de Bernoulli.
Para representar que una variable aleatoria X sigue una distribución binomial de parámetros n y p, se escribe:
x-B(n,p)

 



martes, 17 de julio de 2012

Unidad III Estadistica descriptiva: Metodos numericos


Métodos numéricos.
Definición:
Parámetro: Medida descriptiva calculada a partir de los datos de la población (Usamos letras griegas para denotarlos m, s, r, etc.).
Estadísticas: Medidas descriptivas calculadas únicamente a partir de los datos muestrales.

Medidas de Posición
Media: Media aritmética del conjunto de observaciones.
Media poblacional: Sea x1,  x 2, ....., xel conjunto de datos poblacionales ( N es el
tamaño de la población) entonces se define la media poblacional como            
                                           

Media muestral: Sea x1,  x 2, ....., xel conjunto de datos muestrales (N es el tamaño de la muestra) entonces se define la media muestral como    

Mediana muestral: La mediana muestral de un conjunto de n observaciones x1,  x 2, ... xn  es el valor de x tal que a lo sumo el 50% de las observaciones es menor que x y a lo sumo el 50% de las observaciones es superior a x. (La mediana poblacional se define de manera similar).
La mediana es menos sensible que la media a observaciones extremas.
Si x (1),  x (2), ....., x (n)   representa el conjunto de observaciones ordenadas de menor a mayor entonces: a) si n es impar, x Md  es la observación central ,x Md = x  (x+1) /2 , b)si n es par,  x Md  es el promedio de las dos observaciones centrales
 x Md =(xn/2 + xn/d+1)/2.
Moda o modo: El modo de un conjunto de n observaciones x 1 ,  x 2 , ....., x n  es el valor de x que ocurre con mayor frecuencia.

Fractiles:
Cuartiles:
Primer cuartil o  cuartil inferior: El valor de x tal que a lo sumo 1/4 de las observaciones son menores que x y a lo sumo 3/4 son mayores que x.(Q1 = x.25(n+1) )
Tercer cuartil o  cuartil superior: El valor de x tal que a lo sumo 3/4 de las observaciones son menores que x y a lo sumo 1/4 son mayores que x.(Q3 = x.75(n+1) )
Percentiles
Si x (1),  x (2), ....., x (n)  representa el conjunto de observaciones ordenadas de menor a mayor del percentil 100p es el valor de x tal que a lo sumo 100p% de las observaciones son menores x y a lo sumo 100(1- p)% de las observaciones son mayores que x.
(xpx = x p(n+1) )
Tanto en percentiles como en los percentiles cuando p(n+1) ( o .25(n+1) o .75(n+1) respectivamente) no es un entero se debe interpolar o promediar las dos observaciones adyacentes.

Medidas de dispersión o variabilidad

Rango: El rango de un conjunto de observaciones x 1 ,  x 2 , ....., xes la diferencia entre la observación máxima y la mínima, rango =  x (n) - x (1)

Varianza poblacional: Sea x 1 ,  x 2 , ....., xel conjunto de datos poblacionales (N es el tamaño de la población) 
                                                                                                                                                                                                       

Varianza muestral: Sea x 1 ,  x 2 , ....., xel conjunto de datos muestrales (n es el tamaño de la muestra)                                                                                                                                                                                                                                         

La raíz cuadrada de la varianza se define como el desvío estándar y está expresada en las mismas unidades que x.



¿QUÉ ES EL ANÁLISIS EXPLORATORIO DE DATOS? 
El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas 
cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones 
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona 
métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el 
diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), 
identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes en 
la mayor parte de las técnicas multivariantes (normalidad, linealidad, homocedasticidad). 
El examen previo de los datos es un paso necesario, que lleva tiempo, y que 
habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho 
examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una 
parte esencial de cualquier análisis estadístico.   
ETAPAS DEL A.E.D. 
Para realizar un A.E.D. conviene seguir las siguientes etapas: 
1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística. 

2) Realizar un examen gráfico de la naturaleza de las variables individuales a 
analizar y un análisis descriptivo numérico que permita cuantificar algunos 
aspectos gráficos de los datos.  
3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un 
análisis descriptivo numérico que cuantifique el grado de interrelación existente 
entre ellas. 
4) Evaluar, si fuera necesario, algunos  supuestos básicos subyacentes a muchas 
técnicas estadísticas como, por ejemplo, la normalidad, linealidad y 
homocedasticidad.  
5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que 
puedan ejercer en análisis estadísticos posteriores.  
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos 
ausentes (missing) sobre la representatividad de los datos analizados.  

Media ponderada

Es una Medida de Central o Medida de Posición Central, que se determina en un conjunto de números al resultado de multiplicar cada uno de los números por un valor particular para cada uno de ellos, llamado su peso, y obteniendo a continuación la media aritmética del conjunto formado por los productos anteriores. Se utiliza la media ponderada cuando no todos los elementos componentes de los que se pretende obtener la media tienen la misma importancia.

Para una serie de datos
X = \{ x_1, x_2, x_3..., x_n \} \,
a la que corresponden los pesos
 W = \{ w_1, w_2, ..., w_n \} \,
la media ponderada se calcula como:

\bar{x} = \frac{ \sum_{i=1}^n x_i w_i }{\sum_{i=1}^n w_i} = \frac{ x_1 w_1  + x_2 w_2  + x_3 w_3 + ... + x_n w_n }{w_1 + w_2 + w_3 + ... + w_n}
Un ejemplo es la obtención de la media ponderada de las notas de en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen, entonces se multiplicaría cada nota por su correspondiente peso y el resultado obtenido se divide entre la suma de los pesos asignados
.





Uinidad II Estadistica descripitiva: Metodos tabulares y graficos


Clasificación de los datos
Clasificación de los datos
Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y geográficos.
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad.
Ejemplo:
Si deseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos que son datos cuantitativos.
Ejemplo:
Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o períodos de tiempo, los datos son reconocidos como cronológicos.
Ejemplo:
Al registrar los promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que son datos geográficos.
Ejemplo
El número de estudiantes de educación superior en las distintas regiones del país.

Diagrama de Tallos y Hojas
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.
©  Un diagrama de tallo y hojas muestra tanto el orden de rangos como la forma de un conjunto de datos.
©  Es similar a un histograma de lado, pero tiene la ventaja de mostrar los valores actuales de los datos.
©  Los primeros dígitos de cada elemento de los datos son acomodados a la izquierda de una línea vertical
©  A la derecha de la línea vertical se registra el ultimo digito por cada elemento (ordenadas en un segundo paso)
©  Cada línea en el diagrama es referida como un tallo
©  Cada digito en un tallo es una hoja
  
Tabulaciones cruzadas y Diagramas de dispersión
Las tabulaciones cruzadas y los diagramas de dispersión son dos de los métodos para resumir,, datos para dos (o más) variables simultáneamente
Tabulaciones cruzadas es un método tabular para resumir los datos para dos variables simultáneamente
Las  tabulaciones cruzadas pueden ser usadas cuando:
Una variable es cualitativa y la otra es cuantitativa
Ambas variables son cuantitativas
Ambas variables son cualitativas
Las etiquetas izquierda y superior  definen las clases para las dos variables
Tabulaciones cruzadas       
El número de casas  Lakes vendidas por cada estilo y precio en los últimos  dos años se muestra bajo
Rango                                  Estilo de casa              
de precio       Colonial    Ranch   Sta fe      Gto         Total
 
  < $99,000           18                        6          19          12           55
  > $99,000           12            14          16            3         45
       Total              30           20          35          15           100 
¨      Profundidad ganada por la tabulación cruzada
¨      El número mayor de casas en la muestra (19) se encuentra en el estilo Santa fe y precio menor o igual a $99,000.
¨      Solo tres casa en la muestra están en el estilo Guanajuato y tienen un precio mayor a $99,000
Tabulación cruzada: porcentajes por filas y columnas
Convertir las entradas en una tabla en porcentajes por filas o por columnas puede proveer información adicional acerca de la relación entre dos variables

Unidad I Los datos y la estadistica


ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA

¿Qué es la Estadística?
Estadística: Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en una toma de decisiones más efectiva. Se presenta en dos formas:
· Información numérica
Ej. Promedio de autos Ford vendidos por mes el año pasado.
· En forma gráfica o en forma de enunciado.
Ej. Comparación de ganancias y pérdidas de aerolíneas aéreas en un determinado periodo.
¿Para qué se estudia la estadística?
· Para entender los gráficos, e información numérica que se presenta en todos lados.
· Las técnicas de estadísticas se utilizan para tomar decisiones que afectan nuestra vida diaria.
· El conocimiento de los métodos estadísticos ayudan a entender porque se toman ciertas decisiones.
Para poder tomar una decisión basada en información:
· Determinar si la información existente es adecuada
· Reunir la información adicional de tal forma que no haya resultados erróneos
· Resumir la información de forma útil e informativa.
· Analizar la información disponible
· Sacar las conclusiones y sacar las deducciones necesarias

Fuentes de datos Estadísticos:
Los datos estadísticos necesarios para la comprensión de los hechos pueden obtenerse a través de fuentes primarias y fuentes secundarias.
Fuentes de datos primarias: es la persona o institución que ha recolectado directamente los datos.
Fuentes secundarias: son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la información.
Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales encargadas de tal fin.
En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo no debemos pasar por alto que la calidad de las conclusiones estadísticas depende en grado sumo de la exactitud de los datos que se recaben. De anda serviría usar técnicas estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o confiables.
Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en último término podrá deberse bien a la inexistencia de los datos o bien a que esto no se encuentra discriminado en la forma requerida.

domingo, 20 de mayo de 2012

TIPOS DE FRECUENCIA


Frecuencia es una medida para indicar el número de repeticiones de cualquier fenómeno o suceso periódico en la unidad de tiempo. Para calcular la frecuencia de un evento, se contabilizan un número de ocurrencias de este teniendo en cuenta un intervalo temporal, luego estas repeticiones se dividen por el tiempo transcurrido.
La Frecuencia Absoluta expresa el número de veces que en total aparece un determinado resultado dentro de una Muestra Estadística o dentro de una Población estudiada. En cambio, la Frecuencia Relativa es el cociente entre la Frecuencia Absoluta de un determinado resultado aparecido y la totalidad de resultados que conforman la Muestra Estadística estudiada. En otras palabras, la Frecuencia Relativa sirve para determinar cuál es el porcentaje de repetición de un determinado resultado frente a la totalidad de resultados que conforman la Muestra analizada. Tanto la Frecuencia Absoluta como la Frecuencia Relativa sirven para resumir y ordenar numéricamente (de menor a mayor) la totalidad de los diversos datos que conforman una Muestra Estadística estudiada, ordenación que se realiza precisamente teniendo en cuenta el valor de la Frecuencia de aparición que le corresponde a cada dato.
§  Frecuencia absoluta (ni) de una variable estadística Xi, es el número de veces que este valor aparece en el estudio. A mayor tamaño de la muestra aumentará el tamaño de la frecuencia absoluta; es decir, la suma total de todas las frecuencias absolutas debe dar el total de la muestra estudiada (N).
§  Frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el tamaño de la muestra (N). Es decir,
Descripción: f_i = \frac{n_i}{N} = \frac{n_i}{\sum_i n_i}
siendo el fi para todo el conjunto i. Se presenta en una tabla o nube de puntos en una distribución de frecuencias (ver fig.1 y (fig.2).
Si multiplicamos la frecuencia relativa por 100 obtendremos el porcentaje o tanto por ciento (pi) que presentan esta característica respecto al total de N, es decir el 100% del conjunto.
§  Frecuencia absoluta acumulada (Ni), es el número de veces ni en la muestra N con un valor igual o menor al de la variable. La última frecuencia absoluta acumulada deberá ser igual a N.
§  Frecuencia relativa acumulada (Fi), es el cociente entre la frecuencia absoluta acumulada y el número total de datos, N. Es decir,
Descripción: F_i = \frac{N_i}{N}
Una gráfica es una representación de datos, generalmente numéricos, mediante líneas, superficies o símbolos, para ver la relación.

Rango

Algo que responde a la identificación de la dispersión de los datos de una muestra es el rango, el cual se define como la diferencia  entre el dato mayor menos el dato menor de un conjunto de datos. Su obtención es sumamente sencilla, sin embargo se considera que no es una medida muy significativa, su aplicación es más útil en la llamada estadística no parámetrica. Una expresión para el rango puede ser vista como:
La EstadÌstica es una ciencia que proporciona un conjunto de mÈtodos que
se utilizan para recolectar, resumir, clasificar, analizar e interpretar el
comportamiento de los ìdatosî con respecto a una caracterÌstica materia de
estudio o investigaciÛn.
La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables
TIPOS DE MEDIDAS ESTADÍSTICAS



   Indican los valores más representativos de un conjunto de datos.
1.     Media aritmética
2.     Mediana
3.     Moda
Se utilizan para medir el grado de dispersión que existe en la distribución.
3.     Desviación media
4.     Varianza
Nos informa del lugar que ocupa un dato dentro de un conjunto ordenado de valores.
1.     Quartiles
2.     Percentiles


  • Se denota por X
  • Se divide la suma de los datos por el número total de ellos.
  • O si los datos vienen en una tabla con sus frecuencias absolutas (fi ( tantos con este valor, otros tantos con otro valor...), se multiplica cada dato   xi  por su frecuencia fi
         x =   ( x1.f1 + x2.f2 + ....+ xn.fn) / N  = ∑ (xi.fi)/N
  • Se representa por Me
  •  Es el valor central de un conjunto de datos
  • Se ordenan los valores en orden creciente y se toma el que ocupa el lugar central (si el número de valores es impar o la media de los dos centrales si es par).
  • Si se trata de la mediana de valores agrupados
  • Se representa por Mo
  • Es el valor que más se repite.
  • Si se repiten la serie es bimodal (2) o multimodal.
Me = l +( (n/2 -F)/f) * i
Ejemplo: Se desea conocer el precio mediano de los libros, el primer intervalo nos indica que se han comprado 3 libros entre 1-500, pts, 13 entre 501 y 1000, y así sucesivamente ...
Precio
Frecuencia (f)
Frec. acumulada (F)
Amplitud intervalo
1-500
3
3
500
501-1000
13
16
''
1001-1500
25
41
''
1501-2000
20
61
''
2001-2500
18
79
''
2501-3000
20
99
''
3001-3500
11
110
''
l - > límite inferior del intervalo que contiene la mediana:
  • Se divide por dos el número total de observaciones: 110/2 = 55
  •  La mediana se encontrará en el intervalo que tenga la frecuencia acumulada más cerca de 55, en este caso 61
  • El límite inferior que corresponde a esa frecuencia es 1501, por tanto  l = 1501
   
n ->  es la frecuencia total
  • En este caso el número total de libros comprados es n= 110
F-> frecuencia acumulativa que corresponde al límite inferior que contiene la mediana.  F= 41
f-> Número de casos del intervalo que contiene la mediana. f= 20
i-> amplitud del intervalo que contiene la mediana. i = 500
Sustituyendo los valores en la fórmula
Me = l +( (n/2 -F)/f) * i  = 1501 + ( (110/2 - 41) / 20 ) * 500
  • Se representa por R
  • Es la diferencia entre el mayor y el menor de los valores.
  • Si aparecen valores extremos deja de ser representativo.
  • Se utiliza cuando aparecen valores extremos en la distribución y también se desea tener en cuenta las frecuencias.
  • Se dividen las frecuencias en cuatro partes iguales separando los valores en quartiles.
  • Se halla la diferencia entre el valor del cuartil tercero (Q3) y el primero (Q1)
  • Se consideran por tanto el recorrido del 50% de los elementos sin tener en cuenta el primer y último tramo (25 % y 25%), descartando por tanto los valores extremos.
  • Ejemplo
  • La desviación de un dato x respecto a la media x es la diferencia entre ambos
  • La desviación media DM  es la media aritmética de los valores absolutos (siempre positivos) de las desviaciones de cada dato respecto a la media.  DM =( f1. |x1-x| + ...+ fn. |xn-x|) / N
Varianza2)
  • Es la media aritmética de los cuadrados de las desviaciones respecto de la media.
                            σ2 =( f1. (x1-x)2 + ...+ fn. (xn-x)2) / N
  • Es la raíz cuadrada positiva de la desviación típica
                    σ=√( ( f1. (x1-x)2 + ...+ fn. (xn-x)2) / N )
  • Es el cociente entre la desviación típica y la media  CV =  σ / x
Este ejemplo se basa en el número de libros leídos por los estudiantes, donde:
  • x -> número de libros leídos.
  • fi -> número de estudiantes que han leído x libros (frecuencia)
  • Fi-> número total de estudiantes (frecuencia acumulada)
xi
fi
Fi
fi * xi
|xi-x|
fi*|xi-x|
fi*(xi-x)2
0
2
2
0
3,22
6,44
20,74
1
3
5
3
2,22
6,66
14,79
2
5
10
10
1,22
6,10
7,44
3
8
18
24
0,22
1,76
0,39
4
8
26
32
0,78
6,24
4,87
5
3
29
15
1,78
5,34
9,51
6
2
31
12
2,78
5,56
15,46
7
1
32
7
3,78
3,78
14,29
SUMA
32

103

41,88
87,49
Media aritmética
         x =   ( x1.f1 + x2.f2 + ....+ xn.fn) / N  = ∑ (xi.fi)/N = 103 / 32 = 3,22 libros leídos.
Moda:
Existen dos modas (el valor que más se repite), Mo = 3 y Mo=4,  ya que en ambos casos hay ocho alumnos (el máximo).
Mediana:
Al ser un número de valores par ( 8 datos en total), se toman los dos centrales y se halla la media Me = (3 + 4)/2= 3,5
Recorrido : R = 7 - 0 = 7
Desviación media:
 DM =( f1. |x1-x| + ...+ fn. |xn-x|) / N = 41,88 / 32 = 1,31 libros
Varianza:
             σ2 =( f1. (x1-x)2 + ...+ fn. (xn-x)2) / N = 87,49 /32 = 2,73 libros2.