viernes, 10 de agosto de 2012


Distribución Hipergeométrica (N,R,n)



La distribución hipergeométrica suele aparecer en procesos muestrales sin remplazo, en los que se investiga la presencia o ausencia de cierta característica. Piénsese, por ejemplo, en un procedimiento de control de calidad en una empresa farmacéutica, durante el cual se extraen muestras de las cápsulas fabricadas y se someten a análisis para determinar su composición. Durante las pruebas, las cápsulas son destruidas y no pueden ser devueltas al lote del que provienen. En esta situación, la variable que cuenta el número de cápsulas que no cumplen los criterios de calidad establecidos sigue una distribución hipergeométrica. Por tanto, esta distribución es la equivalente a la binomial, pero cuando el muestreo se hace sin remplazo. Esta distribución se puede ilustrar del modo siguiente: se tiene una población finita con N

(Diabetes, obesidad, hábito de fumar, etc.). El número de “éxitos” en una muestra aleatoria de tamaño n, extraída sin remplazo de la población, es una variable aleatoria con

Distribución hipergeométrica de parámetros N, R y n.

Cuando el tamaño de la población es grande, los muestreos con y sin remplazo son

Equivalentes, por lo que la distribución hipergeométrica se aproxima en tal caso a la

Binomial.



Valores:

x: max{0,n-(N-R)}, ..., min{R,n}, donde max{0,n-(N-R)} indica el valor máximo entre 0 y n-

(N-R) y min{R,n} indica el valor mínimo entre R y n.

Parámetros:

N: tamaño de la población, N>0 entero

R: número de éxitos en la población, R³0 entero

n: número de pruebas, n>0 entero

martes, 7 de agosto de 2012


 

Variable aleatoria


Una Variable aleatoria X es una regla que asigna un valor numérico a cada resultado en el espacio mestrual de un experimento.

Una variable aleatoria discreta puede tomar en específico, aislado valor numérico, como resultado de lanzar un dado, o el número de dólares en una cuenta bancaria escogido de forma aleatoria.

Una variable aleatoria continua puede tomar cualquier valor dentro de un continuo intervalo de tiempo, como la temperatura en el Parque Central, o la altura de un atleta en centímetros.

Variable aleatoria discreta que sólo puede asumir finitamente muchos valores (como el resultado de lanzar un dado) se llama variables aleatorias finitas.

Distribución de probabilidad

La probabilidad P(X = x) es la probabilidad de que X realiza el valor x. Del mismo modo, la probabilidad P(a < X < b) es la probabilidad de que X se encuentre entre a y b.

Estas probabilidades pueden ser estimadas, o teoréticas (modeladas) (véa el capítulo 7 de Matematicas Finitas o el resumen de probabilidad para una discusión de los tipos de probabilidad.)

Para una variable aleatoria finita, la colección de números P(X = x) a medida que varia x se llama la distrubuición de probabilidad de X. Es frecuentemente útil representar gráficamente la distrubución de probabilidades por un histograma.



Distribución de probabilidad empírica or modelada

Para el experimento anterior, l
La distribución Normal suele conocerse como la "campana de Gauss".
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definición de función de distribución

a distribución de probabilidad empírica se muestra por el siguiente histograma.


Los valores de la distribución de probabilidad se cálcula por el número de combinaciones posibles que dan 0, 1, 2, o 3 caras.

Distribución de probabilidad

 

 




La distribucion Normal suele conocerse como la "campana de Gauss".
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definición de función de distribución


Dada una variable aleatoria  X su función de distribución

Fx(x)=P(x<- x)


 
Variancia.

Existen dos aspectos que caracterizan de forma simple el comportamiento de la distribución de probabilidad, porque proporcionan una descripción completa de la forma en que se comporta: la medida de tendencia central y la de dispersión.

La primera está representada por la media o valor esperado, ya vista en el punto anterior, y la segunda por la variancia o por la desviación estándar, que evalúan la dispersión de la distribución de probabilidad o grado en que se separan del promedio los valores de la variable aleatoria X.

Por ejemplo, en un espacio muestral equiprobable vemos que los valores 5, 10 y 15 tienen una media de 10 y que los valores 9.9, 10 y 10.1 la media también es 10. Sin embargo, advertimos que los dos conjuntos de valores difieren notablemente en la dispersión de los valores respecto a su media y que tal dispersión es de gran importancia. Por lo tanto, para tener un conocimiento claro y completo del comportamiento de los valores que puede tomar la variable aleatoria, es indispensable conocer tanto la media como la variancia o la desviación estándar de la distribución de probabilidad.
 

Distribución binomial

En estadística, la distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos.
Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de Bernoulli.
Para representar que una variable aleatoria X sigue una distribución binomial de parámetros n y p, se escribe:
x-B(n,p)

 



martes, 17 de julio de 2012

Unidad III Estadistica descriptiva: Metodos numericos


Métodos numéricos.
Definición:
Parámetro: Medida descriptiva calculada a partir de los datos de la población (Usamos letras griegas para denotarlos m, s, r, etc.).
Estadísticas: Medidas descriptivas calculadas únicamente a partir de los datos muestrales.

Medidas de Posición
Media: Media aritmética del conjunto de observaciones.
Media poblacional: Sea x1,  x 2, ....., xel conjunto de datos poblacionales ( N es el
tamaño de la población) entonces se define la media poblacional como            
                                           

Media muestral: Sea x1,  x 2, ....., xel conjunto de datos muestrales (N es el tamaño de la muestra) entonces se define la media muestral como    

Mediana muestral: La mediana muestral de un conjunto de n observaciones x1,  x 2, ... xn  es el valor de x tal que a lo sumo el 50% de las observaciones es menor que x y a lo sumo el 50% de las observaciones es superior a x. (La mediana poblacional se define de manera similar).
La mediana es menos sensible que la media a observaciones extremas.
Si x (1),  x (2), ....., x (n)   representa el conjunto de observaciones ordenadas de menor a mayor entonces: a) si n es impar, x Md  es la observación central ,x Md = x  (x+1) /2 , b)si n es par,  x Md  es el promedio de las dos observaciones centrales
 x Md =(xn/2 + xn/d+1)/2.
Moda o modo: El modo de un conjunto de n observaciones x 1 ,  x 2 , ....., x n  es el valor de x que ocurre con mayor frecuencia.

Fractiles:
Cuartiles:
Primer cuartil o  cuartil inferior: El valor de x tal que a lo sumo 1/4 de las observaciones son menores que x y a lo sumo 3/4 son mayores que x.(Q1 = x.25(n+1) )
Tercer cuartil o  cuartil superior: El valor de x tal que a lo sumo 3/4 de las observaciones son menores que x y a lo sumo 1/4 son mayores que x.(Q3 = x.75(n+1) )
Percentiles
Si x (1),  x (2), ....., x (n)  representa el conjunto de observaciones ordenadas de menor a mayor del percentil 100p es el valor de x tal que a lo sumo 100p% de las observaciones son menores x y a lo sumo 100(1- p)% de las observaciones son mayores que x.
(xpx = x p(n+1) )
Tanto en percentiles como en los percentiles cuando p(n+1) ( o .25(n+1) o .75(n+1) respectivamente) no es un entero se debe interpolar o promediar las dos observaciones adyacentes.

Medidas de dispersión o variabilidad

Rango: El rango de un conjunto de observaciones x 1 ,  x 2 , ....., xes la diferencia entre la observación máxima y la mínima, rango =  x (n) - x (1)

Varianza poblacional: Sea x 1 ,  x 2 , ....., xel conjunto de datos poblacionales (N es el tamaño de la población) 
                                                                                                                                                                                                       

Varianza muestral: Sea x 1 ,  x 2 , ....., xel conjunto de datos muestrales (n es el tamaño de la muestra)                                                                                                                                                                                                                                         

La raíz cuadrada de la varianza se define como el desvío estándar y está expresada en las mismas unidades que x.



¿QUÉ ES EL ANÁLISIS EXPLORATORIO DE DATOS? 
El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas 
cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones 
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona 
métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el 
diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), 
identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes en 
la mayor parte de las técnicas multivariantes (normalidad, linealidad, homocedasticidad). 
El examen previo de los datos es un paso necesario, que lleva tiempo, y que 
habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho 
examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una 
parte esencial de cualquier análisis estadístico.   
ETAPAS DEL A.E.D. 
Para realizar un A.E.D. conviene seguir las siguientes etapas: 
1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística. 

2) Realizar un examen gráfico de la naturaleza de las variables individuales a 
analizar y un análisis descriptivo numérico que permita cuantificar algunos 
aspectos gráficos de los datos.  
3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un 
análisis descriptivo numérico que cuantifique el grado de interrelación existente 
entre ellas. 
4) Evaluar, si fuera necesario, algunos  supuestos básicos subyacentes a muchas 
técnicas estadísticas como, por ejemplo, la normalidad, linealidad y 
homocedasticidad.  
5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que 
puedan ejercer en análisis estadísticos posteriores.  
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos 
ausentes (missing) sobre la representatividad de los datos analizados.  

Media ponderada

Es una Medida de Central o Medida de Posición Central, que se determina en un conjunto de números al resultado de multiplicar cada uno de los números por un valor particular para cada uno de ellos, llamado su peso, y obteniendo a continuación la media aritmética del conjunto formado por los productos anteriores. Se utiliza la media ponderada cuando no todos los elementos componentes de los que se pretende obtener la media tienen la misma importancia.

Para una serie de datos
X = \{ x_1, x_2, x_3..., x_n \} \,
a la que corresponden los pesos
 W = \{ w_1, w_2, ..., w_n \} \,
la media ponderada se calcula como:

\bar{x} = \frac{ \sum_{i=1}^n x_i w_i }{\sum_{i=1}^n w_i} = \frac{ x_1 w_1  + x_2 w_2  + x_3 w_3 + ... + x_n w_n }{w_1 + w_2 + w_3 + ... + w_n}
Un ejemplo es la obtención de la media ponderada de las notas de en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen, entonces se multiplicaría cada nota por su correspondiente peso y el resultado obtenido se divide entre la suma de los pesos asignados
.





Uinidad II Estadistica descripitiva: Metodos tabulares y graficos


Clasificación de los datos
Clasificación de los datos
Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y geográficos.
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad.
Ejemplo:
Si deseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos que son datos cuantitativos.
Ejemplo:
Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o períodos de tiempo, los datos son reconocidos como cronológicos.
Ejemplo:
Al registrar los promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que son datos geográficos.
Ejemplo
El número de estudiantes de educación superior en las distintas regiones del país.

Diagrama de Tallos y Hojas
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.
©  Un diagrama de tallo y hojas muestra tanto el orden de rangos como la forma de un conjunto de datos.
©  Es similar a un histograma de lado, pero tiene la ventaja de mostrar los valores actuales de los datos.
©  Los primeros dígitos de cada elemento de los datos son acomodados a la izquierda de una línea vertical
©  A la derecha de la línea vertical se registra el ultimo digito por cada elemento (ordenadas en un segundo paso)
©  Cada línea en el diagrama es referida como un tallo
©  Cada digito en un tallo es una hoja
  
Tabulaciones cruzadas y Diagramas de dispersión
Las tabulaciones cruzadas y los diagramas de dispersión son dos de los métodos para resumir,, datos para dos (o más) variables simultáneamente
Tabulaciones cruzadas es un método tabular para resumir los datos para dos variables simultáneamente
Las  tabulaciones cruzadas pueden ser usadas cuando:
Una variable es cualitativa y la otra es cuantitativa
Ambas variables son cuantitativas
Ambas variables son cualitativas
Las etiquetas izquierda y superior  definen las clases para las dos variables
Tabulaciones cruzadas       
El número de casas  Lakes vendidas por cada estilo y precio en los últimos  dos años se muestra bajo
Rango                                  Estilo de casa              
de precio       Colonial    Ranch   Sta fe      Gto         Total
 
  < $99,000           18                        6          19          12           55
  > $99,000           12            14          16            3         45
       Total              30           20          35          15           100 
¨      Profundidad ganada por la tabulación cruzada
¨      El número mayor de casas en la muestra (19) se encuentra en el estilo Santa fe y precio menor o igual a $99,000.
¨      Solo tres casa en la muestra están en el estilo Guanajuato y tienen un precio mayor a $99,000
Tabulación cruzada: porcentajes por filas y columnas
Convertir las entradas en una tabla en porcentajes por filas o por columnas puede proveer información adicional acerca de la relación entre dos variables

Unidad I Los datos y la estadistica


ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA

¿Qué es la Estadística?
Estadística: Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en una toma de decisiones más efectiva. Se presenta en dos formas:
· Información numérica
Ej. Promedio de autos Ford vendidos por mes el año pasado.
· En forma gráfica o en forma de enunciado.
Ej. Comparación de ganancias y pérdidas de aerolíneas aéreas en un determinado periodo.
¿Para qué se estudia la estadística?
· Para entender los gráficos, e información numérica que se presenta en todos lados.
· Las técnicas de estadísticas se utilizan para tomar decisiones que afectan nuestra vida diaria.
· El conocimiento de los métodos estadísticos ayudan a entender porque se toman ciertas decisiones.
Para poder tomar una decisión basada en información:
· Determinar si la información existente es adecuada
· Reunir la información adicional de tal forma que no haya resultados erróneos
· Resumir la información de forma útil e informativa.
· Analizar la información disponible
· Sacar las conclusiones y sacar las deducciones necesarias

Fuentes de datos Estadísticos:
Los datos estadísticos necesarios para la comprensión de los hechos pueden obtenerse a través de fuentes primarias y fuentes secundarias.
Fuentes de datos primarias: es la persona o institución que ha recolectado directamente los datos.
Fuentes secundarias: son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la información.
Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales encargadas de tal fin.
En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo no debemos pasar por alto que la calidad de las conclusiones estadísticas depende en grado sumo de la exactitud de los datos que se recaben. De anda serviría usar técnicas estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o confiables.
Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en último término podrá deberse bien a la inexistencia de los datos o bien a que esto no se encuentra discriminado en la forma requerida.