martes, 17 de julio de 2012

Unidad III Estadistica descriptiva: Metodos numericos


Métodos numéricos.
Definición:
Parámetro: Medida descriptiva calculada a partir de los datos de la población (Usamos letras griegas para denotarlos m, s, r, etc.).
Estadísticas: Medidas descriptivas calculadas únicamente a partir de los datos muestrales.

Medidas de Posición
Media: Media aritmética del conjunto de observaciones.
Media poblacional: Sea x1,  x 2, ....., xel conjunto de datos poblacionales ( N es el
tamaño de la población) entonces se define la media poblacional como            
                                           

Media muestral: Sea x1,  x 2, ....., xel conjunto de datos muestrales (N es el tamaño de la muestra) entonces se define la media muestral como    

Mediana muestral: La mediana muestral de un conjunto de n observaciones x1,  x 2, ... xn  es el valor de x tal que a lo sumo el 50% de las observaciones es menor que x y a lo sumo el 50% de las observaciones es superior a x. (La mediana poblacional se define de manera similar).
La mediana es menos sensible que la media a observaciones extremas.
Si x (1),  x (2), ....., x (n)   representa el conjunto de observaciones ordenadas de menor a mayor entonces: a) si n es impar, x Md  es la observación central ,x Md = x  (x+1) /2 , b)si n es par,  x Md  es el promedio de las dos observaciones centrales
 x Md =(xn/2 + xn/d+1)/2.
Moda o modo: El modo de un conjunto de n observaciones x 1 ,  x 2 , ....., x n  es el valor de x que ocurre con mayor frecuencia.

Fractiles:
Cuartiles:
Primer cuartil o  cuartil inferior: El valor de x tal que a lo sumo 1/4 de las observaciones son menores que x y a lo sumo 3/4 son mayores que x.(Q1 = x.25(n+1) )
Tercer cuartil o  cuartil superior: El valor de x tal que a lo sumo 3/4 de las observaciones son menores que x y a lo sumo 1/4 son mayores que x.(Q3 = x.75(n+1) )
Percentiles
Si x (1),  x (2), ....., x (n)  representa el conjunto de observaciones ordenadas de menor a mayor del percentil 100p es el valor de x tal que a lo sumo 100p% de las observaciones son menores x y a lo sumo 100(1- p)% de las observaciones son mayores que x.
(xpx = x p(n+1) )
Tanto en percentiles como en los percentiles cuando p(n+1) ( o .25(n+1) o .75(n+1) respectivamente) no es un entero se debe interpolar o promediar las dos observaciones adyacentes.

Medidas de dispersión o variabilidad

Rango: El rango de un conjunto de observaciones x 1 ,  x 2 , ....., xes la diferencia entre la observación máxima y la mínima, rango =  x (n) - x (1)

Varianza poblacional: Sea x 1 ,  x 2 , ....., xel conjunto de datos poblacionales (N es el tamaño de la población) 
                                                                                                                                                                                                       

Varianza muestral: Sea x 1 ,  x 2 , ....., xel conjunto de datos muestrales (n es el tamaño de la muestra)                                                                                                                                                                                                                                         

La raíz cuadrada de la varianza se define como el desvío estándar y está expresada en las mismas unidades que x.



¿QUÉ ES EL ANÁLISIS EXPLORATORIO DE DATOS? 
El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas 
cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones 
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona 
métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el 
diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), 
identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes en 
la mayor parte de las técnicas multivariantes (normalidad, linealidad, homocedasticidad). 
El examen previo de los datos es un paso necesario, que lleva tiempo, y que 
habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho 
examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una 
parte esencial de cualquier análisis estadístico.   
ETAPAS DEL A.E.D. 
Para realizar un A.E.D. conviene seguir las siguientes etapas: 
1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística. 

2) Realizar un examen gráfico de la naturaleza de las variables individuales a 
analizar y un análisis descriptivo numérico que permita cuantificar algunos 
aspectos gráficos de los datos.  
3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un 
análisis descriptivo numérico que cuantifique el grado de interrelación existente 
entre ellas. 
4) Evaluar, si fuera necesario, algunos  supuestos básicos subyacentes a muchas 
técnicas estadísticas como, por ejemplo, la normalidad, linealidad y 
homocedasticidad.  
5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que 
puedan ejercer en análisis estadísticos posteriores.  
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos 
ausentes (missing) sobre la representatividad de los datos analizados.  

Media ponderada

Es una Medida de Central o Medida de Posición Central, que se determina en un conjunto de números al resultado de multiplicar cada uno de los números por un valor particular para cada uno de ellos, llamado su peso, y obteniendo a continuación la media aritmética del conjunto formado por los productos anteriores. Se utiliza la media ponderada cuando no todos los elementos componentes de los que se pretende obtener la media tienen la misma importancia.

Para una serie de datos
X = \{ x_1, x_2, x_3..., x_n \} \,
a la que corresponden los pesos
 W = \{ w_1, w_2, ..., w_n \} \,
la media ponderada se calcula como:

\bar{x} = \frac{ \sum_{i=1}^n x_i w_i }{\sum_{i=1}^n w_i} = \frac{ x_1 w_1  + x_2 w_2  + x_3 w_3 + ... + x_n w_n }{w_1 + w_2 + w_3 + ... + w_n}
Un ejemplo es la obtención de la media ponderada de las notas de en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen, entonces se multiplicaría cada nota por su correspondiente peso y el resultado obtenido se divide entre la suma de los pesos asignados
.





Uinidad II Estadistica descripitiva: Metodos tabulares y graficos


Clasificación de los datos
Clasificación de los datos
Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y geográficos.
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad.
Ejemplo:
Si deseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos que son datos cuantitativos.
Ejemplo:
Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o períodos de tiempo, los datos son reconocidos como cronológicos.
Ejemplo:
Al registrar los promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que son datos geográficos.
Ejemplo
El número de estudiantes de educación superior en las distintas regiones del país.

Diagrama de Tallos y Hojas
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.
©  Un diagrama de tallo y hojas muestra tanto el orden de rangos como la forma de un conjunto de datos.
©  Es similar a un histograma de lado, pero tiene la ventaja de mostrar los valores actuales de los datos.
©  Los primeros dígitos de cada elemento de los datos son acomodados a la izquierda de una línea vertical
©  A la derecha de la línea vertical se registra el ultimo digito por cada elemento (ordenadas en un segundo paso)
©  Cada línea en el diagrama es referida como un tallo
©  Cada digito en un tallo es una hoja
  
Tabulaciones cruzadas y Diagramas de dispersión
Las tabulaciones cruzadas y los diagramas de dispersión son dos de los métodos para resumir,, datos para dos (o más) variables simultáneamente
Tabulaciones cruzadas es un método tabular para resumir los datos para dos variables simultáneamente
Las  tabulaciones cruzadas pueden ser usadas cuando:
Una variable es cualitativa y la otra es cuantitativa
Ambas variables son cuantitativas
Ambas variables son cualitativas
Las etiquetas izquierda y superior  definen las clases para las dos variables
Tabulaciones cruzadas       
El número de casas  Lakes vendidas por cada estilo y precio en los últimos  dos años se muestra bajo
Rango                                  Estilo de casa              
de precio       Colonial    Ranch   Sta fe      Gto         Total
 
  < $99,000           18                        6          19          12           55
  > $99,000           12            14          16            3         45
       Total              30           20          35          15           100 
¨      Profundidad ganada por la tabulación cruzada
¨      El número mayor de casas en la muestra (19) se encuentra en el estilo Santa fe y precio menor o igual a $99,000.
¨      Solo tres casa en la muestra están en el estilo Guanajuato y tienen un precio mayor a $99,000
Tabulación cruzada: porcentajes por filas y columnas
Convertir las entradas en una tabla en porcentajes por filas o por columnas puede proveer información adicional acerca de la relación entre dos variables

Unidad I Los datos y la estadistica


ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA

¿Qué es la Estadística?
Estadística: Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en una toma de decisiones más efectiva. Se presenta en dos formas:
· Información numérica
Ej. Promedio de autos Ford vendidos por mes el año pasado.
· En forma gráfica o en forma de enunciado.
Ej. Comparación de ganancias y pérdidas de aerolíneas aéreas en un determinado periodo.
¿Para qué se estudia la estadística?
· Para entender los gráficos, e información numérica que se presenta en todos lados.
· Las técnicas de estadísticas se utilizan para tomar decisiones que afectan nuestra vida diaria.
· El conocimiento de los métodos estadísticos ayudan a entender porque se toman ciertas decisiones.
Para poder tomar una decisión basada en información:
· Determinar si la información existente es adecuada
· Reunir la información adicional de tal forma que no haya resultados erróneos
· Resumir la información de forma útil e informativa.
· Analizar la información disponible
· Sacar las conclusiones y sacar las deducciones necesarias

Fuentes de datos Estadísticos:
Los datos estadísticos necesarios para la comprensión de los hechos pueden obtenerse a través de fuentes primarias y fuentes secundarias.
Fuentes de datos primarias: es la persona o institución que ha recolectado directamente los datos.
Fuentes secundarias: son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la información.
Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales encargadas de tal fin.
En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo no debemos pasar por alto que la calidad de las conclusiones estadísticas depende en grado sumo de la exactitud de los datos que se recaben. De anda serviría usar técnicas estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o confiables.
Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en último término podrá deberse bien a la inexistencia de los datos o bien a que esto no se encuentra discriminado en la forma requerida.