jueves, 5 de diciembre de 2013

Examen

1) Un investigador ha obtenido la talla de 20 niños de 5 años de edad, de dos condiciones socioeconómicas contrastantes (alta y baja). Considera que ambos grupos de población tienen estaturas diferentes.
Contestar:
a)      Elección de la prueba estadística.
b)      Planteamiento de la hipótesis (nula y alternativa)
c)      Nivel de significación.
d)      Zona de rechazo.
e)    Aplicación de la prueba estadística.
f)       Decisión
g)    Interpretación

2)

Contestar:
a)      Elección de la prueba estadística.
b)      Planteamiento de la hipótesis (nula y alternativa)
c)      Nivel de significación.
d)      Zona de rechazo.
e)    Aplicación de la prueba estadística.
f)       Decisión
g)    Interpretación



viernes, 22 de noviembre de 2013

Prueba T

Entendiendo los conceptos:
2 casos: muestras dependientes (grupos relacionados o emparejados) y muestras independientes (con varianzas iguales o diferentes).

http://www.slideshare.net/jab2801/t-de-student-para-dos-muestras-independientes-9249928
http://www.slideshare.net/niko54-sagitario/prueba-t-de-student-para-datos-relacionados

Realizar el estudio estadístico T en Excel


Ejemplos
Datos emparejados o dependientes:
http://reyesestadistica.blogspot.mx/2011/07/prueba-de-hipotesis-para-datos.html
http://www.uam.es/personal_pdi/ciencias/cifus/bioestadistica/ejer44excel.pdf

Datos independientes (con varianzas iguales o diferentes):
Con este artículo vamos a analizar un caso muy frecuente, como es la comparación de medias entre dos muestras independientes. Se considera que dos muestras son independientes cuando no hay una conexión entre la medición de una variable con la medición de la otra.
Para ilustrar este caso, planteamos el siguiente ejemplo (archivo de referencia: datos_ejemplo_inferencia.xls):
Las universidades A y B se preguntan si el nivel formativo en estadística de una y otra universidad es diferente. Para tratar de dar respuesta a esta pregunta, someten a 75 alumnos de cada universidad elegidos al azar a un mismo examen. Las calificaciones de los alumnos de cada universidad pueden verse en las columnas A y B respectivamente de este archivo (enlace).
Supuestos del modelo t de Student para dos muestras independientes.
Nivel de medida de las variables: métricas, es decir, intervalo o razón.
Distribución: normal o aproximadamente normal.
Tipo de diseño: equilibrado o no equilibrado.
Varianzas poblacionales: desconocidas, supuestamente iguales o sin supuesto de igualdad.
Observaciones: aleatorias e independientes.
Hipótesis que se somete a prueba: la diferencia entre las dos medias toma un determinado valor, generalmente cero.
Prueba t para dos muestras suponiendo varianzas iguales
Variable 1
Variable 2
Media
32,76
31,2133333
Varianza
85,6713514
73,2781982
Observaciones
75
75
Varianza agrupada
79,4747748
Diferencia hipotética de las medias
0
Grados de libertad
148
Estadístico t
1,06242359
P(T<=t) una cola
0,14488697
Valor crítico de t (una cola)
1,65521451
P(T<=t) dos colas
0,28977394
Valor crítico de t (dos colas)
1,97612246
________________________________________________
EJERCICIOS PARA LA PRUEBA  t  DE STUDENT
1. Diferencia entre dos medias de poblaciones dependientes
 Un fabricante deseaba comparar la resistencia al desgaste de dos tipos distintos de neumáticos A y B. Para hacer la comparación, se asignó al azar un neumático del tipo A y uno del tipo B a las ruedas posteriores de 20 automóviles.
Los coches recorrieron un número específico de kilómetros y se observó el desgaste de cada neumático.
Automóvil
1
2
3
4
5
6
7
8
9
10
Neumático A
10.6
9.8
12.3
9.7
8.8
10
9.9
9
12.1
8.9
Neumático B
10.2
9.4
11.8
9.1
8.3
10.1
9.2
11.2
11
8.2
Automóvil
11
12
13
14
15
16
17
18
19
20
Neumático A
10.1
11
11.8
9.9
12.2
12.3
10.5
8.8
8.6
9.2
Neumático B
10.1
10
10.3
10.4
11.1
11.3
9.3
8.5
10.3
11
¿ Presentan los datos suficiente evidencia para concluir que hay diferencia en el desgaste promedio de los dos tipos de neumáticos?


2.- Se desea determinar si los promedios de puntos de calificación (PPC) son diferentes para niños y niñas. Se considera que el PPC se distribuye normalmente con varianza idéntica para ambos sexos. Dos muestras independientes de 5 estudiantes cada una proporcionan lo siguiente:
        PPC para niños: 2.9   3.1   2.7   3.3   3.0
        PPC para niñas: 3.6   2.8   3.6   3.2   2.8
a)      Utilizando α = 0.05, pruébese la hipótesis de que el PPC medio para niños es el mismo que el PPC medio para niñas, contra la hipótesis alternativa de que las dos medias son diferentes.
b)      Obténganse los límites de confianza del 95% para la verdadera diferencia entre las dos medias poblacionales.
3.- Se desea determinar si una clase de 16 estudiantes pueden desempeñarse igualmente bien en español que en matemáticas . Las calificaciones de prueba listadas a continuación no son independientes:
  
            Estudiante            Español            Matemáticas
           _________________________________________
                A                          84                       84
                B                          55                       57
                C                          85                       90
                D                          98                       97
                E                           80                      74
                F                           55                      53
               G                           80                      75
               H                           64                      63
               I                             91                      90
               J                            85                       82
               K                          90                        88
               L                           94                        98
               M                          75                        77
               N                          86                         90
               O                          91                         85
               P                           92                         86

a)      Considerando que las calificaciones de prueba se distribuyen normalmente, pruébese la hipótesis de que la puntuación media de la población en español es la misma que en matemáticas contra la hipótesis alternativa de que son diferentes para α = 0.05.

b)      Establézcase el intervalo de confianza del 95 % para la verdadera diferencia.

Tarea Análisis de Varianza


martes, 19 de noviembre de 2013

Análisis de Varianza ANOVA

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos:
En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad a. Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores de a próximos a 0 es aproximadamente igual a a m. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m, aunque resulta un método muy conservador.
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.

Analizar la siguiente presentación para entender los conceptos de ANOVA
http://www.slideshare.net/estadistica_a/anlisis-de-varianza

En Excel
http://www.uam.es/personal_pdi/ciencias/abaillo/AmbEst/notas_anova1_excel.pdf

Ejercicios
http://www.hrc.es/bioest/Anova_4.html
http://dta.utalca.cl/estadistica/ejercicios/interpretar/Metodos/resuelto%20anova.pdf
http://web.uam.es/personal_pdi/ciencias/cifus/biologia/metodos/ME-ejemplos.pdf

Lectura de una aplicación
http://catarina.udlap.mx/u_dl_a/tales/documentos/lii/munoz_l_jj/capitulo5.pdf

domingo, 13 de octubre de 2013

Distribución Normal (ejercicios)


Estándar

DISTR.NORM.ESTAND(z) devuelve la probabilidad que el valor observado de una variable aleatoria normal estándar sea igual o menor que z. Una variable aleatoria normal estándar tiene una media 0 y una desviación estándar 1 (y también una varianza 1 porque varianza = desviación estándar al cuadrado).

Sintaxis
NORMSDIST(z)

donde z es un valor numérico.
Ejemplo de uso
Cree una hoja de cálculo de Excel en blanco, copie la tabla siguiente, seleccione la celda A1 de la hoja de cálculo de Excel en blanco y pegue las entradas de forma que la tabla siguiente rellene las celdas A1:D11 de la hoja de cálculo.

z
DISTR.NORM.ESTAND(z)
0
=DISTR.NORM.ESTAND(A3)
0.2
=DISTR.NORM.ESTAND(A4)
=1 -B4
-0.2
=DISTR.NORM.ESTAND(A5)
-1
=DISTR.NORM.ESTAND(A6)
1,58655E-01
-2
=DISTR.NORM.ESTAND(A7)
2,27501E-02
-3
=DISTR.NORM.ESTAND(A8)
1,34990E-03
-4
=DISTR.NORM.ESTAND(A9)
3,16712E-05
-5
=DISTR.NORM.ESTAND(A10)
2,86652E-07
-7
=DISTR.NORM.ESTAND(A11)
1,27981E-12
Para cualquier media y una desviación estándar mayor que 0

Sintaxis
DISTR.NORM(x, mu, sigma, acumulado)

Los parámetros x, mu y sigma de DISTR.NORM son valores numéricos, mientras que el parámetro acumulado es un valor lógico FALSE o TRUE. Sigma debe ser mayor que 0, pero no hay ningún requisito similar para x o mu.

En DISTR.NORM, cuando el último argumento se establece en TRUE, DISTR.NORM devuelve la probabilidad acumulativa de que el valor observado de una variable aleatoria Normal con una media mu y una desviación estándar sigma sea menor o igual que x. Si acumulado se establece en FALSE (o en 0, que se interpreta como FALSE), DISTR.NORM devuelve el alto de la curva de densidad de probabilidad en forma de campana.
Ejemplo de uso

x
mu
sigma
(x - mu)/sigma
DISTR.NORM(x,mu,sigma,TRUE)
DISTR.NORM.ESTAND((x - mu)/sigma)
100
100
15
=(A3-B3)/C3
=DISTR.NORM(A3,B3,C3,TRUE)
=DISTR.NORM.ESTAND(D3)
90
100
15
=(A4-B4)/C4
=DISTR.NORM(A4,B4,C4,TRUE)
=DISTR.NORM.ESTAND(D4)
70
100
15
=(A5-B5)/C5
=DISTR.NORM(A5,B5,C5,TRUE)
=DISTR.NORM.ESTAND(D5)
130
100
15
=(A6-B6)/C6
=DISTR.NORM(A6,B6,C6,TRUE)
=DISTR.NORM.ESTAND(D6)
La distribución normal es una distribución de probabilidad continua cuya forma está determinada por su media, mu, y su desviación estándar, sigma. 

Puesto que

DISTR.NORM(70,100,15,TRUE) + DISTR.NORM(130,100,15,TRUE) = 1
por lo tanto

DISTR.NORM(70,100,15,TRUE) = 1 -DISTR.NORM(130,100,15,TRUE)

Ejercicios Distribución Normal en Excel

1.   En una distribución normal de media 4 y desviación típica 2, calcular el valor de a para que: P(4−a ≤ x ≤ 4+a) = 0.5934

2.   En una ciudad se estima que la temperatura máxima en el mes de junio sigue una distribución normal, con media 23° y desviación típica 5°. Calcular el número de días del mes en los que se espera alcanzar máximas entre 21° y 27°

3.   Tras un test de cultura general se observa que las puntuaciones obtenidas siguen una distribución una distribución N(65, 18). Se desea clasificar a los examinados en tres grupos (de baja cultura general, de cultura general aceptable, de excelente cultura general) de modo que hay en el primero un 20% la población, un 65% el segundo y un 15% en el tercero. ¿Cuáles han de ser las puntuaciones que marcan el paso de un grupo al otro?

4.   Varios test de inteligencia dieron una puntuación que sigue una ley normal con media 100 y desviación típica 15

1Determinar el porcentaje de población que obtendría un coeficiente entre 95 y 110

2¿Qué intervalo centrado en 100 contiene al 50% de la población?

3En una población de 2500 individuos ¿cuántos individuos se esperan que tengan un coeficiente superior a 125?

5.   En una ciudad una de cada tres familias posee teléfono. Si se eligen al azar 90 familias, calcular la probabilidad de que entre ellas haya por lo menos 30 tengan teléfono


6.   Un estudio ha mostrado que, en un cierto barrio, el 60% de los hogares tienen al menos dos televisores Se elige al azar una muestra de 50 hogares en el citado barrio. Se pide:

1¿Cuál es la probabilidad de que al menos 20 de los citados hogares tengan cuando menos dos televisores?

2¿Cuál es la probabilidad de que entre 35 y 40 hogares tengan cuando menos dos televisores?