jueves, 22 de mayo de 2008
sábado, 10 de mayo de 2008
DIAGRAMA DE CAJAS (BOX PLOT)
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.Como dibujarlo [editar]Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.Calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).Utilidades [editar]Proporcionan una visión general de la simetría de la distribución de los datos, si la media no está en el centro del rectángulo, la distribución no es simétrica.Son útiles para ver la presente.Diagrama de Caja y BigotesLos diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.Para su relización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.Construcción:Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmentoque tiene como extremos los valores mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmenteEjemplo distribución de edadesUtilizamos la ya usada distribución de frecuencias, que representan la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 3139 24 29 23 41 40 33 24 34 40Ordenar los datosPara calcular los parámetros estadístico, lo primero es ordenar la distribución 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45Calculo de CuartilesQ1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:Q1=(24 + 25) / 2 = 24,5Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente:me= Q2 = (33 + 34)/ 2 =33,5Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resultaQ2=(39 + 39) / 2 = 39Dibujar la Caja y los BigotesEl bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)La primera parte de la caja a (Q1, Q2),La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx).Información del diagramaPodemos obtener abundante información de una distribución a partir de estas representaciones. Veamos alguna:La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores.El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años.Seguro que tú podrás obtener más información (¡Utiliza la mediana!)Comparar distribucionesLa mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de datos.Comparación distribución de edadesComparación entrenamientos de un corredorComparación clasificación liga COMENTARIO.son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.Para su relización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.En el cual de denota el dato que se desea saber del fenomeno.
AREA BAJO LA CURVA.
En el estudio de la regularidad estadística con variables categóricas con más de dos variables o bien con variables numéricas con muchos valores (y se establecen clases o intervalos), la suma de las frecuencias relativas o proporciones siempre es uno (el 100%). Si arbitrariamente unimos varias categorías en una nueva clase, la frecuencia relativa o proporción para ella es la suma de las proporciones de las clases originales que se sumaron. Por ejemplo para las cuatro categorías de evolución de niños con neurodermatitis, se puede considerar la unión de las dos mejorías, y llamarla "alguna mejoría", entonces la frecuencia relativa de alguna mejoría es la suma de las de mejoría y mejoría marcada.
La distribución normal, también llamada distribución de Gauss o distribución gaussiana, es la distribución de probabilidad que con más frecuencia aparece en estadística y teoría de probabilidades. Esto se debe a dos razones fundamentalmente:
Su función de densidad es simétrica y con forma de campana, lo que favorece su aplicación como modelo a gran número de variables estadísticas.
Es, además, límite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas.
La función de densidad está dada por:
Distribución normal estándar. Estandarización [editar]
Cuando y , la distribución se conoce con el nombre de normal estándar.
Dada una variable aleatoria normal X, con media (también llamada Esperanza matemática) y desviación típica , si definimos otra variable aleatoria entonces la variable aleatoria Z tendrá una distribución de porcentaje altamente normal aunque algunas veces muy estándar y a la vez pequeña y . Se dice que se ha tipificado o estandarizado la variable X.
Uso de tablas [editar]
La probabilidad de que una variable aleatoria (que sigue una distribución normal) se encuentre entre dos valores determinados será en general difícil de calcular (hay que usar la integral de la función de probabilidad). Para ello, existen tablas de distribución normal tipificada, si bien éstas se calculan para la distribución Normal Tipificada.
Básicamente, se busca un valor de x (por ejemplo, ), y la tabla nos da la probabilidad de que :
En el caso de que la distribución no sea estándar, por ejemplo, con y , tendremos que tipificar la variable:
Se obtiene una variable Z normal, que además está tipificada. Si ahora se consulta en la tabla,
COMENTARIO.
EL AREA BAJO LA CURVA ES UNA GRAFICA QUE REPRESENTA UNA DISTRIBUCION DE DATOS, EN EL QUE SE ESTUDIA UN PROBLEMA O FENOMENO Y CON EL CUAL SE DETERMINA LA PROBABILIDAD, EL PORCENTAJE Y EL NUMERO DE DATOS QUE SE DESEA SABER O DESCIFRAR, UN RESULTADO ADECUADO O ESPECIFICO SOBRE EL FENOMENO QUE SE ESTE ESTUDIANDO.
La distribución normal, también llamada distribución de Gauss o distribución gaussiana, es la distribución de probabilidad que con más frecuencia aparece en estadística y teoría de probabilidades. Esto se debe a dos razones fundamentalmente:
Su función de densidad es simétrica y con forma de campana, lo que favorece su aplicación como modelo a gran número de variables estadísticas.
Es, además, límite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas.
La función de densidad está dada por:
Distribución normal estándar. Estandarización [editar]
Cuando y , la distribución se conoce con el nombre de normal estándar.
Dada una variable aleatoria normal X, con media (también llamada Esperanza matemática) y desviación típica , si definimos otra variable aleatoria entonces la variable aleatoria Z tendrá una distribución de porcentaje altamente normal aunque algunas veces muy estándar y a la vez pequeña y . Se dice que se ha tipificado o estandarizado la variable X.
Uso de tablas [editar]
La probabilidad de que una variable aleatoria (que sigue una distribución normal) se encuentre entre dos valores determinados será en general difícil de calcular (hay que usar la integral de la función de probabilidad). Para ello, existen tablas de distribución normal tipificada, si bien éstas se calculan para la distribución Normal Tipificada.
Básicamente, se busca un valor de x (por ejemplo, ), y la tabla nos da la probabilidad de que :
En el caso de que la distribución no sea estándar, por ejemplo, con y , tendremos que tipificar la variable:
Se obtiene una variable Z normal, que además está tipificada. Si ahora se consulta en la tabla,
COMENTARIO.
EL AREA BAJO LA CURVA ES UNA GRAFICA QUE REPRESENTA UNA DISTRIBUCION DE DATOS, EN EL QUE SE ESTUDIA UN PROBLEMA O FENOMENO Y CON EL CUAL SE DETERMINA LA PROBABILIDAD, EL PORCENTAJE Y EL NUMERO DE DATOS QUE SE DESEA SABER O DESCIFRAR, UN RESULTADO ADECUADO O ESPECIFICO SOBRE EL FENOMENO QUE SE ESTE ESTUDIANDO.
Suscribirse a:
Entradas (Atom)