lunes, 9 de noviembre de 2009

UNIDADES DE ESTADISTICA

ESCUELA PREPARATORIA DEL ESTADO Nº 3
ALUMNOS:
MAURICIO GILBERTO TRAMPE TORIJA
JOSÉ ÁNGEL ALFARO LÓPEZ
GIVER DAGOBERTO MEGIA ORTIZ

SEMESTRE:
5 “F” FÍSICO MATEMÁTICO

MATERIA:
ESTADÍSTICA

TEMA:
UNIDAD I



TAPACHULA, CHIAPAS DE CÓRDOVA Y ORDÓÑEZ A 23 DE SEPTIEMBRE DEL 2009







UNIDAD II

Representación tabular y grafica
Para poder organizar nuestros datos necesitamos la ayuda de las representaciones para poder distribuir nuestros datos, cuando realizamos una distribución de frecuencias o tabla de frecuencias no es otra cosa que una ordenación en forma de tabla de los datos estadísticos que hayamos obtenido de nuestras muestras, asignándole a cada uno su frecuencia correspondiente.
Se reconoces 3 tipos de frecuencias principales que son:
• Frecuencia absoluta: la cual es el número de veces que aparece en la muestra dicho valor de la variable, comúnmente es representada por ni
• Frecuencia relativa: es el cociente entre la frecuencia absoluta y el tamaño de la muestra.
De frecuencias acumuladas se encuentran dos tipos:
• La relativa acumulada: no es otra cosa que la frecuencia absoluta acumulada dividido por el tamaño de la muestra
• La absoluta acumulada: Para poder calcularla hay que tener en cuenta que la variable ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el cálculo de esta. La frecuencia absoluta acumulada de un valor de la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable.
Tipos de graficas:
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información.
Histograma: un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos.
Grafica de columnas: Un gráfico de columnas muestra una serie como un conjunto de barras verticales agrupadas por categorías. Los gráficos de columnas resultan de gran utilidad para mostrar los cambios que se producen en los datos a lo largo del tiempo o para ilustrar comparaciones entre elementos.
Grafica de barras horizontales: los cuales se parecen mucho a las gráficas de columnas, con la salvedad importante de que la función de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases.
Graficas de líneas: consisten en una serie de puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada una, uniéndose consecutivamente con líneas
Polígonos de frecuencias: La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.
Representación por ojiva: en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.
Circulares: se usa cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total
Conclusión: podemos deducir que las representaciones graficas de datos en lo que es la estadística, son una herramienta de gran ayuda para nuestra organización. Y en ellas también nos podemos dar cuenta de las cosas que van modificandose con el tiempo, nos lo hacen ver de una manera rápida y sencilla a la vez. Se entiende que existan gran variedad de representaciones, ya de dependiendo de nuestros datos o variables, podemos escoger la que más se acondicione a nuestra necesidad.





UNIDAD III





La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos ramas:
• La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clústers, etc.
• La inferencia estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos
La estadística es una ciencia importante, que nos es útil en todo momento para saber el desenlace de algún hecho o fenómeno que se pretende investigar, en ella se emplea la recolección de datos numéricos de dicho fenómeno, para posterior mente graficarlos y analizarlos y a partir de esto tomar decisiones razonables basadas en hechos reales que están basados en conclusiones validas que ya han sido analizadas.
Procedimiento:
1. Obtención de datos
2. Clasificación
3. Presentación
4. Interpretación
5. Descripción
6. Generalizaciones
7. Comprobación de hipótesis por su aplicación.
8. Toma de decisiones

SIGNIFICADO DE ESTADÍSTICA
La estadística es una rama de las matemáticas que conjunta herramientas para recolectar, organizar, presentar y analizar datos numéricos u observacionales. Presenta números que describen una característica de una muestra. Resulta de la manipulación de datos de la muestra según ciertos procedimientos especificados.



La estadística es una de las ciencias la cual su objeto es reunir, clasificar y contar los hechos en un mismo orden, para obtener datos necesarios para alguna actividad. Sirve para comparar, contar o ver la proporcionalidad de varios datos o cantidades.
Esta es muy útil en la vida cotidiana pues es un factor importante para la economía del país y en la población, con la estadística se reúnen datos para saber que es lo que tenemos, lo que es probable, la comparación, entre otras cosas.

La estadística inferencial o inductiva sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido.
La estadística descriptiva o deductiva se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de unos cuantos parámetros y algunas graficas planteadas de tal forma que den importancia los mismos datos.




MEDIDAS DE TENDENCIA CENTRAL
Se les llama medidas de tendencia central porque general mente la acumulación más alta de datos se encuentra en los valores intermedios.
Las medidas de tendencia central comúnmente empleadas son :
 Media aritmética
 Mediana
 Moda
 Media geométrica
 Media armónica
 Los cuantilos



MODA

 La moda es el valor que aparece con mayor frecuencia en la serie de datos. Así por ejemplo, de la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.
 La moda es una medida muy natural para describir un conjunto de datos; su concepto se adquiere fácilmente : es la altura más corriente, es la velocidad más común, etc. Además tiene la ventaja de que no se ve afectada por la presencia de valores altos o bajos.
 La principal limitación esta en el hecho de que requiere un número suficiente de observaciones para que se manifieste o se defina claramente.
 Otros inconvenientes son que puede darse el caso de que una determinada serie no tenga moda o que tenga varias modas.



MEDIANA
 La mediana toma en cuenta la posición de los datos y se define como el valor central de una serie de datos o, más específicamente, como un valor tal que no más de la mitad de las observaciones son menores que el y no más de la mitad mayores.
 El primer paso es ordenar los datos de acuerdo a su magnitud, luego se determina el valor central de la serie y esa es la mediana. Si el número de datos es par, existirán dos valores centrales y entonces la mediana se obtiene sacando el promedio de ellos.




LOS CUANTILOS
 En algunas ocasiones es importante obtener valores que dividan el conjunto de datos en fracciones especificas. Así como la mediana divide el conjunto de datos en dos partes iguales, es decir, la mitad de los valores son inferiores a la mediana y la otra mitad son superiores. Si cada una de estas mitades se volviera a dividir por la mitad, el conjunto quedaría dividido en cuatro partes y cada parte se llamara cuartilo.
 Pero el conjunto puede dividirse también por 10 (deciles) o por 100 (percentiles) y todos se llaman cuantilos.
 Tanto la mediana, como los cuartilos y los deciles pueden expresarse como percentiles.

 Así que conociendo los percentiles se puede averiguar cualquier cuantilo.
 Para el calculo de los percentiles, el conjunto de datos debe estar ordenado, luego se aplica la siguiente formula :
 Pm = m (n+1) termino
100
 Donde : Pm = Percentil m. Valor tal que un m/100 de las observaciones son menores que el y un 1 - m/100 son mayores.
 m = Número que indica el percentil que se quiere. Por ejemplo, si m = 43, esto quiere decir que se quiere el percentil 43 (P43).
 n = Número total de observaciones.


MEDIA ARITMÉTICA
 La media aritmética es el promedio más comúnmente usado, este puede ser simple o ponderado.
 La media aritmética simple esta dada por la formula SX/n y que significa: la suma de todos los valores dividida por el número de datos.


MEDIA ARITMÉTICA PONDERADA

 Si los valores que toma x en una serie de datos, no todos tienen la misma importancia, es valido asignar "pesos" o "ponderaciones" de acuerdo a la importancia de cada dato.
 En la serie del ejemplo anterior aparecen los números; pero cada uno con diferente frecuencia. Si cada uno de estos datos se multiplica por su respectiva frecuencia o ponderación y se suman estos productos, se obtendrá la misma suma que si se hubieran sumado uno por uno.


MEDIA GEOMÉTRICA

 La media geométrica es la raíz enésima del producto de todos los valores de la serie.





MEDIA ARMÓNICA
 La media armónica se define como el recíproco de la media aritmética de los recíprocos de los valores.
 y reacomodando la fórmula se tiene:



TABLAS ESTADÍSTICAS
Consideremos una población estadística de n individuos, descrita según un carácter o variable C cuyas modalidades han sido agrupadas en un número k de clases, que denotamos mediante.
 Para cada una de las clases si introducimos las siguientes magnitudes:




Frecuencia absoluta
 de la clase c1 es el número ni, de observaciones que presentan una modalidad perteneciente a esa clase.

Frecuencia relativa
 de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir

Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci. Multiplicado por representa el porcentaje de la población que comprende esa clase.

Frecuencia absoluta acumulada
 Ni, se calcula sobre variables cuantitativas o cuasi cuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci:

Frecuencia relativa acumulada
 Fi, se calcula sobre variables cuantitativas o cuasi cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir,




Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que

o lo que es lo mismo

Frecuencia absoluta (ni):
Número de elementos que presentan la clase xi.

Frecuencia absoluta acumulada:

Frecuencia relativa acumulada:


Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:

Modali. Frec. Abs. Frec. Rel. Frec. Abs. Acumu. Frec. Rel. Acumu.
C ni fi Ni Fi
c1 n1 N1 = n1
... ... ... ... ...
cj nj
... ... ... ... ...
ck nk Nk = n Fk = 1
n 1





MEDIDAS DE POSICIÓN
Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribución de frecuencia, por lo que también se les llama " Medidas de Tendencia Central ".
Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para que lean verdaderamente representativas de la variable a la que resumen. Toda síntesis de una distribución se considerara como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias y siendo siempre calculable y de fácil obtención. A continuación se describen las medidas de posición más comunes utilizadas en estadística, como lo son:deciles,percentiles,cuartiles.







MEDIDAS DE DISPERSIÓN


RANGO:
Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el menor de la distribución,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular.

DESVIACIÓN:
Es la diferencia que se observa entre el valor de la variable y la media aritmética. La denotaremos por di
DESVIACIÒN MEDIA. Es la media de los valores absolutos de las desviaciones, y la denotaremos por dm.

VARIANZA:
Es la media de los cuadrados de las desviaciones, y la denotaremos por o también por
Aunque también es posible calcularlo como:



DESVIACIÓN TÍPICA:
Es la raíz cuadrada de la varianza, se denota por Sx .



CUASIVARIANZA:
Es una medida de dispersión, cuya única diferencia con la varianza es que dividimos por N-1, la representaremos por




CUASIDESVIACIÓN TÍPICA:
La raíz cuadrada de la cuasivarianza y la denotaremos por


COEFICIENTE DE VARIACIÓN:
Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V.


Son datos que están organizados (formando grupos). Podemos formar más o menos grupos,
Dependiendo de que tan exacto queramos trabajar, a cada grupo le llamamos clase. Rara vez se emplean menos de seis clases o màs de quince.
Ventajas:
• Facilidad y rapidez al manejo de datos.
• Se notan rápidamente el valor mayor y el valor menor de los datos
• Se puede dividir fácilmente los datos en secciones.
• Se puede observar si algún valor aparece mas de una vez en el ordenamiento.
• Se observa la distancia entre los valores sucesivos de los datos.


Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada.
Antes de pasar a definir cuál es la manera de determinar las características de interés (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos como se agrupan los datos.

Pasos para agrupar datos.
a. Determinar el rango o recorrido de los datos.

Rango = Valor mayor – Valor menor

b. Establecer el número de clases (k)en que se van a agrupar los datos tomando como base para esto la siguiente tabla.



Tamaño de muestra o No. De datos Número de clases
Menos de 50 5 a 7
50 a 99 6 a 10
100 a 250 7 a 12
250 en adelante 10 a 20

El uso de esta tabla es uno de los criterios que se puede tomar en cuenta para establecer el número de clases en las que se van a agrupar los datos, existen otros para hacerlo.

c. Determinar la amplitud de clase para agrupar (C).




d. d. Formar clases y agrupar datos.
Para formar la primera clase, se pone como límite inferior de la primera clase un valor un poco menor que el dato menor encontrado en la muestra y posteriormente se suma a este valor C, obteniendo de esta manera el límite superior de la primera clase, luego se procede a obtener los límites de la clase siguiente y así sucesivamente.

Ejemplo:
Los siguientes datos se refieren al diámetro en pulgadas de un engrane.

6.75 7.00 7.00 6.75 6.50 6.50 7.15 7.00
6.50 6.50 6.50 6.25 6.25 6.50 6.65 7.00
7.25 6.70 6.00 6.75 6.00 6.75 6.75 7.10
7.00 6.70 6.50 6.75 6.25 6.65 6.75 7.10
7.25 6.75 6.25 6.25 7.00 6.75 7.00 7.15

a) Agrupe datos, considere k=6.
b) Obtenga: Histograma, polígono de frecuencias, ojiva y distribución de probabilidad.
c) c) Obtenga: media, mediana, moda y desviación estándar.
Solución:
a) a) Agrupando datos;

1. R= VM - Vm = 7.25 – 6.00 = 1.25
2. k = 6
3.
4.Formando clases.

Para formar la primera clase se toma un valor un poco menor que el valor menor encontrado en la muestra; luego,



LI LS Frecuencia Marca de clase Límite real inferior Límite real superior Frecuencia relativa Frecuencia Relativa acumulada
5.97 – 6.18 2 6.075 5.965 6.185 2/40 = 0.05 0.05
6.19 – 6.40 5 6.295 6.185 6.405 5/40=0.125 0.175
6.41 – 6.62 7 6.515 6.405 6.625 0.175 0.350
6.63 – 6.84 13 6.735 6.625 6.845 0.325 0.675
6.85 – 7.06 7 6.955 6.845 7.065 0.175 0.850
7.07 – 7.28 6 7.175 7.065 7.285 0.15 1.000
Total 40 1.000


b) b) Gráficas:









a) a) Media ( ).



=

Donde:
k = número de clases
xi = marca de clase i
fi = frecuencia de la clase i
n = número de datos en la muestra

b) b) Mediana (Xmed).




Donde:
Li = límite real inferior de la clase que contiene a la mediana
Fme-1 = sumatoria de las frecuencias anteriores a la clase en donde se encuentra la mediana
fme = frecuencia de la clase en donde se encuentra la mediana
A = amplitud real de la clase en donde se encuentra la mediana
A = LRS-LRI
LRS = límite real superior de la clase que contiene a la mediana
LRI = límite real inferior de la clase que contiene a la mediana
N = número de datos en la muestra

f) Moda (Xmod).




Donde:
Li = límite real inferior de la clase que contiene a la moda
d1 = =
d2 = =
fmo = frecuencia de la clase que contiene a la moda
fmo-1= frecuencia de la clase anterior a la que contiene a la moda
fmo+1= frecuencia de la clase posterior a la que contiene a la moda
A = amplitud real de la clase que contiene a la moda
A = LRS – LRI
LRS = límite real superior de la clase que contiene a la moda
LRI = límite real inferior de la clase que contiene a la moda


g) Desviación estándar (S).



=

Donde:
xi = marca de clase i
= media aritmética
fi = frecuencia de la clase i
= número total de datos en la muestra





DATOS NO AGRUPADOS
Son datos no agrupados cuando se consideran y analizan todos los valores observados tal como se obtuvieron. Es conveniente y más sencillo trabajar a estos datos como no agrupados cuando la muestra no es muy grande. De preferencia que sea una cantidad menor de 30 datos.
También resulta conveniente trabajarlos así cuando se quiere que el peso de cada observación se vea reflejado en el resumen de los datos.
Ventajas:
• Resulta más fácil y rápido trabajar con los datos no agrupados.
Desventajas
• Solo se puede aplicar en pequeñas cantidades de datos, ya que en grandes cantidades resultaría un
• tanto tedioso y por lo mismo existiría más probabilidad de equivocarse.


¿A qué se refiere esto? Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.

b1. Medidas de tendencia central. Se les llama medidas de tendencia central a la media aritmética, la mediana, la media geométrica, la moda, etc. debido a que al observar la distribución de los datos, estas tienden a estar localizadas generalmente en su parte central. A continuación definiremos algunas medidas de tendencia central y la forma de calcular su valor.

1) 1) Media aritmética (`x ). También se le conoce como promedio ya que es el promedio de las lecturas o mediciones individuales que se tienen en la muestra, se determina con la fórmula siguiente:


donde:
`x = media aritmética
xi = dato i
n = número de datos en la muestra

Ejemplos:
1. Se han tomado como muestra las medidas de seis cables usados en un arnés para lavadora, las cuales son; 15.2 cm, 15.0, 15.1, 15.2, 15.1 y 15.0, determine su media aritmética.
Solución:



2. Se toman varias muestras de cierto tipo de queso y se determina la cantidad de proteína por cada 100 gramos de queso, encontrándose lo siguiente: 26.5 gramos, 24.8, 25.3, 30.5, 21.4, determine la cantidad promedio de proteína encontrada en la muestra por cada 100 gramos de queso que se elabora.

Solución:




3. 3. Se hacen varias lecturas de una muestra que contiene cobre, las lecturas se hacen en un espectrofotómetro de absorción atómica y son la siguientes: 12.3%, 12.28, 12.27, 12.3, 12.24, 15.01, determine la concentración promedio de Cu en la muestra.

Solución:



Si observamos las lecturas del espectrofotómetro nos damos cuenta que el valor de 15.01% es un valor diferente al de las lecturas anteriores, por lo que se descarta el valor ya que se considera un valor atípico, es decir un valor que es debido a circunstancias especiales, en este caso puede ser que se deba al hecho de que se está descalibrando el aparato de absorción atómica o simplemente que se ha equivocado el operador del aparato al tomar la lectura, por lo que la media se debe calcular con las primeras cinco lecturas; como se muestra a continuación:

Solución:

y esta sería la media correcta

4. Si deseamos determinar la edad promedio de los estudiantes de una escuela de nivel superior al iniciar sus estudios, suponga que se toman las edades de algunos de los alumnos de cierta clase y estas son las que siguen: 20, 18, 18, 19, 18, 19, 35, 20, 18, 18, 19.

Solución:


Luego, la media se determinará con solo 10 de las edades ya que es necesario descartar la edad de 35 años, que es un dato atípico o un caso especial, por lo que;




Nota: Cuando es necesario determinar aquellas medidas de tendencia central que hagan uso de todos los datos de la muestra se recomienda descartar todos aquellos datos atípicos que se encuentren en la muestra o muestras tomadas.


2) 2) Media geométrica (G). Es la raíz en enésima del producto de los valores de los elementos de la muestra, es usada cuando los valores de los datos de la muestra no son lineales, es decir que su valor depende de varios factores a la vez, se determina de la siguiente forma:





Donde:
G = media geométrica
xi = dato i
n = número de datos en la muestra


Ejemplos:
1. 1. Las siguientes temperaturas han sido tomadas de un proceso químico, 13.4oC, 12.8, 11.9, 13.6, determine la temperatura promedio de este proceso.

Solución:

G = = 12.9077 oC

2. 2. Las siguientes temperaturas han sido tomadas de un proceso para fabricar queso chihuahua, 21.4oC, 23.1, 20.2, 19.7, 21.0, determine la temperatura promedio de este proceso.

Solución:

G = = 21.048 oC

3) Media aritmética ponderada ( xw ). Esta media se usa cuando el peso que tiene cada uno de los datos de la muestra es diferente, se calcula de la siguiente manera:




donde:
xw = media aritmética ponderada
xi = dato i
wi = peso del dato i

Ejemplo:
A continuación se mencionan las materias que Luis Pérez llevó en el primer semestre de Ingeniería Química, el número de créditos y la calificación obtenida;

MATERIA NUMERO CREDITOS CALIFICACIÓN
Metodología de la investigación 8 90.5
Matemáticas I 10 100.0
Programación 8 81.0
Química 10 78.0
Dibujo 4 100.0
Economía 8 84.0
Determine la calificación promedio que obtuvo Luis Pérez en su primer semestre.

Solución:

=



Nota: Sí comparamos este promedio con el que se obtiene usando simplemente la media aritmética, que es un 88.91, nos damos cuenta de que este último es mayor, por no tomar en cuenta el peso o número de créditos que aporta cada materia a la carrera que se estudia, el promedio de esta persona es menor al de la media aritmética debido a que obtiene una calificación baja es Química que es una de las materias que aporta más créditos.

4) 4) Media armónica (H). La media armónica se define como el recíproco del promedio de los recíprocos de cada uno de los datos que se tienen en la muestra, y
se determina de la siguiente manera:


Ejemplo: Determine la media armónica de los siguientes datos, 3.1, 2.8, 2.84, 3.05, 3.09

Solución:







5) 5) Mediana (xmed). La mediana es aquel valor que se encuentra en la parte central de los datos que se tienen en la muestra una vez que estos han sido ordenados según su valor o magnitud. Para calcular la mediana se presentan dos casos:

a. a. Cuando el número de datos en la muestra es impar.- En este caso después de ordenar los datos de la muestra en cuanto a su magnitud, es decir de mayor a menor valor o de menor a mayor valor, se procede a localizar aquel dato que se encuentra justo en el centro de los datos o en la parte central de los mismos, el valor de este dato será el que dé valor a la mediana.

Ejemplo:
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en un arnés de lavadora; se toman como muestra siete circuitos y sus mediciones son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5 cm.

Solución:
Ordenando los datos de menor a mayor valor;
11.2, 11.2, 11.2, 11.3, 11.4, 11.5, 11.5

Se observa que el dato 11.3 es el que queda en la parte central, por lo que este es el que dará valor a la mediana; entonces,

xmed = 11.3 cm.

b. b. Cuando el número de datos en la muestra es par.- En este caso después de ordenar los datos en cuanto a su magnitud, observamos que en la parte central de los datos no se encuentra dato alguno, en este caso, la mediana tomará el valor del promedio de dos datos; el que se encuentra antes de la parte central y el que se encuentra después de la parte central.


Ejemplo:
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en un arnés de lavadora; se toman como muestra ocho circuitos y sus mediciones son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5, 11.4 cm.

Solución:

Ordenando los datos de mayor a menor valor,

11.5, 11.4, 11.4, 11.3, 11.2, 11.2, 11.2, 11,1 cm.

Se observa que en la parte central de los datos no hay dato alguno por lo que la mediana se determina con el promedio de los datos subrayados, entonces,




Nota: Es imprescindible para calcular el valor de la mediana el que primero se ordenen los datos en cuanto a su magnitud, ya que de no hacerlo, se incurriría en un grave error.

5) 5) Moda (xmod). La moda se define como aquel valor o valores que más se repiten o que tienen mayor frecuencia entre los datos que se han obtenido en una muestra, la muestra de una población nos genera la distribución de los datos una vez que estos se han graficado y en esta gráfica es posible observar la moda o modas de la misma, es por esto que una distribución de datos puede ser amodal (carece de moda), unimodal (tiene una sola moda), bimodal (tiene dos modas) o polimodal (tiene más de dos modas).

Ejemplos:
1. 1. Determine la moda de los datos que se muestran a continuación, se refieren a la estatura de un grupo de jóvenes; 1.60m, 1.65, 1.70, 1.71, 1.70, 1.70, 1.70, 1.71, 1.70, 1.93, 1.87, 1.85

Solución:

Estatura Frecuencia
1.60 1
1.65 1
1.70 5*
1.71 2
1.85 1
1.87 1
1.93 1

La tabla muestra la distribución de frecuencias de los datos o el número de veces que estos se repiten, la mayor frecuencia que es 5 corresponde a una estatura de 1.70m, por lo que esta sería la moda.

Luego, xmod = 1.70m

2. 2. Determine la moda de los siguientes datos que se refieren a la edad de alumnos de primer semestre del tecnológico de Chihuahua, 18 años, 17, 19, 21, 19, 18, 22, 22, 18, 18, 17, 19, 19, 19, 18, 20, 21, 20, 18, 19, 18, 19, 18,19, 22, 35

Solución:


Edad Frecuencia
17 2
18 7*
19 8*
20 2
21 2
22 3
35 1


En este caso se observa que las edades que más frecuencia tienen son las de 18 y 19 años, por lo que se concluye que existen dos modas,

Xmod1= 18 años , Xmod2= 19años

Hay que hacer notar que la frecuencia para ambas modas puede ser de igual magnitud o diferente, como en el caso que se ilustra.

b2. Medidas de Dispersión. Cuando se tiene una muestra de datos obtenida de una población cualquiera, es importante determinar sus medidas de tendencia central así como también es básico el determinar que tan dispersos están los datos en la muestra, por lo que se hace necesario determinar su rango, la varianza, la desviación estándar, etc., ya que una excesiva variabilidad o dispersión en los datos indica la inestabilidad del proceso en análisis en la mayoría de los casos.

1) 1) Rango o recorrido. El rango es la diferencia entre el valor mayor y el valor menor encontrados en la muestra, también se le denomina recorrido ya que nos dice entre que valores hace su recorrido la variable de interés; y se determina de la siguiente manera:

R = VM – Vm
Donde:

R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra

Ejemplo:
1. Se han tomado como muestras las mediciones de la resistencia a la tensión de la soldadura usada para unir dos cables, estas son: 78.5kg, 82.4, 87.3, 78.0, 90.0, 86.5, 77.9, 92.4, 75.9, determine su rango o recorrido.

Solución:

VM = 92.4 kg
Vm = 75.9 kg
R = VM – Vm = 92.4 – 75.9 = 16.5 kg

2. Se toman las mediciones de la cantidad de grasa de la leche en gramos por cada 100 ml de leche que entra a un proceso de pasteurización, a continuación se enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine el rango o recorrido de la cantidad de grasa de la leche.

Solución:

VM = 17.61
Vm = 12.76

R = 17.61 – 12.76 = 4.85gramos

2) 2) Desviación absoluta media ( ). Esta medida de dispersión nos representa la diferencia absoluta promedio que existe entre cada dato que se encuentra en la muestra y la media de los datos y se determina de la siguiente manera:





Donde:
xi = dato i
= media aritmética de la muestra
n = número de datos en la muestra


Ejemplo:
1. Determine la desviación absoluta media de los siguientes datos que son las concentraciones de plomo de algunas muestras, las que a continuación se enumeran: 18gr, 12, 21, 19, 16, 20, 22

Solución:

Para determinar la desviación absoluta media o promedio, lo primero que hay que hacer es calcular la media aritmética de los datos de la muestra, la que es 128/7 =18.286, luego se procede a calcular el promedio de las diferencias absolutas entre cada dato y la media calculada.





La interpretación de este resultado sería que el grado de alejamiento absoluto promedio de los datos con respecto a su media es de 2.5305 gramos.

¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la media aritmética? Si solo se hicieran diferencias entre cada dato y la media aritmética, estas tendrían signos positivos y negativos ya que algunos datos son menores que la media y otros son mayores que la media, luego al sumar las diferencias, con sus signos correspondientes, éstas se irían anulando unas con otras y no sería posible medir leal grado de alejamiento promedio de los datos en la muestra.

3) 3) Varianza o variancia (s2). Es el promedio de las diferencias elevadas al cuadrado entre cada valor que se tiene en la muestra (xi) y la media aritmética ( ) de los datos y se determina de la siguiente manera:





Donde n es el número de datos en la muestra.




Ejemplo:
Los siguientes datos es la cantidad de glucosa en miligramos encontrada en muestras de sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3, determine su varianza.

Solución:
Lo primero que hay que calcular es la media aritmética de la muestra como ya se ha hecho anteriormente.






Nota:
Dentro de la inferencia estadística se plantea la deferencia entre una variancia muestral s2 y una poblacional, representada por s2.

4) 4) Desviación estándar (s). Es la desviación o diferencia promedio que existe entre cada dato de la muestra y la media aritmética de la muestra. Y se obtiene a partir de la varianza, sacándole raíz cuadrada.




donde:
s2= varianza o variancia

Por tanto la desviación estándar de la muestra anterior sería;

s =

La interpretación de este resultado sería, que la cantidad de glucosa encontrada en la muestra es en promedio de 14.86 miligramos y que la cantidad de glucosa en la muestra se aleja o dispersa en promedio 1.9704 mg alrededor de la media.

En este caso solo nos interesa conocer el significado de la desviación estándar, aunque es necesario decir que s es la desviación de la muestra y que s es la desviación de la población, así como s2 es la varianza de la muestra y s2 es la varianza de la población.









UNIDAD IV


Conceptos Básicos de Probabilidad

Debido a que el proceso de obtener toda la información relevante a una población particular es difícil y en muchos casos imposible de obtener, se utiliza una muestra para estimar la información necesaria para la toma de decisiones.


Muestra (n) → inferencia → Población
_
X = 8 estimado de μ = 7.5


Tomemos por ejemplo una compañía cualquiera. Si la empresa desea introducir un nuevo producto al mercado, sería absurdo pretender que toda la población pruebe el producto. En este caso, se da a probar el producto a una muestra de consumidores y con base a los resultados de esa muestra se decide si el producto se elabora o no.
Ahora bien, como los resultados obtenidos a partir de una muestra difieren de los resultados que se obtendrían si se observara la población total o universo, existe un riesgo al tomar la decisión. Es en este caso que se utiliza la PROBABILIDAD como una medida de riesgo.













Definiciones básicas:

Experimento. Cualquier acción cuyo resultado se registra como un dato.

Espacio Muestral (S). El conjunto de todos los posibles resultados de un experimento. El espacio muestral de un experimento siempre existe y no es necesariamente único pues, dependiendo de nuestra valoración de los resultados, podemos construir diferentes espacios muéstrales.

Ejemplo. Supongamos el lanzar un dado al aire y observaremos los resultados siguientes:

S = { 1, 2, 3, 4, 5, 6 } S = { 6 }

Punto muestral: son todos los elementos que contiene el espacio muestral y son los distintos resultados del experimento.

Si consideramos el conjunto de las partes de (P(S)) sus elementos son los sucesos. Un suceso, por tanto, es un subconjunto del espacio muestral.
Existen dos tipos de sucesos:
* Sucesos simples, que son aquellos que comprenden un sólo punto muestral.
* Sucesos compuestos, que son los que engloban más de un punto del espacio muestral. Todo suceso compuesto se puede considerar como unión de puntos del espacio muestral o unión de sucesos simples.

Evento: Es el resultado de un experimento.
Cuando cada evento es seleccionado al azar, el experimento se denomina aleatorio o al azar.

Evento Simple (E). Cada uno de los posibles resultados de un experimento y que no se puede descomponer. En el caso del lanzamiento del dado, cada uno de los posibles números en la cara del dado es un evento simple.

Ejemplo: Lanzamiento de un dado
A = { evento que salga un # impar }
A = { 1, 3, 5 }
B = { el número sea ≤ 4 } = { 1, 2, 3, 4 }

Evento Compuesto. Los eventos A, B, C, etc., son eventos compuestos si se componen de dos o más eventos simples.


4.2.2 Unión de dos eventos. La unión de dos conjuntos A y B es el conjunto C que está formado por los elementos de A, de B o de ambos.

A ∪ B = C {x / x, A, x, B o x, a ambos}

Intersección de dos conjuntos. La intersección de dos conjuntos A y B es el conjunto C que está formado por los elementos que pertenecen a ambos conjuntos simultáneamente.

A ∩ B = C {x / x , A y x , B}



Complemento de un evento. El complemento de un conjunto A que se denota por Ac es el evento que consta de todos los resultados en el espacio muestral que no están contenidos en A.

Ac = {x ∈ S x ∉ A}
Ac + A = S

Eventos mutuamente excluyentes: Si dos conjuntos A y B no tienen elementos en común, su intersección será nula o vacía. En este caso A y B se dicen eventos mutuamente excluyentes.

A ∩ B = {Φ}







Eventos dependientes e independientes:
Eventos dependientes: Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de ellos afecta la probabilidad de ocurrencia del otro (o otros). Cuando tenemos este caso, empleamos entonces, el concepto de probabilidad condicional para denominar la probabilidad del evento relacionado. La expresión P (A|B) indica la probabilidad de ocurrencia del evento A sí el evento B ya ocurrió.
Se debe tener claro que A|B no es una fracción.
P (A|B) = P(A y B)/P (B) o P (B|A) = P(A y B)/P(A)

Eventos independientes: Cuando A y B son dos eventos con probabilidades positivas, hemos visto que en general la probabilidad condicional del evento B dado el evento A es diferente de la probabilidad del evento B. Sin embargo, cuando se tiene la igualdad: P (B/A) = P (B) es de especial importancia porque esto quiere decir que el evento B no depende o es independiente del evento A. Es decir, no importa si ocurrió o no el evento A puesto que la ocurrencia o no de A no afecta al evento B.
4.2.3 ENFOQUES DE PROBABILIDAD

Probabilidad clásica a priori: en la cual la probabilidad de un evento se basa en el conocimiento del proceso involucrado. Desde este enfoque, y cuando existe igual probabilidad para todos los posibles resultados del proceso, la probabilidad de ocurrencia de un resultado o un evento de interés, se define como
N total de resultados posibles/N veces que puede ocurrir el evento de interés
Enfoque de frecuencia relativa: Este enfoque permite determinar la probabilidad con base en la proporción de veces que ocurre un resultado favorable en cierto número experimentos.
No implica ningún supuesto previo de igualdad de probabilidades.
A este enfoque se le denomina también enfoque empírico debido a que para determinar los valores de probabilidad se requiere de la observación y de la recopilación de datos. También se le denomina a posteriori, ya que el resultado se obtiene después de realizar el experimento un cierto número de veces.
Enfoque subjetivo: Se diferencia de lo dos enfoques anteriores, debido a que tanto el enfoque clásico como el de frecuencia relativa producen valores de probabilidad objetivos. El enfoque señala que la probabilidad de un evento es el grado de confianza que una persona tiene en que el evento ocurra, con base en toda la evidencia que tiene disponible, fundamentado en la intuición, opiniones, creencias personales y otra información indirecta.
Este enfoque no depende de la repetitividad de ningún evento y permite calcular la probabilidad de sucesos únicos y se da el caso de que ocurra o no esa única vez.
Debido a que el valor de la probabilidad es un juicio personal, al enfoque subjetivo se le denomina también enfoque personalista.
4.3 TECNICAS DE CONTEO
El análisis de los problemas de probabilidad se facilita a través de métodos sistemáticos de conteo de los grupos y arreglos de los datos.
Factorial de un número: El factorial de un número entero positivo se define como el producto de todos los números naturales anteriores o iguales a él. Se escribe n!, y se lee "n factorial". (Por definición el factorial de 0 es 1: 0!=1)
Por ejemplo, 5! = 5•4•3•2•1 = 120
Principio de la multiplicación: Si un experimento puede describirse como una secuencia de k pasos y en cada paso hay n1 resultados en el primer paso, n2 resultados en el segundo paso, n3 resultados en el tercer paso, y así sucesivamente, entonces el número de eventos que pueden ocurrir será,
(n1) • (n2) • (n3) • (n4) • • • • • • (nk)

Principio de la adición: Supongamos que un evento A se puede realizar de “m” maneras y otro evento B se puede realizar de “n” maneras diferentes, además, no es posible que ambos eventos se realicen juntos (AÇB =Æ), entonces el evento A o el evento B se realizarán de (m + n) maneras.

Permutaciones (P). Cada arreglo de datos donde el orden es importante y que puede realizarse tomando algunos datos o todos los datos contenidos en el grupo.

n = # de datos r = grupo tomado de n (r < n)
combinaciones: Número de formas diferentes que se pueden seleccionar n objetos de un total de N objetos distintos sin importar el orden ( juego de póker, ej.)
NCn = N! / n! ( N – n ) !


4.4 PROBABILIDAD

La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. La teoría de la probabilidad se usa extensamente en áreas como la estadística, la física, la matemática, la ciencia y la filosofía para sacar conclusiones sobre la probabilidad de sucesos potenciales y la mecánica subyacente de sistemas complejos.

Probabilidad simple: Analiza la probabilidad de que ocurra un suceso A en un espacio muestral E. Si la naturaleza del experimento permite considerar a cada uno de los resultados como “igualmente probables” diremos que: La probabilidad simple de un suceso es el cociente del número de casos favorables por el número de casos posibles.


Esta fórmula sólo es aplicable si el espacio muestral es finito y si todos los sucesos elementales son igualmente probables.
Un indicador de que todos los sucesos elementales del espacio muestral considerado son igualmente probables es la frase “al azar”.