top of page

R E C U R S O S

E S T A D I S T Í C A

"El pensamiento estadístico será algún día tan necesario para el

ciudadano competente como la habilidad de leer y escribir". (H.G. Wells)

 

CONCEPTOS BÁSICOS

 

Población: Es la totalidad de elementos o cosas bajo consideración

que tienen una característica en común.

 

Muestra: Es la porción de la población que se selecciona para su análisis.

 

Parámetro: Es una medida de resumen que se calcula para describir una característica de toda una población. Generalmente es representado por una letra griega.

 

Estadístico: Es una medida que se calcula para describir una característica de una sola muestra de la población. Generalmente es representado por una letra del alfabeto latino.

 

Estadística Descriptiva: Comprende aquellos métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente las diversas características de ese conjunto.

 

Estadística Inferencial: Se refiere a aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población basándose sólo en los resultados de una muestra.

Experimento: Una actividad planificada, cuyos resultados producen un conjunto de datos.

 

LOS NÚMEROS

 

Los números son símbolos, como Y, 10, IX. Los números son tipos de numerales específicos que guardan una relación fija, con otros numerales. De este modo, dos numerales a y b, son números si y sólo si pueden sumarse, restarse, multiplicarse y dividirse, con resultados significativos.

Existen tres modos fundamentales de utilizar los numerales:

  • Para nombrar (numerales nominales)

  • Para representar la posición en una serie (numerales ordinales)

  • Para representar una cantidad (numerales cardinales)

 

 

 

 

 



 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Datos de Atributo: Piezas cualitativas de información.

Datos de Variables: Piezas cuantitativas de información.

El conteo será siempre una variable discreta. La idea de valores numéricos discontinuos resulta un tanto sinónima de los valores numéricos discretos. La medida de una cantidad será casi siempre continua. 

La presencia de fracciones o decimales no significa que los datos sean continuos. Un ejemplo donde aparecen decimales en una variable discreta es el de las puntuaciones en una competencia de clavados. El competidor no puede recibir más que medio puntos (5.5, 6.0,6.5, etc.). Estas puntuaciones son discretas , pues no existe la posibilidad de un 6.1; los valores entre 6.0 y 6.5 no pueden ocurrir.

En algunas situaciones, los datos se miden en forma de variable,pero se describen y estudian en forma de atributo, ejemplo: la medida de contaminación atmosferica, la escala de richter, etc.

 

TIPOS DE ESCALAS

 

Escalas Nominales:

 

Podemos asignar valores numéricos para representar las diferentes clases de una escala nominal, pero estos números no poseen propiedades cuantitativas, no sirven para ordenar, sino que sirven únicamente para identificar las clases. Ej: Macho, Hembra.

 

Los datos empleados con las escalas nominales constan generalmente de la frecuencia de los valores o de las tabulaciones del número de casos en cada clase según la variable que se está estudiando.  Este tipo de información recibe indistintamente el nombre de datos de frecuencias, datos enumerativos , datos de atributos o datos categóricos. Las únicas relaciones matemáticas pertinentes con las escalas nominales son los signos de igualdad (=) y de desigualdad (ǂ).

1.png
1.png
DATOS.jpg

Escalas ordinales:

 

Son variables cuyas clases sí representan series ordenadas de acuerdo con sus relaciones. De manera que las clases en las escalas ordinales no sólo se diferencian una de otras (característica que define a las escalas nominales) sino que mantienen una especie de relación entre sí. Más específicamente las relaciones se expresan en términos algebraicos de desigualdades (a<b; a>b). Así las relaciones encontradas son del tipo: mayor, más rápido, más inteligente, más peligroso, etc. Los números empleados en las escalas nominales no son cuantitativos, sino que indican exclusivamente la posición en las series ordenadas y ni “cuál es” la diferencia entre posiciones sucesivas de la escala.

 

Escalas de intervalo y de cocientes o razones:

 

Los valores numéricos asociados con estas escalas son efectivamente cuantitativos, y por  tanto permiten el uso de las operaciones aritméticas fundamentales. Las escalas de intervalos y razones se caracterizan por el hecho de que las diferencias iguales entre dos puntos en cualquier parte de la escala, son iguales entre sí. Así, la diferencia entre 4 y 2 metros es exactamente la misma que entre 9231 y 9229 metros.

Hay dos tipos de escalas basadas en los números cardinales: de intervalo y de razón. Estos tipos de escala se diferencian en que mientras la escala de intervalo utiliza un cero arbitrario, la escala de cocientes emplea un cero real. En consecuencia, solo la escala basada en cocientes o razones nos permitirá hacer comparaciones entre los números de la misma, y la relación que existe entre las distancias que los separan; por ejemplo: 4 metros es a 2 metros, como 2 metros es a 1 metro.

 

 ESCALAS CONTINUAS Y DISCONTINUAS:

 

Las escalas en las que la variable puede tomar un numero finito de valores, se denominan escalas discontinuas o discretas, y su característica básica es la igualdad entre sus unidades contables. Al pasar de un valor de la escala al siguiente, utilizamos números enteros y no fracciones.

La escala en que la variable puede tomar un número ilimitado de valores intermedios, se llama escala continua, es decir puede asumir valores con fracción, ej: 3,76mts, 2,354 kms.

Tipos de cocientes estadísticos

 

  • La distribución de cocientes:

 

Se define como el cociente de una parte a un total que incluye esa parte. Simbólicamente en el caso de una variable de dos categorías, el cociente de distribución se pude representar como:

 

 

 

 

  • Cociente de interclase:

 

Se define como el cociente de una parte en un total a otra parte en el msmo total.

                                               

 

 

          

                        *Por lo tanto es una relación de tipo a:b

 

Ej: Hay trescientos hombre y novecientas mujeres, la relación de cociente intercalase es:

 

 

 

 

 

  • El cociente de tiempo o tiempo relativo:

 

Es una medida que expresa el cambio en una serie de valores ordenados en secuencia temporal, y que se muestra típicamente como porcentaje. 

Hay dos clases principales de cocientes de tiempo: a) los que emplean un período de base fija y b) aquellos que utilizan un período de base móvil, por ejemplo, el año pasado.

Los cocientes de tiempo se llaman frecuentemente

Frecuencia absoluta y absoluta acumulada

 

Frecuencia (fi): es la cantidad de veces en que un determinado valor de la variable se repite en el estudio.

 

Frecuencia absoluta (ni): es la cantidad de veces que aparece el valor en el estudio.

 

Frecuencia absoluta acumulada (Ni): es el acumulado o suma de las frecuencias absolutas, indica cuantos datos se van contando hasta ese momento, o cuántos datos se van reportando.

 

Frecuencia relativa y frecuencia relativa acumulada:

 

1. Frecuencia relativa (fi): es la fracción o proporción de elementos que pertenecen a una clase o categoría. Se calcula de la siguiente forma:

fi = ni / n

Siendo:

·         fi: frecuencia relativa.

·         ni: frecuencia absoluta de la clase.

·         n: número total de datos del estudio.

 

2. Frecuencia relativa acumulada (Fi): nos indica la proporción de datos respecto al total que se han reportado hasta ese momento. Es la suma de las frecuencias relativas, y se puede calcular también de la siguiente manera:

 

Fi = Ni / n

 

Siendo

·         Fi: frecuencia relativa acumulada.

·         Ni: frecuencia absoluta acumulada en la clase.

·         n: número total de datos del estudio.

 

Ejemplo: Los siguientes datos corresponden al número de veces que un grupo de estudiantes del grado octavo asistieron a cine durante el año XX: 11, 0, 2, 6, 7, 10, 2, 2, 6, 7, 10, 10, 6, 6, 6.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(TABLA 1)

GRÁFICAS ESTADISTÍCAS

EMPLEO EQUIVOCADO DE GRÁFICAS ESTADISTÍCAS

 

Haber (1973) citando a Huff (1954) en su libro, How to lie with Statistics, señala lo que se conoce como el diagrama “Gee Whiz”. Este procedimiento consiste en eliminar la frecuencia cero en el eje vertical y empezar con una frecuencia superior a cero, tales artificios van en contra del conocimiento estadístico, por lo que conviene cierta convencionalidad para el diseño de graficas estadísticas. Apegados a un rigor técnico se han adoptado ciertas reglas.

 

Reglas de los tres cuartos de altura:

 

Para las representaciones gráficas de las distribuciones de frecuencias, la mayoría de los estadísticos está de acuerdo con una convención conocida como “Regla de los tres cuartos de altura” que se expresa de la siguiente manera:

“En la representación gráfica de las frecuencias el eje vertical debe hacerse de tal modo que la altura del punto máximo (que representa el resultado asociado con la frecuencia más alta) sea aproximadamente igual a tres cuartos de la longitud del eje horizontal” (Haber, R. 1973; p. 44).

 

Ej: Supongamos que la frecuencia máxima para el diagrama de barras es 180, y que disponemos de un espacio de 120 m.m. de longitud para representar la línea horizontal o eje de las abscisas, entonces:

 

3/4(120) = 90 m.m.

 

90/140 = 0,5 m.m.

 

0,5 * 10 = 5 m.m. Esto quiere decir que cada 5 m.m. de longitud en el eje de las ordenada (Y) representa 10 frecuencias.

 

Cada frecuencia ocupa: 120 m.m. /4 = 30 m.m. (Dato para las cuatro frecuencias del ejemplo).

 

Algunas de las gráficas más utilizadas son:

 

a. Los diagramas de barras: Es una gráfica utilizada para representar datos tanto de escalas nominales como ordinales.

 

  • Los valores de las escalas ordinales implican un ordenamiento que es expresable en términos algebraicas de desigualdades (mayor que, menor que), en este sentido deberán ser presentadas en el diagrama de barras, por ejemplo para representar los logros obtenidos por grupo de estudiantes: inferior, medio, alto, muy superior, o los apostadores ganadores en una carrera de caballos, etc.

 

b. El histograma: Se emplea especialmente con razones continuas y discontinuas o con escalas de variables de intervalo. Las variables que utilizan escalas de intervalos y de razones difieren fundamentalmente de las variables que emplean escalas ordinales.

 

c. Polígono de frecuencias: Se emplea igualmete para los valores de variables con razones continuas o discontinuas o con escalas de variables de intervalo.

 

d. Diagramas circulares: Se emplean generalmente para representar diagramas de razones. El círculo representa la suma del conjunto de las distribuciones de razones (100%). Cada porción indica una razón de la serie.

 

 

 

 

Percentiles

 

Un percentil es el vvalor del recorrido de una variable, bajo el cual se encuentra una proporción determinada de la población. Es un valor tal que supera un determinado porcentaje de los miembros de la población, es decir, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo de observaciones. El rango percentil de un valor representa, por tanto, el porcentaje de los casos de un grupo que alcanzó valores menores que el citado. Por ejemplo si decimos que un alumno obtuvo una calificación de 256 puntos tiene un rango percentil de 82 significa que el 82% del grupo obtuvo una calificación menor que 256, de igual manera se podría decir que el 18% del grupo en comparación obtuvo una calificación superior a 256.

 

Ej: Para los datos 2, 2, 3, 3, 5, 6, 7, 8, 9, 9, 12, 15, 17, 18, 18, 20, 25, 28 hallar el percentil 60 (utilizando una regla de tres simple)

N-------100%

P60----- 60%      *Tenemos que N=18 (cantidad de datos); Percentil 60 representa el 60%

                      

18-------100%

X----------60%                X= (60x18)/100=10,8 se aproxima a 11

 

 

 

 

 

Esto quiere decir que el percentil 60 corresponde a 12 (es decir la posición 11 de los datos ordenados) que corresponde al dato 12 del ejemplo.

Esto significa que el 60% de los datos es menor que 12.

 

 

 

 

OBTENCIÓN DEL VALOR CORRESPONDIENTE A UN PERCENTIL DADO

 

F acum=(rango percentil x N)/100

 

F acum = (60x18)/100 =10,8 ≈11

 

OBTENCIÓN DIRECTA DEL RANGO PERCENTIL

 

Rango Percentil= (F acum/N)100

 

Rango Percentil= (10,8/18)*100 = 60

 

 

PARA DATOS AGRUPADOS

 

 

 

OBTENCIÓN DEL VALOR CORRESPONDIENTE A UN PERCENTIL DADO

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Tabla 2)

 

La tabla corresponde a los puntajes obtenidos por grupo de 110 estudiantes de un curso de estadistíca.

 

 

Para un puntaje de 127. Está entre la frecuencia 82 y 91.

Tomando los límites superiores 124 y 129 podemos decir que se ubica entre 124,5 y 129,5.

Se debe interpolar dentro del intervalo 124,5 y 129,5 para encontrar la frecuencia acumulada exacta  correspondiente a un puntaje de 127.

 

 

Dado que hay 5 unidades de calificación dentro del intervalo, entonces tenemos: 2,5 / 5

Puesto que hay 9 casos dentro del intervalo (f) tenemos:

(2,5/5)9= 4,5 ósea 4,5 casos dentro del intervalo, esto quiere decir que la frecuencia (f) 4,5 en el intervalo corresponde exactamente al puntaje 127. Como 82 casos caen bajo el límite real inferior del intervalo, entonces sumando ambos, encontramos que para un puntaje de 127 corresponde exactamente una frecuencia acumulada de 86,5 (82 + 4,5).

Aplicando la fórmula:

Rango percentil= (f acum/N)100

Rango percentil= (86,5/110)100 =78,64

 

OBTENCIÓN DIRECTA DEL RANGO PERCENTIL

 

Si nos preguntan por el valor correspondiente al percentil 79.

 

F acum = (rango perecentil xN)/100

F acum= (79 x 110)/100

F acum= 86,9

La frecuencia acumulada 86,9 (que está en la tabla entre las frecuencias acumuladas 82 y 91) se ubica en el intervalo cuyos límites reales son 124,5 y 129,5 (se agrega 0,5 a los dos límites superiores).

86,9 - 82 =4,9 (82 corresponde a la frecuencia acumulada del intervalo de clase 120-124 donde se ha ubicado el nuevo límite inferior 124,5)

(4,9/9)5=2,72 (Dado que 4,9 está calculado para 9 frecuencias y el tamaño de cada intervalo es 5 unidades).

124,4 + 2,72=127,12≈127

 

 

 

 

 

MEDIDAS DE TENDENCIA CENTRAL

 

Las medidas de posición, generalmente denominadas promedios, son considerados como medidas destinadas a reducir el conjunto de datos de una característica observada o investigada a un solo valor representativo. Se puede decir también que el resultado de las medidas solo pretende explicar mediante un valor típico, un conjunto de datos.

 

Algunos establecen diferencias entre estos promedios y los clasifican en medidas de Posición y de Tendencia Central. A los primeros los definen como un valor típico, dentro de la variable, que representa al conjunto de observaciones; a los segundos, como un valor central. De todas formas es un valor que calculamos para describir una característica que suele agrupar muchas clases de datos, y que se diferencian en la forma en que se definen típicamente, y en la cantidad y tipo de información que pierden al resumir la información.

 

Hay dos características que se presentan en múltiples distribuciones de frecuencias:

  • Con frecuencia los datos se acumulan alrededor de un valor central situado entre los dos extremos de la variable que se estudia.

  • Los datos pueden tender a dispersarse y distribuirse alrededor de un valor central, en forma tal que esta tendencia puede ser especificada cuantitativamente (dispersión).

 

Un valor promedio intenta representar o resumir las características relevantes de un conjunto de valores, siendo los más conocidos: media aritmética, mediana, moda, cuartiles, deciles, percentiles.  Por lo tanto, la expresión promedios no sólo hace referencia a la media, sino también a las mencionadas entre otras menos conocidas.

 

 

MEDIDAS DE TENDENCIA CENTRAL

 

Definiremos una medida de tendencia central como un índice de localización central empleado en la descripción de las distribuciones de frecuencia.

 

1. MEDIA ARITMÉTICA:

 

La media aritmética de un conjunto de valores (X1,X2,X3…Xn) es la suma de los mismos, dividida por número total de observaciones que se consideren.

 

Se simboliza indistintamente empleando una rayita sobre la letra que indica la variable, con minúscula para indicar el estimador y con mayúscula para el parámetro. Otra forma de simbolizar la media es utilizando la letra M (mayúscula) colocando como subíndice y entre paréntesis la letra que identifica la variable: M(x). También la a (minúscula). En poblaciones, como parámetro, es empleada con mucha frecuencia la letra miu o mu (μ).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Media aritmética simple=Suma de todos los valores/número de observaciones.

 

Media aritmética ponderada: Suma de los productos/número de observaciones.

 

PARA DATOS AGURPADOS:

 

En un conjunto de datos agrupados Xi corresponde a la marca de clase del intervalo.

 

DESVIACIONES:

 

Son diferencias que se obtienen entre los valores de la variable y un punto fijo, que puede ser un promedio, por lo general, la media, o un valor arbitrario, es decir, cualquier valor que caprichosamente se quiera tomar, ya sea positivo o negativo, dentro o fuera del recorrido, denominado media supuesta u origen de trabajo, y que lo simbolizaremos mediante A u Ot.

 

Se consideran tres clases de desviaciones: respecto a la media; a una medida supuesta; y a la media supuesta tomada en unidades de amplitud del intervalo.

 

 

 

 

 

DESVIACIONES RESPECTO A LA MEDIA ARITMÉTICA

 

Se obtienen calculando las diferencias entre cada uno de los valores que toma la variable y la media, la cual se simboliza mediante di.

 

 

*La suma de las desviaciones respecto a la media aritmética, debe ser siempre igual a cero.

 

DESVIACIONES RESPECTO A LA MEDIA SUPUESTA U ORIGEN DE TRABAJO.

 

El procedimiento es exactamente igual al cálculo anterior, con la diferencia que en vez de tomar el valor de la media elegimos un valor cualquiera; sin embargo es preferible tener un valor de la tabla, preferiblemente un valor central.

 

Una de las tantas utilizaciones que se les da a estas desviaciones, corresponde al calculo de la media aritmética, mediante el denominado primer método abreviado.

 

A=Media supuesta.

 

DESVIACIONES RESPECTO A UN ORIGEN DE TRABAJO TOMADAS EN UNIDADES DE AMPITUD

 

Generalmente se aplica en Datos agrupados cuando la variable es contunua y la amplitud del intervalo es constante. Se calcula dividiendo cada una de las desviaciones respectoi a la media supuesta por la respectiva amplitud.    

 

 

Donde C es la amplitud del intervalo.

 

También se aplica para calcular algunas medidas, entre ellas la media aritmética, conocida como segundo método abreviado.

(Tabla 3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PROPIEDADES DE LA MEDIA ARITMÉTICA

 

  • La suma de las desviaciones respecto a la media siempre debe ser igual a cero.

  • La media aritmética de una constante es igual a la constante.

  • La media aritmética de una constante por una variable será igual al producto de la constante por la media aritmética de la variable.

  • La media de una variable más una constante es igual a la suma de la media más la constante. Esta propiedad es válida para la diferencia.

  • La media de la suma de dos o más muestras es igual a la media de estas medias ponderadas, es decir, las medias deben estar multiplicadas por su respectivo número de elementos, y la suma de estos productos dividida por el total de elementos.

 

 

2. MEDIANA

 

Es el valor de la variable que divide la frecuencia total en dos partes iguales, es decir, aquel valor de la variable que supera y a la vez es superado por más de la mitad de las observaciones en un conjunto de datos. Se entiende entonces que la mediana es el valor central. La mediana no es afectada por cambios que se le hagan a la variable, manteniendo su ordenamiento, aun cuando existan valores demasiado grandes.

 

La mediana se puede aplicar en datos incompletos, por ejemplo, en aquellas distribuciones cuya variable tiene valores extremos no definidos con intervalos titulados “menso de” o “más de”.

Para el cálculo de la mediana, cuando los datos no están agrupados en una tabla de frecuencias, debe tenerse en cuenta las siguientes observaciones:

 

  • Se ordenan los datos de menor a mayor o de mayor a menor.

  • Se determina el valor central, ya sea mediante la observación directa de los datos o a través de la aplicación de la fórmula: (n+1)/2. El resultado nos señala el número de la observación en que se localiza la mediana.

 

Número impar se observaciones:

 

(n+1)/2=b

 

El resultado “b” señala que la mediana está localizada en la posición “b” del conjunto de datos ordenados.

Ej: Los datos 5, 1, 2, 8, 10. Una vez ordenados: 1, 2, 5, 8, 10.

 

Aplicando la formula (n+1)/2= (5+1)/2= 3 Lo que significa que el dato se encuentra en la posición 3, que corresponde al número 5.

 

Número impar de observaciones:

 

Supongamos los datos: 5, 1, 2, 8, 7, 10.

Ordenando: 1, 2, 5, 7, 8, 10. Aplicando la formula (n+1)/2= (6+1)/2=3,5. Esto significa que la mediana se encuentra entre las posiciones 3 y siguiente, ósea la posición 4. En este caso la mediana es el promedio de ambas posiciones.

 

Me=(5+7)/2=6. Mediana=6.

 

MEDIANA EN DATOS AGRUPADOS

 

Para datos agrupados debe establecerse si la variable es discreta o continua; luego, observamos si al dividir por dos el total de observaciones, el valor se encuentra en la columna de las frecuencias absolutas acumulados. Es este caso se pueden presentar dos situaciones al calcular la mediana, por lo que es necesario tener en cuenta:

 

  • Se obtienen las frecuencias absolutas acumuladas, sumando las sucesivas frecuencias, ya sea de arriba hacia abajo, o en sentido contrario, sin que este procedimiento afecte el resultado.

 

  • Dividimos por dos el total de observaciones: n/2.

 

Variable discreta:

 

a) Cuando el valor de n/2 puede observarse; dicho valor lo simbolizamos por Fj-1 y al inmediatamente superior por Fj (donde se encuentra localizada la mediana).

 

 

 

 

 

 

 

 

 

 

 

(Tabla 4)

b) Si n/2 no se encuentra en la tabla de frecuencias.

 

 

 

 

 

 

 

 

 

 

 

 

(Tabla 5)

 

Como  n/2 no se encuentra en la tabla de frecuencias:

 

Como Fj-1 < n/2 entonces  Me=Xj; es decir, Me=3

 

Variable continua:

 

  • Si n/2 se encuentra en la tabla:   

    n/2= 50/2= 25  Entonces: Me=Xj

 

 

 

 

 

 

 

 

 

 

 

(Tabla 6)

3. MODA:

 

Es definida como aquel valor de la variable que más se repite, es decir que tienen la máxima frecuencia de la distribución. Por ejemplo en la tabla 1, la moda es 6 ya que tiene la máxima frecuencia que corresponde a 5; y en la tabla 6, la moda es 55,5; que corresponde a la marca de clase que tiene frecuencia 15 y que es la máxima frecuencia.

 

4. MEDIA GEOMÉTRICA:

 

La media geométrica de n cantidades positivas es la raíz positiva enésima del producto de dichas cantidades. Se simboliza por Mg, Mo o G, y es aplicada en todos aquellos casos en los que la variable muestra un crecimiento geométrico, como en el de la población de un país o el de un capital colocado a una tasa de interés compuesto, es decir, con tendencia exponencial.

 

 

 

 

Ej: Hallar la media geométrica de 6, 8, 6, 10, 5

 

 

 

*Tenga en cuenta que el símbolo π, no hace referencia al número pi, sino al símbolo de productoria, que se lee como “multiplicación” y que se simboliza con la legra griega π (pi).

 

Cuando alguno de los valores es cero, el producto será igual a cero; además ninguna observación puede ser negativa, pues nos daría una raíz imaginaria cuando n sea par y la cantidad subradical negativa. En estos casos es preferible utilizar la fórmula:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DATOS AGRUPADOS

 

Las fórmulas de cálculo para datos agrupados varían ya que la variable debe estar multiplicada por las respectivas frecuencias absolutas.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Para un conjunto de datos agrupados el procedimiento es igual, teniendo en cuenta que la variable Xi corresponde a la marca de clase.

 

5. MEDIA ARMÓNICA

 

El reciproco de la media armónica es igual a la media del reciproco de los valores que toma la variable. Se simboliza mediante Mn; M-1; MA ó H1.

 

El valor obtenido con la aplicación de esta medida será menor que la media geométrica, la que a su vez es menor que la media aritmética.

 

Media armónica<Media geométrica<Media aritmética

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

MA= 50/20,33= 2,46

 

 

 

RELACIÓN ENTRE MEDIA MEDIANA Y MODA

 

 

  • En una distribución simétrica y además unimodal, la media, la mediana y la moda son iguales. En este caso, se prefiere el uso de la media.

  • Los tres promedios dependen de la forma que tome la distribución. Si es simétrica, o ligeramente asimétrica, debe utilizarse la media; en cambio cuando esto no ocurre, la mediana es la más indicada.

  • Si una distribución tiene más de un máximo en la frecuencia, la sola aplicación de la media, o la mediana, puede ocultar propiedades interesantes.

  • La media no se puede en calcular en distgribuciones con intervalos abiertos, por tanto, la mediana y la moda son las más indicadas.

  • Dos medianas o dos modas no se pueden promediar para obtener  el valor promedio de dos muestras combinadas, pero si se puede realizar con la media aritmética.

  • En una distribución de frecuencias, cuando la amplitud del intervalo no es constante, no es aconsejable la aplicación de la moda, siendo preferible el uso de la media o mediana.

  • La media es la más confiable, ya que presenta menos fluctuación entre el resultado en una muestra comparada con el de otras obtenidas de la misma población, por tanto proporciona una mejor estimación del parámetro.

  • La media aritmética es sensible a cualquier cambio que se haga en los valores que toma la variable, y en especial cuando uno de ellos es exageradamente grande. La mediana y la moda no se afectan mientras el cambio no se realice en su propio valor.

  • Se considera que en gran parte de las distribuciones, la distancia entre la media y la moda es tres veces la distancia entre la media y la mediana. Esta relación fue establecida por                 y sirve para calcular una de ellas en función de la otras dos.

 

Media-Moda = 3(Media-Mediana)

 

 

 

 

(Tabla 7)

(Tabla 8)

 

Las gráficas muestran las posiciones relativas de la media, la mediana y la moda para curvas de frecuencia asimétricas a derecha e izquierda, respectivamente. Para curvas simétricas, los tres valores coinciden.

OBSERVACIONES EN TORNO A LAS MEDIDAS DE TENDENCIA CENTRAL

 

  • La media es muy sensible a las mediciones extremas cunando estas medidas no están equilibradas en ambos lados de la misma.

 

  • La suma de los cuadrados  de las desviaciones con respecto a la media aritmética es menor que la suma de los cuadrados de las desviaciones con respecto a cualquier otro puntaje o puntaje potencial.

 

  • El método de localización de la media mediante la búsqueda  de la suma de los cuadrados se llama método de                                         .

  • El método de mínimos cuadrados es de gran importancia en la Estadística, particularmente cuando se aplica al ajuste de una curva a una serie de puntos en el plano.

 

  • La mediana es insensible a los valores extremos.

 

  • Una distribución que contenga dos puntos máximos y cuyas graficas produzcan la apariencia de dos jorobas, se denominan bimodales, y si contiene más de dos jorobas se denomina multimodal.

 

  • La media aritmética permite el empleo en análisis estadístico más avanzado.

 

  • La media generalmente proporciona una mejor estimación del parámetro correspondiente de la población.

 

  • Cuando la distribución es visiblemente asimétrica la media proporciona una estimación falsa de la tendencia central.

 

  • La mediana es la medida que se elige en las distribuciones en las cuales hay valores indeterminados.

 

  • La moda es la medida apropiada siempre que se desee una estimación apropiada rápida de la tendencia central, o cuando estamos interesados únicamente en el caso típico.

 

  • Cuando la Media es mayor que la Mediana, puede decirse que la distribución tiene asimetría positiva, cuando la Media es menor que la Mediana, la distribución tiene asimetría negativa.

 

  • La mediana se usa frecuentemente como la medida más adecuada cuando las distribuciones son visiblemente asimétricas.

 

MEDIDAS DE DISPERSIÓN

 

Las medidas de dispersión complementan e indican cómo se distribuyen o se dispersan los valores observados a ambos lados del promedio, es decir, cómo se concentran alrededor del valor central o valor típico.

Las medidas de dispersión, variabilidad o variación nos indican si esos datos están próximos entre sí o sí están dispersos, es decir, nos indican cuán alejados se encuentran los datos. Estas medidas de dispersión nos permiten apreciar la distancia que existe entre los datos a un cierto valor central e identificar la concentración de los mismos en un cierto sector de la distribución, es decir, permiten estimar cuán dispersos están dos o más distribuciones de un conjunto de datos.

 

EL RANGO O RECORRIDO ( R ):

 

Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor más alto (Xmax.) y el más bajo (Xmin) en un conjunto de datos.

 

Rango para datos no agrupados;

 

R = Xmáx.-Xmín 

 

Ej. Dados los datos, 2,54, 100, 45 y 3. El rango es:

 

R=100-2=98

 

Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el rango tomando el límite superior de la última clase menos el límite inferior de la primera clase.

 

Rango para datos agrupados:

 

R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)


Ej. En la tabla 6. El rango es:

 

R=68-33.1=34,9

En la tabla 2, el rango es:

R=154-80=74

 

Aunque el rango es una medida significativa, se usa poco dada su notoria inestabilidad, ya que solo está influenciado por sus valores extremos.

 

LA DEVIACIÓN MEDIA:

 

La deviación media de un conjunto de datos es la media de las desviaciones absolutas.

 

 

 

 

Propiedades de la Desviación Media:

 

Cuan mayor es la desviación media tanto mayor es la dispersión de los datos. En una distribución, la desviación media es menos útil puesto que no existe una relación matemática precisa entre la desviación media, como tal, y la situación de los valores o calificaciones dentro de la distribución.

 

EL RANGO INTERCUARTIL:

 

Con el fin de superar la inestabilidad del rango como medida de dispersión, se emplea en ocasiones el rango intercuartil. El rango intercuartil se calcula restando la calificación correspondiente al percentil veinticincoavo (primer cuartil: Q1) de la calificación correspondiente al setentaicincoavo (tercer cuartil Q3).

 

A pesar de que esta medida es más adecuada que el rango, tiene dos importantes inconvenientes:

  • Como el rango, no permite hacer una interpretación precisa de una calificación dentro de la distribución.

  • Como a la mediana, no puede hacérsele intervenir en ninguna de las relaciones matemáticas importantes de la inferencia estadística.

 

LA VARIANZA (S² ó δ² ):

 

La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de referencia es la media aritmética de la distribución. Más específicamente, la varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando más cerca estén las Xi a su media aritmética menos es la varianza.

 

 

 

LA DESVIACIÓN ESTÁNDAR (S ó δ):

 

Es una medida de la cantidad típica en la que los valores del conjunto de datos difieren de la media. Es la medida de dispersión más utilizada, se le llama también desviación típica. La desviación estándar siempre se calcula con respecto a la media y es un mínimo cuando se estima con respecto a este valor.

Si se conoce la varianza, la desviación estándar es la raíz cuadrada positiva de esta. A la desviación se le representa por la letra minúscula griega "sigma" ( δ ) ó por la letra S mayúscula.

 

Propiedades de la Desviación Estándar

 

  • La desviación estándar es siempre un valor no negativo.

  • Es la medida de dispersión óptima por ser la más pequeña.

  • La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable

  • Si a todos los valores de la variable se le suma una misma constante la desviación estándar no varía.

  • Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar queda multiplicada por el valor absoluto de dicha constante.


 


 

 

 

LA DISTRIBUCIÓN NORMAL

La media de una distribución normal (ᶙ) divide en dos partes iguales la curva, correspondiéndole a cada lado el 50%. Si nos alejamos del centro a la derecha, una desviación estándar se incluirá en esta área, aproximadamente del 34,13% de las observaciones. Como es simétrica, se toma una vez la desviación típica a lado y lado del promedio, el total será 68,26%.

Dentro del dominio de la variable, la media aritmética, en general, se dice que debe comprender tres veces la desviación normal; por lo tanto, se concluye que en una distribución normal, la desviación típica debe aproximarse a la tercera parte de la desviación aritmética.

La distribución Normal, o de Gauss, es la distribución teórica de variable continua más utilizada. Además, se trata de una distribución simétrica, unimodal y asintótica al eje horizontal o abscisa, que permite analizar numerosas variables resultantes de investigaciones de carácter socio-económico que presentan un comportamiento aproximado a la distribución normal.

 

Se podrán comparar las desviaciones típicas o las varianzas de dos o más distribuciones, si se quiere determinar cuál de ellas tiene una menor o mayor variabilidad absoluta, siempre y cuando que las variables estén dadas en las mismas unidades de medida.

Tabla proporciones de área bajo la curva normal

 Obtención del área entre dos calificaciones dados

 

En la tabla de valores tabulados del área bajo la curva normal, la columna encabezada por Z representa la desviación respecto a la media expresada en unidades de desviación estándar. En la tabla podemos determinar la proporción del área total que se encuentra entre una calificación dada y la media, y el área más allá de una calificación dada.

Ej: Si un individuo obtuvo una calificación de 24,65 en una variable normalmente distribuida con ᶙ=16 y=5, su calificación Z sería:

Encontramos en la tabla que para un Z de 1,74 corresponde un área de 0,4582 o sea que el 45,82% del área está situada entre dicha calificación y la media. Puesto que en una distribución simétrica el 50% del área también está situada por debajo de la medida, podemos concluir que el 95,82% del área total está distribuida por debajo de una calificación de 24,65. Nótese que ahora podemos interpretar esta calificación como un rango percentil de 95,82% 

Estadística Descriptiva:

Tablas estadísticas y Tratamiento gráfico

Estadística Descriptiva:

Medidas de Síntesis (I)

Estadística descriptiva:

Medidas de síntesis (II)

Análisis de relación entre dos variables cuantitativas

Coeficiente de correlación de Pearson

Análisis de relación entre dos variables cuantitativas:

Coeficiente de regresión

Análisis de la relación entre dos variables cualitativas:

Test Chi cuadrado. Módulo 4

Análisis de la relación entre dos variables cualitativas. Chi cuadrado: significación Módulo 4

Análisis de la relación entre dos variables, cualitativa y cuantitativa:

T de Student Módulo 5

Análisis de la relación entre dos variables cualitativa y cuantitativa t de Student II Módulo 5

Test no paramétricos: U de Mann-Whitney. Módulo 6

Test no paramétricos: Test de Wilcoxon. Módulo 6

CÓMO MENTIR CON ESTADISTÍCAS -DARRELL HUFF  & IRVING GEIS    

REGRESIÓN LINEAL

 

El procedimiento estadístico que se utiliza para este fin se conoce como análisis de regresión que permite establecer la relación funcional o ecuación matemática que relaciona las variables, así como la fuerza de esa relación. El término regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los niños nacidos de padres altos tiende a retroceder o “regresar” hacia la estatura media de la población.

 

Galton utilizó la palabra regresión como el nombre del proceso general de predecir una variable (la estatura de los niños) a partir de otra (la estatura del padre o de la madre). Más tarde, los estadísticos acuñaron el término regresión múltiple para describir el proceso mediante el cual se utilizan varias variables para predecir otra. (Devore, 2005; citado por Cardona, González, Rivera y Cárdenas, 2013).

La regresión lineal es un modelo de pronostico estadistico que permite encontrar un valor esperado de una variable aleatoria a cuando b toma un valor específico.  

 

El objetivo de un análisis de regresión es determinar la relación que existe entre una variable dependiente y una o más variables independientes.

 

 

CORRELACIÓN

 

Muchos problemas que se ocupan de las ciencias del comportamiento , van Más allá de la descripción de una variable única en sus varias y diversas ramificaciones, es el caso cuando se nos pide determinar las relaciones entre dos o más variables.A fin de expresar cuantitativamente hasta qué grado están relacionadas dos variables, es necesario calcular el llamado coeficiente de correlación. Hay muchas clases de coeficientes de correlación. La decisión de cuál emplear para una serie de datos específicos depende de factores tales como el tipo de escala o medida en la cual se expresa la variable, la naturaleza de la distribución fundamental (continua o discreta) y la característica de la distribución de las calificaciones (lineal o no lineal).

 

No importa qué técnica de correlación se emplee, pues todas tienen características comunes:

 

  1. Se obtienen dos series de medidas en los mismos individuos (o sucesos) o en pares de individuos que tengan alguna forma de relación.

  2. Los valores de los coeficientes de relación varían entre +1,00 y -1,00. Ambos extremos representan relaciones perfectas entre las variables y 0,00 representa la ausencia de relación

  3. Una variable positiva significa que los individuos que obtienen calificaciones altas en una variable, tienden a obtener calificaciones altas en la otra. La aseveración contraría también es válida, es decir, los individuos que obtienen una calificación baja en una variable tienden a obtener una calificación baja en la segunda variable.

  4. Una relación negativa significa que los individuos que obtienen una calificación baja en una variable, tienden a obtener una calificación alta en una segunda variable. Por el contrario, los individuos que tienen una calificación alta en una variable, tienden a obtener una calificación baja en una segunda variable.

(Haber & Runyon, 1973)

 

CORRELACIÓN LINEAL

 

 

El objetivo principal del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. Si no existe un cambio definido en los valores de y conforme aumentan los valores de x, se dice que no hay correlación o que no existe relación entre x y y. En cambio, si al aumentar x hay una modificación definida en los valores de y, entonces existe correlación. En este último caso la correlación es positiva cuando y tiende a aumentar, y negativa cuando y decrece. Si tanto los valores de x como los de y tienden a seguir una dirección recta, existe una correlación lineal. La precisión del cambio en y conforme x incrementa su valor, determina la solidez de la correlación lineal. Hay una correlación lineal perfecta cuando todos los puntos están situados a lo largo de una recta en forma exacta. Esta correlación puede ser positiva o negativa, dependiendo de qué y aumente o disminuya conforme x aumenta. Si los datos forman una recta vertical u horizontal no existe correlación, pues una variable no tiene efecto sobre la otra.

(Robert Johnson, Estadística Elemental, 1988; pág. 99)

Coeficiente de correlación de Karl Pearson

 

 

 

 

 

 

 

 

RELACIÓN Y DIFERENCIA ENTRE LA ESTADÍSTICA Y LA PROBABILIDAD

De no ser por las leyes de la probabilidad, no podría haber teoría estadística. La probabilidad estudia la oportunidad de que algo ocurra cuando se conocen las posibilidades, que la estadística pregunta cuales son esas posibilidades a partir de los resultdos de una muestra.

bottom of page