Guía de aprendizaje 1.2

Introducción

El Análisis Descriptivo permite examinar información contenida en una base de datos, procesarla y mediante la construcción de tablas, indicadores y gráficos y con esto elementos realizar un primer análisis de la información, permitiendo así tener una primera impresión de lo que dicen los datos, con la cual se pueden construir hipotesis que luego podran ser verificadas.

En este proceso es importante conocer el tipo de variable ( cualitativa o cuantitativa) y su tipo de escala (nominal, ordinal en el caso de las cualitativas o de intervalo, de razón en el caso de las cuantitativas), con fin de seleccionar la manera adecuada de construir tablas que resuman la información e indicadores en cada caso.

En esta unidad se tratara en primer lugar el resumen de información mediante tablas de frecuencia y en una segunda parte lo relacionado con los indicadores de posición, centro o tendencia, dispersión e indicadores de forma.

Objetivos de la unidad

Al finalizar esta unidad el estudiante estará en capacidad de RESUMIR e INTERPRETAR información mediante la construcción de TABLAS DE FRECUENCIA, INDICADORES DESCRIPTIVOS que permitan un correcto análisis de datos.

Duración

La presente unidad será desarrollada durante la segunda semana del semestre ( 2 al 8 de agosto de 2021). Ademas del material suministrado contaran con el acompañamiento del profesor en dos sesiones (lunes, miércoles y viernes) y de manera asincrónica con foro de actividades académicas. Los entregables para esta unidad deberán enviarse a través de la plataforma Brightspace hasta el 08 de agosto.

Para alcanzar los objetivos planteados se propone realizar las siguientes actividades

Cronograma de trabajo

Actividad103	Descripción
Trabajo individual	Actividad 103 - Caso 101 : Realice las actividades consignadas en el caso101, adjunte y envíe las respuesta a la plataforma de Brightspace en formato pdf
Recursos	Video indicadores estadísticos
	Vídeo calculo indicadores con tablas de distribución
Fecha	08 de agosto de 2021
Hora	23:59

Actividad104	Descripción
Trabajo individual	Actividad 104 : A partir de la información contenida en la base de datos seleccionada en la Actividad 102, realice un análisis de al menos dos variables cualitativas y dos cuantitativas teniendo como soportes las tablas de frecuencia y los indicadores estadísticos correspondiente.
Recursos	Base de datos actividad-1 Unidad 1.1
	Excel
	RStudio
	Código u1.2
Fecha	08 de agosto 2021
Hora	23:59 hora local

Criterios de evaluación

Reconocer e interpretar las diferentes formas de resumir los datos a través de tablas de frecuencia para los casos de variables cuantitativas y para variables cualitativas.
Calcular e interpretar los diferentes indicadores de posición, tendencia, dispersión y forma que permitan un correcto análisis de los datos
Utilizar herramientas computacionales para el procesamiento de la información.

Los entregables completos y enviados dentro de los tiempos establecidos otorgarán 20 puntos en cada caso, para un total de 40 puntos.

Entregables

Entregable	Descripción
Entregable 1:	Actividad103.pdf : Caso 101
Entregable 2:	Actividad104.pdf : Aplicar lo aprendido a base de datos actividad102
Fecha**	Domingo 08 de agosto de 2021
Hora límite	23:59 hora local

Presentaciones

Presentación 104 - ago 01 2021

Presentación 105 - ago 04 2021
Actividad 105
R en linea

Caso de estudio 101

Caso de estudio : CARACTERISTICAS DE LA CERVEZA

La siguiente información recoge cinco de las principales características de un grupo de marcas de cerveza que fue recogida con la finalizad de clasificar los productos y además permita realizar un análisis descriptivo de las 69 marcas recogidas

Inicialmente el director de investigación desea su apoyo en una primera etapa del análisis que consiste en resumir la información suministrada en tablas e indicadores que le permitan validar algunas de sus hipótesis.

La base compartida contiene información sobre 69 marcas de cervezas que son distribuidas en la ciudad. Las variables recogidas corresponden a:

precio de la presentación en caja de seis botellas de 12 onzas,
contendo de calorias congtenidas en una unidad de 12 onzas,
porcentaje de contenido de alcohol por 12 onzas de contenido,
tipo de cerveza (1-lager artesanal, 2-clara artesanal, 3-lager importada, 4-cerveza normal y helada, y 5-cerveza baja en calorías y sin alcohol) y
país de origen (1-nacional, 2- importada).

Su trabajo consiste en escribir un primer informe basado en una evaluación descriptiva, que contenga las tablas que resumen la información para cada variable de base de datos y resumen de sus indicadores estadísticos.

Finalmente adjunte un análisis de los resultados obtenidos.

Producto	Precio	Calorías	Alcohol	Tipo	Origen
c1	6.24	159	5.2	1	1
c2	4.49	160	5.0	1	1
c2	5.96	160	4.9	1	1
…	……..	…………	……….	……..	……..
…	……..	…………	……….	……..	……..

DATOS: beer.xlsx

Recursos

¿Que es un indicador?

Cuando nos subimos a un auto observamos un tablero con muchos indicadores que permiten al conductor validar el estado del vehículo. Todos los podemos visualizar al tiempo con el fin de darnos una idea del nivel de combustible, la temperatura, el estado de la batería, si alguna puerta esta abierta, la velocidad a la que se viaja, entre otros.

Al igual que la situación anterior cuando nos enfrentamos a una análisis de datos, requerimos resumirlos en indicadores, tablas y gráficos que nos permitan un fácil análisis de ellos

Tablas de frecuencia

Tablas de frecuencia para variables cualitativas

Categorías	frecuencia absoluta	frecuencia relativa

Las distribuciones de frecuencia o también llamadas tablas de frecuencia nos sirven para agrupar los datos y así permitir resumir para poder tener una idea mas clara de sus características.

Para las variables cualitativas la tabla posee 3 columnas :

C1: los diferentes valores que toma la variable.
C2: frecuencia absoluta que consiste en el conteo para cada uno de los valores distintos que toma la variable.
C3: frecuencia relativa que corresponde al porcentaje la cantidad de datos para cada los valores

# Forma simple
library(readxl)
bd0052 <- read_excel("data/bd0052.xlsx")
bd0052$carrera[bd0052$carrera=="Biologia"]="Biología"
data.frame(table(bd0052$carrera))

                    Var1 Freq
1               Biología   18
2       Ingeniería Civil   11
3 Ingeniería de Sistemas    1
4 Ingeniería Electrónica    4
5    Ingeniería Mecánica    2

#utilizando summarytools
library(summarytools)
t1=freq(bd0052$carrera, cumul = FALSE, headings = FALSE)
t1


                               Freq   % Valid   % Total
---------------------------- ------ --------- ---------
                    Biología     18     50.00     50.00
            Ingeniería Civil     11     30.56     30.56
      Ingeniería de Sistemas      1      2.78      2.78
      Ingeniería Electrónica      4     11.11     11.11
         Ingeniería Mecánica      2      5.56      5.56
                        <NA>      0                0.00
                       Total     36    100.00    100.00

Nota: paquete summarytools

Tablas de frecuencia para variables cuantitativas

Para las variables cuantitativas las tablas de frecuencias tiene una presentacion diferente a la vista anteriormente. Como se trata de variables con una gran numero de valores diferentes, es necesario dividirlas por intervalos .

library(agricolae)
h2=with(bd0052,graph.freq(acumulado,plot=FALSE));t2=table.freq(h2);
colnames(t2) = c("  LI  ", "  LS  ", "marca clase'", "Frec.Abs","Frec.Rel", "Frec.Abs.Ac","Frec.Rel.Ac")
t2

    LI     LS   marca clase' Frec.Abs Frec.Rel Frec.Abs.Ac Frec.Rel.Ac
1   3.30   3.55        3.425        9     25.0           9        25.0
2   3.55   3.80        3.675        6     16.7          15        41.7
3   3.80   4.05        3.925       10     27.8          25        69.4
4   4.05   4.30        4.175        8     22.2          33        91.7
5   4.30   4.55        4.425        0      0.0          33        91.7
6   4.55   4.80        4.675        3      8.3          36       100.0

Frec.Abs : Frecuencia absoluta
Frec.Rel : Frecuencia relativa

Frec.Abs.Ac : Frecuencia Absoluta Acumuada
Frec.Rel.Ac : Frecuencia Relativa Acumulada

library(stringr)
data("iris")
t1=freq(iris$Species, cumul = FALSE, headings = FALSE)
t1


                   Freq   % Valid   % Total
---------------- ------ --------- ---------
          setosa     50     33.33     33.33
      versicolor     50     33.33     33.33
       virginica     50     33.33     33.33
            <NA>      0                0.00
           Total    150    100.00    100.00

Rango percentil

Es un número que divide la muestra en dos partes. \(x\) % de los datos de la muestra son iguales o menores que \(P_x\) y un \((100-x)\) % por encima de el.

Para ilustrar el concepto, pensemos en que participamos de una carrera y que el grupo está conformado por 100 corredores. El percentil dará cuenta de mi posición dentro del grupo. Por ejemplo si mi posición en la carrera en orden de llegada es la décima, indica que por detrás de mi están 90 atletas. Indica esto que soy el percentil 90 (\(P_{90}\)).

Participé en una carrera K10 y ocupé el percentil 30 : \(P_{30}\)
Mi nota en un examen de matemáticas ocupó el percentil 90 : \(P_{90}\)
Que significa: \(P_{25}\) ; \(P_{50}\) ; \(P_{75}\)

Diagrama de cajas

library(ggplot2);bd0052[23,5]=5.1; bd0052[24,5]=2.6; ggplot(bd0052, aes(x=acumulado))+geom_boxplot()

atipico | \(LI=Q_{1}- 1.5(Q_{3}-Q_{1})\) | \(Q_{1}\) | \(Q_{2}\) | \(Q_{3}\) | \(LS=Q_{3}+ 1.5(Q_{3}-Q_{1})\) | atipico

Características de los datos

Tendencia central	Dispersión	Forma
media	rango	sesgo o asimetría
mediana	varianza	curtosis
moda	desviación estándar
media truncada	coeficiente de variación
rango medio
media armónica
media geométrica

Media aritmética

\[\widehat{x}= \frac{1}{n} \sum_{i=1}^{n} x_{i}\]

Es una de los indicadores estadísticos mas conocidos

Propiedades de la media : + La suma de las desviaciones de los datos con respecto a la media es cero. \(\sum (x_{i}-\bar{x})=0\).

La suma de los cuadrados de las desviaciones de los datos con respecto a un valor {} es mínimo cuando \(a=\bar{x}\).
Si \(x_{i}=k\) para todo \(i\), entonces, \(\bar{x}=k\).
Si todos los datos de una variable se multiplican por una constante \(k\), es decir \(y_{i}=kx_{i}\), entonces \(\bar{y}=k\bar{x}\)
Si \(z_{i}=a x_{i}+b y_{i}\), donde: a, b constantes y \(x_{i}\), \(y_{i}\) variables, entonces: \(\bar{z}=a\bar{x}+b\bar{y}\).

Ejemplo1

mean(mtcars$mpg,na.rm = TRUE)

[1] 20.09062

Ejemplo2

mean(bd0052$acumulado, na.rm = TRUE)

[1] 3.8875

Ejemplo3

x=1:10
x

 [1]  1  2  3  4  5  6  7  8  9 10

cat("media :",mean(x))

media : 5.5

Ejemplo4

x[10]=20
x

 [1]  1  2  3  4  5  6  7  8  9 20

cat("media :" ,mean(x))

media : 6.5

## Mediana :

Me :Es el número que divide la muestra en dos partes de igual proporción (50% : 50%). Es decir que corresponde a:

\(P_{50} = D_{5} = Q_{2}\)

también corresponde a la linea central del diagrama de cajas.

median(bd0052$acumulado,na.rm = TRUE)

[1] 3.875

boxplot(bd0052$acumulado, las=1, horizontal = TRUE, col = c1)

La Me corresponde a la linea central de a caja en el diagrama de cajas

La mediana es mas robusta a los cambio en los datos extremos. En presencia de datos atípicos es mejor utilizar la mediana en lugar que la media.

x=1:10
x

 [1]  1  2  3  4  5  6  7  8  9 10

cat("media :" ,median(x))

media : 5.5

x[10]=20
x

 [1]  1  2  3  4  5  6  7  8  9 20

cat("media :" ,median(x))

media : 5.5

La moda

Mo : Dato o valor que más se repite. Es utilizada como medida de tendencia central en variables cualitativas o o en cuantitativas discretas con pocos valores. En una tabla o gráfico se puede distinguir fácilmente.

#utilizando summarytools
library(summarytools)
t1=freq(bd0052$carrera, cumul = FALSE, headings = FALSE)
t1


                               Freq   % Valid   % Total
---------------------------- ------ --------- ---------
                    Biología     18     50.00     50.00
            Ingeniería Civil     11     30.56     30.56
      Ingeniería de Sistemas      1      2.78      2.78
      Ingeniería Electrónica      4     11.11     11.11
         Ingeniería Mecánica      2      5.56      5.56
                        <NA>      0                0.00
                       Total     36    100.00    100.00

moda : Ingeniería Civil

Otras medidas de centro

Media truncada

mean(bd0052$acumulado, na.rm = TRUE, trim = 0.10)

[1] 3.862333

Rango medio

\(\frac{1}{2}(max(x)+min(x))\)

(max(bd0052$acumulado,na.rm = TRUE)+min(bd0052$acumulado,na.rm = TRUE))/2

[1] 4.025

Media geométrica

este indicador de tendencia central se utiliza para promediar tasa de crecimiento o de interés. Para encontrar su valor se multiplican los valores de \(n\) tasas incrementadas en uno. A ese producto se le extrae la raíz n-esima.

Media armónica

Este indicador corresponde al inverso de la media aritmética

Problema reconocimiento de grupo

Grupo 1	Grupo 2
Edades : 19, 22, 18, 21	Edades : 39, 38, 2, 1
Promedio : 20 años	Promedio : 20 años

Hace falta otro indicador que nos oriente de cual grupo hablamos cuando solo tenemos como informacion : media = 20 años.

Indicadores de Dispersión

Rango

\(r = max(x) - min(x)\)

En caso de los dos grupos:

Grupo 1	Grupo 1
\(\bar{x} = 20\) años	\(\bar{x} = 20\) años
\(r = 4\) años	\(r = 38\) años

Indicador muy útil cuando se deben realizar cálculos rápidos

Varianza

Es la medida de dispersión más utilizada en estadística y está definida por

\[s^{2}=\frac{1}{n-1} \sum_{i=1}^{n} (x_{i}-\bar{x})^{2}\]

Propiedades de la varianza

\(s^{2} = \frac{1}{n} \sum x_{i}^{2}- (\bar{x})^{2}\)
La varianza es siempre no negativa \(s^{2} >=0\)
La varianza de una constante es cero \(s_{k}^{2}=0\)
Si \(y_{i}=k x_{i}\), entonces \(s_{y}^{2}= k^{2} s_{x}\)
Si \(y_{i}=x_{i} + k\) , entonces \(s_{y}^{2} = s_{x}\)
Si \(z_{i} = a x_{i} + b y_{i}\), entonces \(s_{z}^{2}\) = \(a^{2}s_{x}^{2}\) + \(b^{2}s_{y}^{2}\) + \(2ab\) \(cov(xy)\)

La varianza se puede interpretar como el promedio de las diferencias cuadradas entre cada uno de los datos y la media

El problema de la varianza es su interpretación

Sus unidades son al cuadrado y en la mayoría de los casos no es posible interpretarlos. Por esta razón se optó por utilizar otra mediada de dispersión

Desviación estándar

Es la raíz cuadrada de la varianza

\[s=\sqrt{s^{2}}\]

Nota : no aplican todas las propiedades de la varianza

cat( "Varianza :",var(bd0052$acumulado), "\n" )

Varianza : 0.1293279

cat("Desviación estándar :",sd(bd0052$acumulado))

Desviación estándar : 0.3596218

Aunque la desviación estándar reduce el problema debido a tener las mismas unidades de la variable, es útil para comparación de dos grupos

Coeficiente de variación

Nos indica que tan grande o que tan pequeña es la desviación estándar con respecto a su media

\[CV= \dfrac{s}{\bar{x}} \times 100 \% \]

Existen diferentes reglas empíricas para la interpretación del coeficiente de variación. Una de ellas establece como límite el 20% para separar los grupos homogéneos de los heterogéneos Por lo general se utiliza un valor hasta el 20% para determinar que un grupo de datos son homogéneos, de lo contrario se calificará como heterogéneo.

cat("Coeficiente de variación :",sd(bd0052$acumulado)/mean(bd0052$acumulado)*100)

Coeficiente de variación : 9.250722

Indicadores de forma

Curtosis

Se mide a través del coeficiente de curtosis que mide cuan puntiaguda es una distribución respecto a la curva de la distribución normal entandar.

De acuerdo con su valor, la puntudez de los datos puede clasificarse en tres grupos:

Leptocúrtica, con valores grandes para el coeficiente (CA>0)
Mesocúrtica, con valores medianos para el coeficiente (CA=0)
Platicútrica, con valores pequeños para el coeficiente (CA<0)

Asimetría o sesgo

Mide que tanto la forma de la distribución de frecuencias de los datos es simétrica o no con respecto a la media. Esta característica de los datos se mide a través del coeficiente de asimetría o sesgo.

Es simétrica si el valor del indicador es 0 (\(\bar{x}=Me\))
Es asimétrica a la izquierda si el valor del indicador es negativo (\(\bar{x}<Me\))
Es asimétrica a la derecha si el valor del indicador es positivo (\(\bar{x}>Me\))

Asimetria negativa : Poco con poco, mucho con mucho
Simetrica : Poco con poco, poco con mucho, mucho al rededor de un centro
Asimetria positiva : Mucho con poco, poco con mucho

bd0052 <- read_excel("data/bd0052.xlsx")
bd0052$carrera[bd0052$carrera=="Biologia"]="Biología"
summarytools::descr(bd0052$acumulado)

Descriptive Statistics  
value  
N: 36  

                     value
----------------- --------
             Mean     3.89
          Std.Dev     0.36
              Min     3.34
               Q1     3.55
           Median     3.88
               Q3     4.12
              Max     4.71
              MAD     0.44
              IQR     0.54
               CV     0.09
         Skewness     0.43
      SE.Skewness     0.39
         Kurtosis    -0.61
          N.Valid    36.00
        Pct.Valid   100.00

summarytools::descr(mtcars$mpg)

Descriptive Statistics  
value  
N: 32  

                     value
----------------- --------
             Mean    20.09
          Std.Dev     6.03
              Min    10.40
               Q1    15.35
           Median    19.20
               Q3    22.80
              Max    33.90
              MAD     5.41
              IQR     7.38
               CV     0.30
         Skewness     0.61
      SE.Skewness     0.41
         Kurtosis    -0.37
          N.Valid    32.00
        Pct.Valid   100.00

d1=density(bd0052$acumulado, na.rm=TRUE); plot(d1)

data("mtcars")
d2=density(mtcars$mpg); plot(d2)

Actividades

Actividad 1 : Realice las actividades consignadas en el Taller 1-01. Adjunte y envíe las respuesta a la plataforma de Brightspace en formato pdf.
- Nota: RMarkdown permite realizar el trabajo fácilmente

Actividad 2 : A partir de la información contenida en la base de datos seleccionada en la Unidad 1.1, realice un análisis de al menos una variable cualitativa y una cuantitativa teniendo como soportes las tablas de frecuencia y los indicadores estadísticos correspondiente.

Lo podemos lograr…

Daniel Enrique González Gómez

Imagen tomada de : https://pixabay.com/es/images/search/paisaje/

Tablas de frecuencia e indicadores estadísticos

Modulo 1- Unidad 1.2

dgonzalez