En esta unidad se presenta la Metodología Estadística como estrategia que permite visualizar las diferentes etapas presentes en una investigación o análisis de datos :
Haciendo especial referencia a la construcción, depuración y documentación de las bases de datos, acciones necesarias para un buen análisis de datos.
Con este ropósito se hará uso del portal Bases de Datos Abiertos Colombia, de la hoja electrónica Excel y del lenguaje R.
Al finalizar la unidad los estudiantes estarán en capacidad de RECONOCER los pasos de la Metodología Estadística y podrán ESTRUCTURAR, LIMPIAR y DOCUMENTAR una base de datos con el fin de garantizar los elementos necesarios para realizar un procesamiento de datos. Para ello seleccionaran una base de datos del portal de Datos Abiertos Colombia. Adicionalmente propondrán un problema que les permita el desarrollo de la metodológica estadística.
La presente unidad será desarrollada durante la primera semana del semestre ( 26 de julio al 01 de agosto de 2021). Ademas del material suministrado contaran con el acompañamiento del profesor en tres sesiones (Lunes, Miércoles y Viernes) y de manera asincrónica con foro de actividades académicas. Los entregables para esta unidad deberán ser entregados a través de la plataforma Brightspace hasta el 01 de agosto.
Para alcanzar los objetivos planteados se propone realizar las siguientes actividades
Actividad101 | Descripción |
---|---|
Individual | Metodología estadística: : Formular un problema que le permita desarrollar un ejercicio académico durante el semestre a través de la recolección de información (primaria o secundaria), Ademas deberá establecer los objetivos y las variables de interés , para las cuales deberá identificar el tipo de variable y su escala de medición. El resultado de esta actividad deberá se entregado en archivo pdf con nombre: actividad101.pdf |
Recursos | Metodología |
Fecha | 01 de agosto de 2021 |
Hora | 23:59 |
Actividad102 | Descripción |
---|---|
Individual | Base de datos : Deberá buscar una base de datos de su interés en el portal Datos Abiertos Colombia, depuarla y documentarla si es necesario. A partir de la información recolectada deberá construir la ficha técnica de la base. El resultado de esta actividad deberá se entregado en archivo pdf con nombre: actividad102.pdf |
Recurso | Video: Como descargar datos abiertos |
Formato ficha : Ficha técnica | |
Excel | |
RStudio | |
Fecha | 01 de agosto 2021 |
Hora | 23:59 hora local |
Actividad103 | Descripción |
---|---|
Individual | Instalación de R y RStudio : Para el desarrollo de las actividades del curso deberá instalar las últimas versiones de R CRAN y de RStudio. Para su correcta instalación existen varios videos en YouTube que le permitirán realizarlo de una manera correcta |
Recursos | DESCARGAR e instalar R y RStudio 2021 -Video Rafa Gonzalez Gouveia |
R download | |
RStudio download | |
Fecha | 01 de agosto 2021 |
Hora | 23:59 hora local |
Reconocer la relación existente ente la definición del problema, el planteamiento de los objetivos y la definición de las variables de interés dentro de la Metodología Estadística.
Reconocer e identificar los diferentes tipos de variables y sus respectivas escalas de medición.
Identificar la estructura de una base de datos
Los entregables completos y enviados dentro de los tiempos establecidos otorgarán 20 puntos por la actividad101 y 10 puntos por la actividad102, para un total de 30 puntos.
Entregable | Descripción |
---|---|
actividad1.pdf | Documento que contenga: Formulación de problema propuesto, definición de los objetivos y definición de variables de interés. En este último caso detallar para cada variable su tipo ( cualitativa o cuantitativa ) y su escala de medición ( nominal, ordinal, de intervalo o de razón). |
actividad2.pdf | Ficha técnica de la base seleccionada |
Fecha | Domingo 01 de agosto de 2021 |
Hora límite | 23:59 hora local |
Con el fin de tener una idea inicial del propósito de este módulo, se presenta información relacionada con los estudiantes que toman el curso utilizando para ello gráficos e indicadores estadísticos, los cuales podremos interpretar al finalizar el módulo.
Grupos Probabilidad y Estadística 2021-2
Descriptive Statistics
value
N: 53
value
----------------- --------
Mean 4.01
Std.Dev 0.45
Min 3.16
Q1 3.63
Median 3.97
Q3 4.34
Max 4.90
MAD 0.55
IQR 0.71
CV 0.11
Skewness 0.20
SE.Skewness 0.33
Kurtosis -1.05
N.Valid 53.00
Pct.Valid 100.00
Una forma de abordar el curso de Probabilidad y Estadística e mediante la metodolgía estadística, que al igual que el método cientifico está conformada por una serie de etapas que van desde la definición del problema hasta la escritura del informe final con las conclusiones y recomendaciones.
1. Definición del problema
2. Definición de los objetivos
3. Definición de las variables de interés
4. Diseño del experimento
5. Recolección de la información
6. Procesamiento de los datos
7. Análisis descriptivo
8. Inferencia estadística
9. Conclusiones y recomendaciones
La descripción de cada una de ellas se presenta a continuación:
Para abordar las primeras etapas se plantea la actividad 101, donde se plantea la necesidad de definir un prolema, definir unos objetivos y determinar las variables que serán empleadas para poder cumplir con los objetivos planteados.
Continuaremos con una parte importante de esta metodología que está relacionada con la obtención de la información y la construcción de la base de datos.
Una base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso. Wikipedia
Una base de datos en estadística es un conjunto de información relacionada con una población organizada en filas y columnas. Las columnas corresponden a las variables y las filas están relacionadas con los individuos u objetos de estudio.
Es importente indicar que variables como: número de la encuesta, número de identificación, teléfono, dirección, entre otros, no constituyen variables estadística, aun que pueden ser utilzadas para la identificación de la persona u objeto de donde proviene la información.
Existen repositorio de bases de datos para uso general como:
Base datos iris (dataset R)
data(iris)
head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
Datos de iris (de Fisher o Anderson) + longitud y ancho del sépalo + largo y ancho de pétalos + especies: setosa, versicolor y virginica.
Base de datos estadísticos se estructura mediante arreglo de filas y columnas (matriz) donde por lo general las columnas representan las variables y las filas los registros de los objetos de estudio
Una base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.
Wikipedia
Una base de datos en estadística es un conjunto de información relacionada con una población organizada en filas y columnas. Las columnas corresponden a las variables y las filas están relacionadas con los individuos u objetos de estudio.
Existen repositorio de bases de datos para uso general
dataset en RStudio (bases de datos dentro de los paquetes de R)
Open Data Barometer : https://opendatabarometer.org/4thedition/report/?lang=es]
data(iris)
library(DT)
DT::datatable(head(iris, 150),fillContainer = FALSE, options = list(pageLength = 8))
Las siguientes etapas comprenden el ciclo de los datos desde la importación hasta la comunicación. Estas etapas suceden al interior de la Metodología Estadística antes mencionada y constituyen una parte muy importante del proceso, pues de la calidad de los datos, depende la calidad de los resultados.
Imagen tomada de : https://bitsandbricks.github.io/ciencia_de_datos_gente_sociable/
Utilizaremos para este proceso el lenguaje estadístico R , bajo RStudio
Los datos pueden proceder de diferentes fuentes (tanto primarias como secundarias), dentro de las cuales pueden ser:
Encuesta personal (datos primarios)
Online ( utilizando sistemas como REDCap, Office 365 - forms)
Entrevista cara a cara
Entrevista telefónica
Investigación propia ( observaciones en laboratorios)
Sistema automático de recolección de datos ( webscraping)
Fuente externa (datos secundarios : bases de datos abiertos)
DANE (o entidades gubernamentales)
Cámara de Comercio
Agremiaciones (observatorios de gremios)
Bancos de datos abiertos
Algunas de las herramientas utilziadas en el manejo de información son :
Excel
SQL
Oracle
SAS
R, RStudio
Python
En nuesro caso haremos uso del lenguaje estadistico **R*
Es importante después de haber importado la base de datos, hacer una revisión de cada una de las variables con el fin de poder detectar:
Datos faltantes (NA)
Datos anómalos o raros
Etiquetas mal colocadas ( minúsculas, MAYÚSCULAS, Titulo…)
Existen metodologías para corregir estos problemas sin afectar la información contenida en la data, para lo cual debemos realizar una verificación inicial mediante la construcción de tablas y resumen de datos.
Las bases de datos debe estar acompañadas de una ficha técnica donde si indican sus principales características :
Los datos se pueden importar de diferentes formas :
Desde el menú de RStudio
Desde la consola de R o RStudio
De manera automática
data("mtcars")
head(mtcars, n=3)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
RStudio usando ventanas : File/ Import Dataset / From Excel…
RStudio usando comandos :
El formato csv es uno de los mas utilizados para el almacenamiento de datos estructurados (agrupados en filas y columnas) . El termino csv significa “valores separados por comas”
RStudio usando ventanas : File/ Import Dataset / From Text (base)…
RStudio usando comandos :
bd0052 <- read_csv("data/datapye20212.csv")
var1=c(1,4,5)
bd0052=bd0052[,var1]
head(bd0052, n=3)
# A tibble: 3 × 3
id grupo promedio
<dbl> <chr> <dbl>
1 1 B 4.12
2 2 B 3.84
3 3 B 4.25
Otro ejemplo para importar una base de datos en formato csv :
Selecciono una base de datos de mi interés (portal FiveThirtyEight: https://data.fivethirtyeight.com/ - base de datos Predicción de clubes de fútbol)
Descargo la base de datos y la guardo en la carpeta de trabajo
Importo la base a RStudio
library(DT)
clasificacion=read.csv("data/spi_global_rankings_intl.csv")
datatable(head(clasificacion, 218),fillContainer = FALSE, options = list(pageLength = 3))
La API de datos abiertos de Socrata le permite acceder mediante programación a una gran cantidad de recursos de datos abiertos de gobiernos, organizaciones sin fines de lucro y ONG de todo el mundo. Haga clic en el enlace de abajo y pruebe un ejemplo en vivo ahora mismo.
Cargar la base de datos de COVID-19 Colombia
# install.packages("RSocrata")
library(RSocrata)
token ="ew2rEMuESuzWPqMkyPfOSGJgE"
Colombia= read.socrata("https://www.datos.gov.co/resource/gt2j-8ykr.json", app_token = token)
saveRDS(Colombia,"data/Colombia.RDS")
Nota: se requiere solicitar token en la pagina de los datos
A1 Metodología estadística : Formular un problema que le permita desarrollar un ejercicio académico durante el semestre a través de la recolección de información (primaria o secundaria), Ademas deberá establecer los objetivos y las variables de interés , para las cuales deberá identificar el tipo de variable y su escala de medición. El resultado de esta actividad deberá se entregado en archivo pdf con nombre: actividad1.pdf
A2 Base de datos : Deberá buscar una base de datos de su interés en el portal
Datos Abiertos Colombia, depuarla y documentarla si es necesario. A partir de la información recolectada deberá construir la ficha técnica de la base. El resultado de esta actividad deberá se entregado en archivo pdf con nombre: actividad2.pdf
A3 Instalación de R y RStudio : Para el desarrollo de las actividades del curso deberá instalar las ultimas versiones de R CRAN y de RStudio