class: center, middle, inverse, title-slide # Unidad 1.1 Bases de datos ## Módulo 1 ### ### Daniel Enrique González Gómez
Universidad Javeriana Cali ### 2021-07-26 --- class: inverse, center <br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/> # Que es Estadística ? <br/><br/><br/><br/><br/> -- Análisis de datos para la toma de decisiones --- ## Grupos Probabilidad y Estadística 2021-2 .pull-left[ | | B| E| |:---|--:|--:| |bio | 0| 1| |civ | 22| 17| |mec | 8| 0| |sis | 5| 0| ] .pull-right[ ![](punidad101_files/figure-html/unnamed-chunk-2-1.png)<!-- --> ] --- ## Promedio académico .pull-left[ ![](punidad101_files/figure-html/unnamed-chunk-3-1.png)<!-- --> ] .pull-right[ ![](punidad101_files/figure-html/unnamed-chunk-4-1.png)<!-- --> ] --- .pull-left[ | | value| |:-----------|-------:| |Mean | 4.011| |Std.Dev | 0.454| |Min | 3.160| |Q1 | 3.630| |Median | 3.970| |Q3 | 4.340| |Max | 4.900| |MAD | 0.549| |IQR | 0.710| |CV | 0.113| |Skewness | 0.202| |SE.Skewness | 0.327| |Kurtosis | -1.051| |N.Valid | 53.000| |Pct.Valid | 100.000| ] .pull-right[ ![](punidad101_files/figure-html/unnamed-chunk-6-1.png)<!-- --> ] --- <html> <div class="container-wrapper-genially" style="position: relative; min-height: 400px; max-width: 100%;"><video class="loader-genially" autoplay="autoplay" loop="loop" playsinline="playsInline" muted="muted" style="position: absolute;top: 45%;left: 50%;transform: translate(-50%, -50%);width: 80px;height: 80px;margin-bottom: 10%"><source src="https://static.genial.ly/resources/panel-loader-low.mp4" type="video/mp4" />Your browser does not support the video tag.</video><div id="5f1ba8da1829700da368b4ab" class="genially-embed" style="margin: 0px auto; position: relative; height: auto; width: 100%;"></div></div><script>(function (d) { var js, id = "genially-embed-js", ref = d.getElementsByTagName("script")[0]; if (d.getElementById(id)) { return; } js = d.createElement("script"); js.id = id; js.async = true; js.src = "https://view.genial.ly/static/embed/embed.js"; ref.parentNode.insertBefore(js, ref); }(document));</script> </html> --- # Base de datos Una base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso. <br/> Wikipedia Una base de datos en estadística es un conjunto de información relacionada con una población organizada en filas y columnas. Las columnas corresponden a las variables y las filas están relacionadas con los individuos u objetos de estudio. Existen repositorio de bases de datos para uso general + dataset en RStudio + [Portal Bases de datos abiertos Colombia](https://www.datos.gov.co/) + [Datos Banco mundial](https://datos.bancomundial.org/) + [Portal de Datos Abiertos de Esri España](https://opendata.esri.es/) <br/><br/><br/> [*] Open Data Barometer : https://opendatabarometer.org/4thedition/report/?lang=es] --- ## Base de datos ### Base datos iris (dataset R) ```r head(iris) ``` ``` ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.1 3.5 1.4 0.2 setosa ## 2 4.9 3.0 1.4 0.2 setosa ## 3 4.7 3.2 1.3 0.2 setosa ## 4 4.6 3.1 1.5 0.2 setosa ## 5 5.0 3.6 1.4 0.2 setosa ## 6 5.4 3.9 1.7 0.4 setosa ``` Datos de iris (de Fisher o Anderson) + longitud y ancho del sépalo + largo y ancho de pétalos + especies: setosa, versicolor y virginica. Base de datos estadìsticos : arreglo de filas y columnas (matriz) donde por lo general las columnas representan las variables y las filas los registros de los objetos de estudio --- # Base de datos Una base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso. <br/> Wikipedia Una base de datos en estadística es un conjunto de información relacionada con una población organizada en filas y columnas. Las columnas corresponden a las variables y las filas están relacionadas con los individuos u objetos de estudio. Existen repositorio de bases de datos para uso general + dataset en RStudio + [Portal Bases de datos abiertos Colombia](https://www.datos.gov.co/) + [Datos Banco mundial](https://datos.bancomundial.org/) + [Portal de Datos Abiertos de Esri España](https://opendata.esri.es/) <br/><br/><br/> [*] Open Data Barometer : https://opendatabarometer.org/4thedition/report/?lang=es] --- ## Base de datos ### Base datos iris (dataset R) ```r DT::datatable(head(iris, 150),fillContainer = FALSE, options = list(pageLength = 8)) ```
--- ### Base de datos estudianes Probabilidad y Estadistica 2021-2 ```r var1=c(4,5,6) DT::datatable(head(bd0052[var1],53),fillContainer = FALSE, options = list(pageLength = 8)) ```
--- # Etapas del proceso de datos <img src="img/proceso_datos.png" width="500"> <br/><br/> [*] Imagen tomada de : https://bitsandbricks.github.io/ciencia_de_datos_gente_sociable/ --- # Importar datos #### Origen de los datos + Encuesta personal (datos primarios) + Online + Entrevista cara a cara + Entrevista telefónica + Investigación propia + Sistema automático de recolección de datos + Fuente externa (datos secundarios) + DANE + Cámara de Comercio + Agremiaciones + Bancos de datos abiertos + Otros medios... --- # Herramientas computacionales + Excel + SQL + Oracle + SAS + R + RStudio + Python <br/><br/><br/> Video: Importar datos en R <br/> por Rafa Gonzalez Gouveia<br/> https://youtu.be/Bi0PoYq_gjE --- ## Limpieza de datos Es importante después de haber importado la base de datos, hacer una revisión de cada una de las variables con el fin de poder detectar: + Datos faltantes (NA) + Datos anómalos o raros + Etiquetas mal colocadas ( minúsculas, MAYÚSCULAS, Titulo...) Existen metodologías para corregir estos problemas sin afectar la información contenida en la data --- ## Ficha técnica Las bases de datos debe estar acompañadas de una ficha técnica donde si indican sus principales características : + [Ficha tecnica](https://drive.google.com/file/d/1O1eaS8y6olf5o_42ehgDgVZ4q1dganbd/view) + [Casos positivos de COVID-19 en Colombia](https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr) --- ## Actividades a realizar <br/><br/> **A1 Metodología estadística** : Formular un problema que le permita desarrollar un ejercicio académico durante el semestre a través de la recolección de información (primaria o secundaria), Ademas deberá establecer los objetivos y las variables de interés , para las cuales deberá identificar el tipo de variable y su escala de medición. El resultado de esta actividad deberá se entregado en archivo pdf con nombre: **actividad1.pdf** <br/><br/><br/> **A2 Base de datos** : Deberá buscar una base de datos de su interés en el portal [https://www.datos.gov.co]({Datos Abiertos Colombia}), depuarla y documentarla si es necesario. A partir de la información recolectada deberá construir la ficha técnica de la base. El resultado de esta actividad deberá se entregado en archivo pdf con nombre: **actividad2.pdf** <br/><br/><br/> **A3 Instalación de R y RStudio** : Para el desarrollo de las actividades del curso deberá instalar las ultimas versiones de [\href{https://www.r-project.org/](R CRAN) y de [https://rstudio.com/products/rstudio/download/](RStudio). --- class: inverse background-image: url("img/pujcali.jpeg") # <p style="color:black"> Gracias </p> ### <p style="color:black"> Daniel Enrique González Gómez </p> <br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/> Imagen tomada de : https://www.javerianacali.edu.co/noticias/la-javeriana-bogota-y-cali-1-de-colombia