class: center, middle, inverse, title-slide # Unidad 1.1 Bases de datos ## Módulo 1 ### ### Daniel Enrique González Gómez
Universidad Javeriana Cali ### 2021-30-07 --- class: inverse <br/><br/><br/> # AGENDA <br/><br/> ## 1. Dudas y preguntas ## 2. Actividad 1 ## 3. Cargar de datos en RStudio ## 4. Varios --- ## Importar una base de datos en formato csv Pasos: + Selecciono una base de datos de mi interés (portal **FiveThirtyEight**: https://data.fivethirtyeight.com/ - base de datos Predicción de clubes de fútbol) + Descargo la base de datos y la guardo en la carpeta de trabajo + Importo la base a RStudio ```r library(DT) clasificacion=read.csv("data/spi_global_rankings_intl.csv") DT::datatable(head(clasificacion, 218),fillContainer = FALSE, options = list(pageLength = 3)) ``` Recuerda que hemos visto varias formas de hacerlo. --- + Reviso la base de datos para poder detectar si presenta inconsistencias ```r summary(clasificacion[,1:6]) ``` ``` ## rank name confed off def ## Min. : 1.00 Length:218 Length:218 Min. :0.200 Min. :0.3200 ## 1st Qu.: 55.25 Class :character Class :character 1st Qu.:0.690 1st Qu.:0.9225 ## Median :109.50 Mode :character Mode :character Median :1.075 Median :1.3150 ## Mean :109.50 Mean :1.166 Mean :1.6692 ## 3rd Qu.:163.75 3rd Qu.:1.540 3rd Qu.:2.0100 ## Max. :218.00 Max. :3.540 Max. :6.0800 ## spi ## Min. : 0.26 ## 1st Qu.:19.90 ## Median :37.91 ## Mean :39.58 ## 3rd Qu.:58.80 ## Max. :93.99 ``` --- + Otra forma de realizar el proceso es: ```r summarytools::descr(clasificacion) ``` ``` ## Descriptive Statistics ## ## def off rank spi ## ----------------- -------- -------- -------- -------- ## Mean 1.67 1.17 109.50 39.58 ## Std.Dev 1.12 0.66 63.08 24.61 ## Min 0.32 0.20 1.00 0.26 ## Q1 0.92 0.69 55.00 19.77 ## Median 1.31 1.08 109.50 37.91 ## Q3 2.02 1.54 164.00 58.82 ## Max 6.08 3.54 218.00 93.99 ## MAD 0.67 0.62 80.80 29.88 ## IQR 1.09 0.85 108.50 38.90 ## CV 0.67 0.56 0.58 0.62 ## Skewness 1.77 0.82 0.00 0.15 ## SE.Skewness 0.16 0.16 0.16 0.16 ## Kurtosis 3.01 0.54 -1.22 -0.94 ## N.Valid 218.00 218.00 218.00 218.00 ## Pct.Valid 100.00 100.00 100.00 100.00 ``` --- - Tambien : ```r summarytools::dfSummary(clasificacion) ``` ![](img/summarytool1.png) --- ## Rcmdr Este paquete de R permite cargar otra interz gráfica de usuarios que utiliza ventanas en lugar de comandos ```r # install.packages("Rcmdr", dependencies = TRUE) # install.packages("RcmdrMisc", dependencies = TRUE) library(Rcmdr) library(RcmdrMisc) # Commander() # en caso de cerrarlo y querer abrirlo nuevamente ``` ![](img/Rcmdr.png) Revisalo ! Ayuda: Tutorial Cómo Utilizar RCommander :https://www.youtube.com/watch?v=_aTYtNflcxU --- ## Otros portales de datos abiertos + **kaggle** https://www.kaggle.com + **FiveThirtyEight** https://data.fivethirtyeight.com/ + **Datos abiertos Cali** https://datos.cali.gov.co/ + **The home of the U.S. Government’s open data** https://www.data.gov/ + **World Bank Open Data** https://data.worldbank.org/ + **Open data initiative of the Government of Spain** https://datos.gob.es/en --- class: inverse background-image: url("img/railway-1555348_1920.jpg") <br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/> # <p style="color:yellow"> Sigamos adelante... </p> ## <p style="color:yellow"> Daniel Enrique González Gómez </p> Imagen tomada de :https://pixabay.com/es/images/search/paisaje/