-
Notifications
You must be signed in to change notification settings - Fork 0
/
Import.R
84 lines (61 loc) · 2.44 KB
/
Import.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
library(readxl)
countryName <- c("Brasil")
regionName <- c("Região Norte", "Região Nordeste", "Região Sudeste",
"Região Sul", "Região Centro-Oeste")
# ----- FUNÇÕES DE IMPORTAÇÃO DE DADOS -----
readPopulationData <- function() {
# carga das estimativas populacionais e formatação
# uso da biblioteca readxl para leitura diretamente de planilha Excel
rawDataPop <- read_excel("estimativa_dou_2021.xls",
sheet <- "BRASIL E UFs",
range="A2:C35")
# exclusão de coluna vazia e acerto dos nomes das colunas
rawDataPop <- select(rawDataPop, -c(2))
colnames(rawDataPop) <- c("Unit", "Population")
# limpeza e formatação da informação de População
rawDataPop$Population <- gsub("\\([0-9])", "", rawDataPop$Population)
rawDataPop$Population <- gsub("\\.", "", rawDataPop$Population)
rawDataPop$Population <- as.integer(rawDataPop$Population)
#formatação da tabela final de populações
dataPop <- NULL
#região Norte
tempDF <- rawDataPop[c(3:9),]
tempDF$Region <- regionName[1]
dataPop <- rbind(dataPop, tempDF)
#região Nordeste
tempDF <- rawDataPop[c(11:19),]
tempDF$Region <- regionName[2]
dataPop <- rbind(dataPop, tempDF)
#região Sudeste
tempDF <- rawDataPop[c(21:24),]
tempDF$Region <- regionName[3]
dataPop <- rbind(dataPop, tempDF)
#região Sul
tempDF <- rawDataPop[c(26:28),]
tempDF$Region <- regionName[4]
dataPop <- rbind(dataPop, tempDF)
#região Centro-Oeste
tempDF <- rawDataPop[c(30:33),]
tempDF$Region <- regionName[5]
dataPop <- rbind(dataPop, tempDF)
dataPop$Region <- factor(dataPop$Region, levels=regionName)
dataPop$Unit <- factor(dataPop$Unit)
return (dataPop)
}
readAreaData <- function() {
# carga das medidas de área das Unidades Federativas
dataArea <- read.csv2("area_UF_Brasil.csv", encoding="UTF-8")
# limpeza e formatação da informação de Área
dataArea$Área..Km2. <- gsub("\\.", "", dataArea$Área..Km2.)
dataArea$Área..Km2. <- gsub(",", "\\.", dataArea$Área..Km2.)
dataArea$Área..Km2. <- as.numeric(dataArea$Área..Km2.)
# formatação da tabela final de áreas
dataArea$Código.UF <- NULL
colnames(dataArea) <- c("Unit", "Area")
return (dataArea)
}
dataPopulation <- readPopulationData()
dataArea <- readAreaData()
dfFedUnits <- merge(dataPopulation, dataArea)
dfFedUnits <- dfFedUnits[,c(1,3,2,4)]
save(dfFedUnits, file="ibge.RData")