
Processar Ficheiros
processar-ficheiros.RmdCarregar os pacotes
Se ainda não o fez, abra uma nova sessão de trabalho no RStudio. Como sempre, começaremos o nosso trabalho criando um novo script R (File -> New File -> R script). Também vamos carregar os principais pacotes R necessários para o trabalho.
Guardar ficheiros de supervisão
Antes de escrever qualquer código, certifique-se de que todos os ficheiros de dados brutos de supervisão csv estão guardados na pasta “Data” do repositório do seu projeto. Isto facilitará o acesso aos mesmos e manterá os vários documentos do projeto organizados.
Criar valores e listas para uso posterior
Vamos agora criar um valor que se refere à data atual que será utilizada quando começarmos a guardar os nossos ficheiros finais processados. Também vamos criar um valor que aponta para a pasta na qual os nossos dados em bruto estão armazenados. Finalmente, vamos criar uma lista dos caminhos de todo o conjunto de ficheiros csv armazenados na pasta “Data” do nosso repositório.
# criar carimbo de data
date <- as.integer(format(now(), "%Y%m%d"))
# criar caminho aos dados brutos
path_repo_input <- "Data/"
# criar vector dos caminhos dos dados brutos
path_inputs <-
list.files(path_repo_input,
pattern = ".csv",
full.names = TRUE)Processar ficheiros brutos
Por fim, vamos chamar as funções inspetor para começar a
processar os nossos dados de supervisão. O Inspetor oferece-nos duas
funções que podemos utilizar em conjunto para 1) identificar erros de
processamento; e 2) realizar o processamento de forma iterativa em
vários ficheiros de entrada (particularmente útil uma vez que existem 49
formulários csv gerados para as actividades de supervisão).
O primeiro trecho de código abaixo que usa map e
process_sqi_files criará nosso relatório de erros, enquanto
o segundo trecho de código, quando fornecido um argumento com o valor do
nosso caminho apontando para os dados de entrada, retornará uma tabela
compilada de dados pronta para análise.
df_safe <- purrr::map(path_inputs,
~ process_sqi_file(.x, safe = TRUE))
df <- process_sqi_batch(path_inputs)Gravar ficheiro final no disco local
Como último passo, guardaremos os nossos dados processados na pasta “Dataout” do nosso projeto, onde poderemos aceder aos mesmos para análise em R ou noutras ferramentas de análise como o PowerBI ou o Tableau. Abaixo, usamos um formato de arquivo compactado comum chamado ‘parquet’, que normalmente salva arquivos que têm apenas 3% do tamanho de um formato csv ou txt. Note-se também que o nome do ficheiro parquet gravado no disco rígido local inclui a data em que o código acima foi executado! Isto significa que terá um conjunto organizado de ficheiros facilmente reconhecíveis que lhe permitem ver como os dados mudam ao longo do tempo!
write_parquet(df, glue('Dataout/sqi_{date}.parquet'))Parabéns! Você, processou e exportou com sucesso um ficheiro de dados de supervisão fácil de utilizar e organizado para utilização em análises!
Disclaimer: The findings, interpretation, and conclusions expressed herein are those of the authors and do not necessarily reflect the views of United States Agency for International Development. All errors remain our own.