Como ler dados em formato CSV com o PySpark
Nesta postagem vamos aprender como baixar e ler dados em formato CSV utilizando o Python e PySpark
Olá, entusiastas de dados! Hoje construiremos um dos primeiros códigos funcionais no PySpark. Aprenderemos nessa publicação a baixar, ler e ver informações de nossos primeiros dados em formato CSV com o PySpark. Para isso, utilizaremos uma base de dados de casos de Covid, disponibilizados no GitHub citado abaixo nas referências.
No Colab você pode baixar dados diretamente para o ambiente criado e, após efetuar o download, realizar a leitura dos dados utilizando o PySpark. Ambas as etapas estão descritas no trecho de código de exemplo abaixo:
No primeiro trecho de código acima é demonstrado como o Python pode ser utilizado para baixar arquivos utilizando o módulo os e o método os.system, que permite executar qualquer comando do sistema operacional diretamente em seu código. Como o ambiente do Google Colab é Linux, podemos executar o comando curl para baixar dados e links de download. Claro, este mesmo CSV poderia ser baixado manualmente ou por outros meios, o Python possibilita diversas soluções diferentes para o mesmo problema.
Indo além com o Pandas 🐼
Referências
- COVID-19 data in Brazil: cases, deaths, and vaccination at municipal (city) level: https://github.com/wcota/covid19br
Comentários
Postar um comentário