Guia para Início Rápido de Análise de Dados com o Polars
Como utilizar o Polars para realizar análises de dados com bom desempenho e de uma maneira tão prática quanto o Pandas e sem a necessidade de um ambiente PySpark
Olá cientistas, analistas e engenheiros de dados. Nesta postagem sairemos um pouco do contexto de PySpark para desbravarmos o Polars de uma maneira geral e sem aprofundamento (ainda, aguarde!).
O Polars é uma biblioteca poderosa para manipulação de DataFrames no contexto de desenvolvimento com Python. Combinando a expressividade do Rust com a familiaridade do Python, o Polar oferece uma experiência de desenvolvimento fluida e eficiente.
Neste post, como comentado, apresentaremos para um contato inicial, algumas funções e recursos do Polar.rs, com exemplos de código simples para ilustrar seu uso.
Para iniciar, precisamos fazer a instalação do Polars no nosso ambiente Python. Isso pode ser feito de maneira simples utilizando a seguinte instrução com o pip:
Uma vez feita a instalação, vamos importar o módulo do Polars com o trecho de código abaixo:
Agora podemos aprender a criar um DataFrame com o Polars de maneira muito parecida como é feito com o Pandas, confira abaixo:
Criando colunas em DataFrames Polars
A criação de colunas no Polars é muito similar à criação de colunas no PySpark, conforme exemplo abaixo:
Agrupando dados em DataFrames Polars
O group_by do Polars eu considero mais similar à forma realizada em DataFrames do Pandas com as características de agrupamento do PySpark. Ainda assim é realizado de maneira muito simples:
Filtrando dados em DataFrames Polars
Filtrar dados é uma tarefa essencial a qualquer pipeline de dados por mais simples ou complexo que seja. Desde scripts de tratamento de dados em ETLs até em dashboard para apresentação e análise de dados é fundamental a possibilidade de aplicação de filtros nos conjuntos de dados.
No Polars podemos filtrar dados da seguinte forma:
Referências:
- Documentação Oficial do Polars DataFrames
Comentários
Postar um comentário