Guia para Início Rápido de Análise de Dados com o Polars

Como utilizar o Polars para realizar análises de dados com bom desempenho e de uma maneira tão prática quanto o Pandas e sem a necessidade de um ambiente PySpark

Olá cientistas, analistas e engenheiros de dados. Nesta postagem sairemos um pouco do contexto de PySpark para desbravarmos o Polars de uma maneira geral e sem aprofundamento (ainda, aguarde!).

O Polars é uma biblioteca poderosa para manipulação de DataFrames no contexto de desenvolvimento com Python. Combinando a expressividade do Rust com a familiaridade do Python, o Polar oferece uma experiência de desenvolvimento fluida e eficiente.

Neste post, como comentado, apresentaremos para um contato inicial, algumas funções e recursos do Polar.rs, com exemplos de código simples para ilustrar seu uso.

Para iniciar, precisamos fazer a instalação do Polars no nosso ambiente Python. Isso pode ser feito de maneira simples utilizando a seguinte instrução com o pip:

Uma vez feita a instalação, vamos importar o módulo do Polars com o trecho de código abaixo:

Agora podemos aprender a criar um DataFrame com o Polars de maneira muito parecida como é feito com o Pandas, confira abaixo:

Criando colunas em DataFrames Polars

A criação de colunas no Polars é muito similar à criação de colunas no PySpark, conforme exemplo abaixo:

Agrupando dados em DataFrames Polars

O group_by do Polars eu considero mais similar à forma realizada em DataFrames do Pandas com as características de agrupamento do PySpark. Ainda assim é realizado de maneira muito simples:

Filtrando dados em DataFrames Polars

Filtrar dados é uma tarefa essencial a qualquer pipeline de dados por mais simples ou complexo que seja. Desde scripts de tratamento de dados em ETLs até em dashboard para apresentação e análise de dados é fundamental a possibilidade de aplicação de filtros nos conjuntos de dados.

No Polars podemos filtrar dados da seguinte forma:

Referências:

Comentários

Postagens mais visitadas deste blog

Como ler dados em formato CSV com o PySpark

Como utilizar o PySpark no Google Colab

Como instalar o PySpark e Jupyter Notebook