Postagens

Mostrando postagens de abril, 2024

Guia para Início Rápido de Análise de Dados com o Polars

Como utilizar o Polars para realizar análises de dados com bom desempenho e de uma maneira tão prática quanto o Pandas e sem a necessidade de um ambiente PySpark Olá cientistas, analistas e engenheiros de dados. Nesta postagem sairemos um pouco do contexto de PySpark para desbravarmos o Polars de uma maneira geral e sem aprofundamento (ainda, aguarde!). O Polars  é uma biblioteca poderosa para manipulação de DataFrames no contexto de desenvolvimento com Python. Combinando a expressividade do Rust com a familiaridade do Python, o Polar oferece uma experiência de desenvolvimento fluida e eficiente. Neste post, como comentado, apresentaremos para um contato inicial, algumas funções e recursos do Polar.rs, com exemplos de código simples para ilustrar seu uso.

Como exibir informações e metadados de DataFrames do PySpark

Exibindo informações de um DataFrame PySpark (quantidade de registros, colunas e seus tipos, medidas estatísticas dentre outras informações) Olá, entusiastas de dados! Nesta publicação nós vamos aprender de maneira bem prática e simples como exibir algumas informações e metadados do seu DataFrame criado ou lido a partir do PySpark. Informações como quantidade de registros ( .count() ), colunas ( .columns ) e seus respectivos tipos ( .dtypes ) podem ser extremamente úteis para analisar os dados resultantes de maneira eficaz, validar os dados com base nessas informações, tomar decisões a partir dessas informações durante a execução do pipeline de dados, modelar de maneira mais eficiente as tabelas e processos ou para construir ETLs com um maior nível de automatização.