Postagens

Mostrando postagens de 2024

Guia para Início Rápido de Análise de Dados com o Polars

Como utilizar o Polars para realizar análises de dados com bom desempenho e de uma maneira tão prática quanto o Pandas e sem a necessidade de um ambiente PySpark Olá cientistas, analistas e engenheiros de dados. Nesta postagem sairemos um pouco do contexto de PySpark para desbravarmos o Polars de uma maneira geral e sem aprofundamento (ainda, aguarde!). O Polars  Ã© uma biblioteca poderosa para manipulação de DataFrames no contexto de desenvolvimento com Python. Combinando a expressividade do Rust com a familiaridade do Python, o Polar oferece uma experiência de desenvolvimento fluida e eficiente. Neste post, como comentado, apresentaremos para um contato inicial, algumas funções e recursos do Polar.rs, com exemplos de código simples para ilustrar seu uso.

Como exibir informações e metadados de DataFrames do PySpark

Exibindo informações de um DataFrame PySpark (quantidade de registros, colunas e seus tipos, medidas estatísticas dentre outras informações) Olá, entusiastas de dados! Nesta publicação nós vamos aprender de maneira bem prática e simples como exibir algumas informações e metadados do seu DataFrame criado ou lido a partir do PySpark. Informações como quantidade de registros ( .count() ), colunas ( .columns ) e seus respectivos tipos ( .dtypes ) podem ser extremamente úteis para analisar os dados resultantes de maneira eficaz, validar os dados com base nessas informações, tomar decisões a partir dessas informações durante a execução do pipeline de dados, modelar de maneira mais eficiente as tabelas e processos ou para construir ETLs com um maior nível de automatização.

Calculadora de Juros Compostos

Calculando Juros Compostos no Google Sheets (com planilha de exemplo) e código simples no Python/Pandas Olá, entusiastas de dados! Antes de iniciarmos, vale descrever brevemente o que são Juros Compostos. O juro composto é um regime de capitalização em que os juros incidem sobre o próprio valor do juro no período anterior, o que faz com que o crescimento da aplicação cresça de forma mais rentável. O juro composto é o mais utilizado no mercado por oferecer maior rentabilidade financeira (quando comparado ao juro simples, por exemplo, que considera o juro sobre o valor inicial apenas) [1]. Vale ressaltar que um dos parâmetros mais importantes no cálculo de juros compostos é o fator tempo (período de investimento), ou seja, quanto maior o período de investimento, maior o retorno obtido. Desenvolvi uma planilha com uma Calculadora de Juros Compostos no Google Sheets que você pode utilizar tanto para aprender as fórmulas quanto criar suas próprias planilhas, como também para editar e inseri

Como ler dados em formato CSV com o PySpark

Nesta postagem vamos aprender como baixar e ler dados em formato CSV utilizando o Python e PySpark Olá, entusiastas de dados! Hoje construiremos um dos primeiros códigos funcionais no PySpark. Aprenderemos nessa publicação a baixar, ler e ver informações de nossos primeiros dados em formato CSV com o PySpark. Para isso, utilizaremos uma base de dados de casos de Covid, disponibilizados no GitHub citado abaixo nas referências. No Colab você pode baixar dados diretamente para o ambiente criado e, após efetuar o download, realizar a leitura dos dados utilizando o PySpark. Ambas as etapas estão descritas no trecho de código de exemplo abaixo:

Como criar um DataFrame com o PySpark

Nesta postagem vamos aprender de maneira simples como criar um DataFrame PySpark a partir de dados estáticos ou a partir de um DataFrame Pandas Olá entusiastas de dados! Na postagem anterior [ Como utilizar o PySpark no Google Colab ], vimos de maneira breve um exemplo de como podemos criar um DataFrame PySpark a partir de dados inseridos de forma manual, conforme trecho de código abaixo: Porém, caso você já esteja familiarizado com o Pandas ou deseja converter este DataFrame para o contexto do PySpark, pode fazer isso de uma maneira muito fácil, como veremos nesta postagem.

Como utilizar o PySpark no Google Colab

Imagem
Você irá descobrir neste post como rodar seus primeiros códigos PySpark direito no navegador, de maneira gratuita, sem precisar instalar nada e utilizando apenas sua conta do Google Na publicação anterior [ Como instalar o PySpark e Jupyter Notebook ] descobrimos como o PySpark pode ser instalado e configurado em seu computador pessoal com sistema operacional Linux. Embora este processo de instalação seja relativamente simples, você pode encontrar impeditivos pelo caminho, como, por exemplo, ter um sistema operacional com Windows. Diante disso, nesta publicação, vamos aprender como o PySpark pode ser utilizado direito no navegador de seu computador, tablet ou até mesmo celular, utilizando apenas sua conta do Google, tudo isso no ambiente amigável e acessível do Google Colab.

Como instalar o PySpark e Jupyter Notebook

Imagem
Instalando e configurando o PySpark com Anaconda e Jupyter Notebook em seu computador com Linux e ao final apresento uma opção para executar o PySpark direto do navegador em máquinas com outros sistemas operacionais   Apache Spark Jupyter + Anaconda   Olá, entusiastas de dados! Hoje, iniciaremos nossa jornada para desvendar o poderoso framework PySpark para processamento e análise de grandes volumes de dados utilizando a linguagem de programação Python. Você já se perguntou como grandes volumes de dados podem ser processados e analisados de maneira eficiente? Bem-vindo ao fascinante universo do PySpark, uma poderosa ferramenta de computação distribuída. Prepare-se para uma jornada que transformará a maneira como você lida com dados, proporcionando insights instantâneos e impulsionando suas análises para o próximo nível. Este post é seu bilhete de entrada para o mundo do PySpark, guiando-o através de um processo descomplicado de instalação e configuração em sua máquina local.

Antes de desbravarmos o PySpark e a estrutura de DataFrames, não deixe de explorar esta dica

Imagem
  Limpando seu conjunto de dados antes de usar o PySpark Olá entusiastas e amantes de dados, 🎲🎲 Estou empolgado para iniciarmos uma imersão incrível nos conteúdos do básico ao avançado com PySpark. Antes de mergulharmos de cabeça nesse universo fascinante, gostaria de compartilhar um breve insight sobre um artigo que escrevi há alguns anos, com o título Comandos do Linux que auxiliam no pré-processamento de bases de dados .

Carta de Apresentação

  Olá, leitores apaixonados por dados! 🎲🎲 Sejam muito bem-vindos neste espaço onde mergulharemos juntos no fascinante e apaixonante universo da manipulação e análise de dados. Meu nome é Genicleito, e estou animado para compartilhar com vocês minha jornada e insights sobre como transformar dados em informações valiosas, da melhor forma possível e utilizando o máximo dessa tecnologia fascinante de sistemas distribuídos que é o PySpark e de outras tecnologias tão incríveis quanto, desde manipulações de dados com o Pandas DataFrame, dicas da linguagem de programação Python e até vou me atrever a compartilhar macetes e dicas de Google Sheets. Vamos lá! Quem sou eu? Como falei brevemente, sou Genicleito, um profissional e entusiasta de dados apaixonado por desafios analíticos, otimização e programação. Com uma formação em Ciência da Computação (UFBA) e Mestrado em Ciência da Computação (PGCOMP/UFBA), acumulei experiência ao longo de 5 anos trabalhando como Engenheiro de Dados no CIDACS/Fi