Postagens

Mostrando postagens de janeiro, 2024

Como criar um DataFrame com o PySpark

Nesta postagem vamos aprender de maneira simples como criar um DataFrame PySpark a partir de dados estáticos ou a partir de um DataFrame Pandas Olá entusiastas de dados! Na postagem anterior [ Como utilizar o PySpark no Google Colab ], vimos de maneira breve um exemplo de como podemos criar um DataFrame PySpark a partir de dados inseridos de forma manual, conforme trecho de código abaixo: Porém, caso você já esteja familiarizado com o Pandas ou deseja converter este DataFrame para o contexto do PySpark, pode fazer isso de uma maneira muito fácil, como veremos nesta postagem.

Como utilizar o PySpark no Google Colab

Imagem
Você irá descobrir neste post como rodar seus primeiros códigos PySpark direito no navegador, de maneira gratuita, sem precisar instalar nada e utilizando apenas sua conta do Google Na publicação anterior [ Como instalar o PySpark e Jupyter Notebook ] descobrimos como o PySpark pode ser instalado e configurado em seu computador pessoal com sistema operacional Linux. Embora este processo de instalação seja relativamente simples, você pode encontrar impeditivos pelo caminho, como, por exemplo, ter um sistema operacional com Windows. Diante disso, nesta publicação, vamos aprender como o PySpark pode ser utilizado direito no navegador de seu computador, tablet ou até mesmo celular, utilizando apenas sua conta do Google, tudo isso no ambiente amigável e acessível do Google Colab.

Como instalar o PySpark e Jupyter Notebook

Imagem
Instalando e configurando o PySpark com Anaconda e Jupyter Notebook em seu computador com Linux e ao final apresento uma opção para executar o PySpark direto do navegador em máquinas com outros sistemas operacionais   Apache Spark Jupyter + Anaconda   Olá, entusiastas de dados! Hoje, iniciaremos nossa jornada para desvendar o poderoso framework PySpark para processamento e análise de grandes volumes de dados utilizando a linguagem de programação Python. Você já se perguntou como grandes volumes de dados podem ser processados e analisados de maneira eficiente? Bem-vindo ao fascinante universo do PySpark, uma poderosa ferramenta de computação distribuída. Prepare-se para uma jornada que transformará a maneira como você lida com dados, proporcionando insights instantâneos e impulsionando suas análises para o próximo nível. Este post é seu bilhete de entrada para o mundo do PySpark, guiando-o através de um processo descomplicado de instalação e configuração em sua máqui...

Antes de desbravarmos o PySpark e a estrutura de DataFrames, não deixe de explorar esta dica

  Limpando seu conjunto de dados antes de usar o PySpark Olá entusiastas e amantes de dados, 🎲🎲 Estou empolgado para iniciarmos uma imersão incrível nos conteúdos do básico ao avançado com PySpark. Antes de mergulharmos de cabeça nesse universo fascinante, gostaria de compartilhar um breve insight sobre um artigo que escrevi há alguns anos, com o título Comandos do Linux que auxiliam no pré-processamento de bases de dados .

Carta de Apresentação

  Olá, leitores apaixonados por dados! 🎲🎲 Sejam muito bem-vindos neste espaço onde mergulharemos juntos no fascinante e apaixonante universo da manipulação e análise de dados. Meu nome é Genicleito, e estou animado para compartilhar com vocês minha jornada e insights sobre como transformar dados em informações valiosas, da melhor forma possível e utilizando o máximo dessa tecnologia fascinante de sistemas distribuídos que é o PySpark e de outras tecnologias tão incríveis quanto, desde manipulações de dados com o Pandas DataFrame, dicas da linguagem de programação Python e até vou me atrever a compartilhar macetes e dicas de Google Sheets. Vamos lá! Quem sou eu? Como falei brevemente, sou Genicleito, um profissional e entusiasta de dados apaixonado por desafios analíticos, otimização e programação. Com uma formação em Ciência da Computação (UFBA) e Mestrado em Ciência da Computação (PGCOMP/UFBA), acumulei experiência ao longo de 5 anos trabalhando como Engenheiro de Dados no CIDAC...