Como criar um DataFrame com o PySpark

janeiro 30, 2024

Nesta postagem vamos aprender de maneira simples como criar um DataFrame PySpark a partir de dados estáticos ou a partir de um DataFrame Pandas

Olá entusiastas de dados! Na postagem anterior [Como utilizar o PySpark no Google Colab], vimos de maneira breve um exemplo de como podemos criar um DataFrame PySpark a partir de dados inseridos de forma manual, conforme trecho de código abaixo:

Porém, caso você já esteja familiarizado com o Pandas ou deseja converter este DataFrame para o contexto do PySpark, pode fazer isso de uma maneira muito fácil, como veremos nesta postagem.

Isso será muito útil caso você utilizada o Pandas, porém seus dados cresceram muito e os recursos computacionais disponíveis (como memória e processador) já não conseguem dar conta de carregar todos os dados e transformações do Pandas na memória da máquina, tornando necessário utilizar os recursos de sistemas distribuídos do PySpark como solução.

Criando um DataFrame PySpark a partir de dados do Pandas

Inicialmente vamos criar um DataFrame Pandas utilizando os mesmos dados fictícios apresentados no exemplo anterior, conforme trecho de código abaixo:

A partir dos exemplos de código acima você pode converter um DataFrame Pandas para um DataFrame PySpark e utilizar todos os recursos deste poderoso framework de sistemas distribuídos.

Não perca as próximas postagens, pois traremos muitos outros tutoriais e materiais assim bem diretos e objetivos que ajudarão a entender conceitos do PySpark ou até mesmo ajudarão a resolver problemas do dia-a-dia do seu trabalho ou de suas análises em projetos pessoais.

Até breve!

Postagem sugerida: Como ler dados em formato CSV com o PySpark

Pesquisar este blog

PySpark Descomplicado