Como criar um DataFrame com o PySpark

Nesta postagem vamos aprender de maneira simples como criar um DataFrame PySpark a partir de dados estáticos ou a partir de um DataFrame Pandas

Olá entusiastas de dados! Na postagem anterior [Como utilizar o PySpark no Google Colab], vimos de maneira breve um exemplo de como podemos criar um DataFrame PySpark a partir de dados inseridos de forma manual, conforme trecho de código abaixo:

Porém, caso você já esteja familiarizado com o Pandas ou deseja converter este DataFrame para o contexto do PySpark, pode fazer isso de uma maneira muito fácil, como veremos nesta postagem.
 
Isso será muito útil caso você utilizada o Pandas, porém seus dados cresceram muito e os recursos computacionais disponíveis (como memória e processador) já não conseguem dar conta de carregar todos os dados e transformações do Pandas na memória da máquina, tornando necessário utilizar os recursos de sistemas distribuídos do PySpark como solução.
 

Criando um DataFrame PySpark a partir de dados do Pandas

Inicialmente vamos criar um DataFrame Pandas utilizando os mesmos dados fictícios apresentados no exemplo anterior, conforme trecho de código abaixo:

A partir dos exemplos de código acima você pode converter um DataFrame Pandas para um DataFrame PySpark e utilizar todos os recursos deste poderoso framework de sistemas distribuídos.

Não perca as próximas postagens, pois traremos muitos outros tutoriais e materiais assim bem diretos e objetivos que ajudarão a entender conceitos do PySpark ou até mesmo ajudarão a resolver problemas do dia-a-dia do seu trabalho ou de suas análises em projetos pessoais.

Até breve!


Comentários

Postagens mais visitadas deste blog

Como ler dados em formato CSV com o PySpark

Como instalar o PySpark e Jupyter Notebook

Como utilizar o PySpark no Google Colab