Como exibir informações e metadados de DataFrames do PySpark
Exibindo informações de um DataFrame PySpark (quantidade de registros, colunas e seus tipos, medidas estatísticas dentre outras informações)
Olá, entusiastas de dados! Nesta publicação nós vamos aprender de maneira bem prática e simples como exibir algumas informações e metadados do seu DataFrame criado ou lido a partir do PySpark.
Informações como quantidade de registros (.count()), colunas (.columns) e seus respectivos tipos (.dtypes) podem ser extremamente úteis para analisar os dados resultantes de maneira eficaz, validar os dados com base nessas informações, tomar decisões a partir dessas informações durante a execução do pipeline de dados, modelar de maneira mais eficiente as tabelas e processos ou para construir ETLs com um maior nível de automatização.
Portanto, diante disso, separamos logo abaixo algumas das principais instruções que permitem extrair essas informações de um PySpark DataFrame de uma maneira extremamente simples. Bons estudos e até breve!
Comentários
Postar um comentário