Tutorials

https://vvcestudio.com.br/en/tutorial/python/pandas/
menu

PANDAS

What is Pandas?

Pandas is a software library created for the Python language for data manipulation and analysis.
It is currently the most used library for DATA MANIPULATION in Python.
Provides structures and operations for manipulating numeric tables and time series.
Pandas is free software, under the BSD license.

Instalando PANDAS

Instalar o PANDAS no Ubuntu(Linux):
Instalar o PANDAS no Python2:
x
$ sudo apt-get install python-pandas
Instalar o PANDAS np Python3:
x
$ sudo apt install python3-pandas

Carregar arquivo de dados

Ler um arquivo CSV e atribuir os dados a uma variavel.

Python code example with PANDAS
x
import pandas as pd #Importing Pandas library.
dados01 = pd.read_csv("dadosExemploGui.csv")
print(dados01.head()) # Mostra conteudo da tabela.

Ler o arquivo JSON e atribuir os dados a uma variavel.

Ler um JSON com PANDAS
x
dados02 = pd.read_json("valente.json")print(dados02.head()) # Mostra conteudo da tabela.

APPEND

inclui item em uma matrix ou vetor.
x
vetor.append(item)

LOC

Este método é primariamente baseado nas labels da colunas, porém podemos utilizar com um array booleano também.
Uma informação importante sobre loc é: quando nenhum item é encontrado ele retorna um KeyError.
O método funciona desta maneira:
df.loc[linhas, colunas]
Primeiro argumento são as linhas e o segundo as colunas a serem buscadas.

Resgatar dados com LOC no Pandas.
x

#podemos chamar uma linha pelo seu índice
df.loc[5]

#ou com um array de índices
df.loc[[0,1,2]]

# Resgatar um range de dados.
# Por exemplo do item 4 ao item 8.
df.loc[4:8]

# É possivel tambem chamar diretamente pela linha, como um resultado de busca.
df.loc[` Justise Winslow`]

#Com o loc podemos também modificar os dados que selecionamos, veja o exemplo:
#Mudando os 5 primeiros registros para o ano de 2018
df2.loc[0:5, `Draft Year`] = 2018
df2.head(5)

ILOC

O indexador iloc é um tanto mais simples, ele seleciona por números inteiros das linhas, arrays ou por slice.
Como o loc, ele funciona desta maneira:
df.iloc[linhas, colunas]
Os dois argumentos são: linhas e colunas,
Podemos concluir que o iloc seleciona linhas e colunas por números, esta é uma boa definição para o recurso.

Resgatar dados com iloc no Pandas.
x
# Linhas:
df.iloc[0] # Selecionado a primeira linha do dataset
df.iloc[-1] # Selecionando a última linha

# Colunas:
df.iloc[:,0] # Todos os dados da primeira coluna do dataset
df.iloc[0:5,-1] # Do primeiro ao quinto dado da última coluna

# Seleção de múltiplas linhas e colunas:
df.iloc[0:3] # resgatando as primeiras três linhas do dataset
df.iloc[:, 1:3] # todos os dados da segunda e terceira coluna
df.iloc[[0,2,4], 5:8] # 1º,3º e 5º elementos e 6ª a 8ª colunas
# Caso pedirmos `:` pandas trará todos os dados

#Quando solicitamos a o iloc uma linha ele retorna um Pandas Series:
print(type(df.iloc[0]))
saida : class `pandas.core.series.Series`

#Quando solicitamos a o iloc múltiplas linhas ele retorna um Pandas DataFrame:
print(type(df.iloc[0:3]))
saida : class `pandas.core.frame.Dataframe`
Obs.: Um DataFrame é uma estrutura de dados bidimensional com os dados alinhados de forma tabular em linhas e colunas.

Plotar graficos

Usando o Pandas para plotar graficos simples
Mostar um historiograma (Grafico de barras).
x
notas.nota.plot(kind=`hist`)
Logo python

Selecionar Colunas
Filtrar Linhas
Agregação (Group by)
Função Apply Lambida(Equivale ao For)
União de Dados (Merge, Concat)