PANDAS
What is Pandas?
Pandas is a software library created for the Python language for data manipulation and analysis.
It is currently the most used library for DATA MANIPULATION in Python.
Provides structures and operations for manipulating numeric tables and time series.
Pandas is free software, under the BSD license.
Instalando PANDAS
Instalar o PANDAS no Ubuntu(Linux):Carregar arquivo de dados
Ler um arquivo CSV e atribuir os dados a uma variavel.
dados01 = pd.read_csv("dadosExemploGui.csv")
print(dados01.head()) # Mostra conteudo da tabela.
Ler o arquivo JSON e atribuir os dados a uma variavel.
APPEND
LOC
Este método é primariamente baseado nas labels da colunas, porém podemos utilizar com um array booleano também.
Uma informação importante sobre loc é: quando nenhum item é encontrado ele retorna um KeyError.
O método funciona desta maneira:
df.loc[linhas, colunas]
Primeiro argumento são as linhas e o segundo as colunas a serem buscadas.
#podemos chamar uma linha pelo seu índice
df.loc[5]
#ou com um array de índices
df.loc[[0,1,2]]
# Resgatar um range de dados.
# Por exemplo do item 4 ao item 8.
df.loc[4:8]
# É possivel tambem chamar diretamente pela linha, como um resultado de busca.
df.loc[` Justise Winslow`]
#Com o loc podemos também modificar os dados que selecionamos, veja o exemplo:
#Mudando os 5 primeiros registros para o ano de 2018
df2.loc[0:5, `Draft Year`] = 2018
df2.head(5)
ILOC
O indexador iloc é um tanto mais simples, ele seleciona por números inteiros das linhas, arrays ou por slice.
Como o loc, ele funciona desta maneira:
df.iloc[linhas, colunas]
Os dois argumentos são: linhas e colunas,
Podemos concluir que o iloc seleciona linhas e colunas por números, esta é uma boa definição para o recurso.
df.iloc[0] # Selecionado a primeira linha do dataset
df.iloc[-1] # Selecionando a última linha
# Colunas:
df.iloc[:,0] # Todos os dados da primeira coluna do dataset
df.iloc[0:5,-1] # Do primeiro ao quinto dado da última coluna
# Seleção de múltiplas linhas e colunas:
df.iloc[0:3] # resgatando as primeiras três linhas do dataset
df.iloc[:, 1:3] # todos os dados da segunda e terceira coluna
df.iloc[[0,2,4], 5:8] # 1º,3º e 5º elementos e 6ª a 8ª colunas
# Caso pedirmos `:` pandas trará todos os dados
#Quando solicitamos a o iloc uma linha ele retorna um Pandas Series:
print(type(df.iloc[0]))
saida : class `pandas.core.series.Series`
#Quando solicitamos a o iloc múltiplas linhas ele retorna um Pandas DataFrame:
print(type(df.iloc[0:3]))
saida : class `pandas.core.frame.Dataframe`
Plotar graficos
Usando o Pandas para plotar graficos simplesSelecionar Colunas
Filtrar Linhas
Agregação (Group by)
Função Apply Lambida(Equivale ao For)
União de Dados (Merge, Concat)