PANDAS
O que é Pandas?
Pandas é uma biblioteca de software criada para a linguagem Python, para manipulação e análise de dados.
É atualmente a biblioteca mais usada para MANIPULAÇÃO DE DADOS no Pyton.
Oferece estruturas e operações para manipular tabelas numéricas e séries temporais.
Pandas é um software livre, sob a licença BSD.
Instalando PANDAS
Instalar o PANDAS no Ubuntu(Linux):Carregar arquivo de dados
Ler um arquivo CSV e atribuir os dados a uma variavel.
dados01 = pd.read_csv("dadosExemploGui.csv")
print(dados01.head()) # Mostra conteudo da tabela.
Ler o arquivo JSON e atribuir os dados a uma variavel.
APPEND
LOC
Este método é primariamente baseado nas labels da colunas, porém podemos utilizar com um array booleano também.
Uma informação importante sobre loc é: quando nenhum item é encontrado ele retorna um KeyError.
O método funciona desta maneira:
df.loc[linhas, colunas]
Primeiro argumento são as linhas e o segundo as colunas a serem buscadas.
#podemos chamar uma linha pelo seu índice
df.loc[5]
#ou com um array de índices
df.loc[[0,1,2]]
# Resgatar um range de dados.
# Por exemplo do item 4 ao item 8.
df.loc[4:8]
# É possivel tambem chamar diretamente pela linha, como um resultado de busca.
df.loc[` Justise Winslow`]
#Com o loc podemos também modificar os dados que selecionamos, veja o exemplo:
#Mudando os 5 primeiros registros para o ano de 2018
df2.loc[0:5, `Draft Year`] = 2018
df2.head(5)
ILOC
O indexador iloc é um tanto mais simples, ele seleciona por números inteiros das linhas, arrays ou por slice.
Como o loc, ele funciona desta maneira:
df.iloc[linhas, colunas]
Os dois argumentos são: linhas e colunas,
Podemos concluir que o iloc seleciona linhas e colunas por números, esta é uma boa definição para o recurso.
df.iloc[0] # Selecionado a primeira linha do dataset
df.iloc[-1] # Selecionando a última linha
# Colunas:
df.iloc[:,0] # Todos os dados da primeira coluna do dataset
df.iloc[0:5,-1] # Do primeiro ao quinto dado da última coluna
# Seleção de múltiplas linhas e colunas:
df.iloc[0:3] # resgatando as primeiras três linhas do dataset
df.iloc[:, 1:3] # todos os dados da segunda e terceira coluna
df.iloc[[0,2,4], 5:8] # 1º,3º e 5º elementos e 6ª a 8ª colunas
# Caso pedirmos `:` pandas trará todos os dados
#Quando solicitamos a o iloc uma linha ele retorna um Pandas Series:
print(type(df.iloc[0]))
saida : class `pandas.core.series.Series`
#Quando solicitamos a o iloc múltiplas linhas ele retorna um Pandas DataFrame:
print(type(df.iloc[0:3]))
saida : class `pandas.core.frame.Dataframe`
Plotar graficos
Usando o Pandas para plotar graficos simplesSelecionar Colunas
Filtrar Linhas
Agregação (Group by)
Função Apply Lambida(Equivale ao For)
União de Dados (Merge, Concat)