Big Data Hadoop
O que é o Hadoop?
Hadoop é uma plataforma de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas.
Foi inspirada no MapReduce e no GoogleFS.
Arquitetura
EdgeNode -Maquina de acesso ao hadoop.
NameNode -Possui os metadados. Server NameNode. Mapa do cluster.
DataNode -Onde ficam os dados e rodam os processos. O conjunto de DataNodes fica dentro do Cluster do hadoop. O arquivo Grande é dividido em 3 partes e duplicado para 6 servidores diferentes do DataNode.
BATH - (Processamentos) MapReduce, Hive, Spark
STREAM -Executar um job MapReduce de um script Mapper e Reducers.
Impala - (SQL) Ideal para extrair relatorios (select)
Ecossistema
Spark - Melhor do que MapReduce mais fácil de usar.
HBase - Não relacional, não permite alterar parte do arquivo.
Hive - Bom para mastigar Dados
Impala - Tambem usa SQL mais inteligente.
Parquet - Formato de tabela
Sqoop - Integrar dados ler dados externos.
Hue - Interface Web para usuários avançados
Oozie - Não use [control-M]