En hurtig oversigt over Apache Hadoop Framework

Hadoop, nu kendt som Apache Hadoop, blev opkaldt efter en legetøjselefant, der tilhørte medstifter Doug Cutting's søn. Doug valgte navnet på open source-projektet, da det var let at stave, udtale og finde i søgeresultaterne. Den originale gule fyldte elefant, der inspirerede navnet, vises i Hadoop's logo.

Hvad er Apache Hadoop?

Apache Hadoop-softwarebiblioteket er en ramme, der muliggør distribueret behandling af store datasæt på tværs af klynger af computere ved hjælp af enkle programmeringsmodeller. Det er designet til at skalere op fra enkelte servere til tusinder af maskiner, der hver tilbyder lokal beregning og lagring. I stedet for at stole på hardware til at levere høj tilgængelighed, er selve biblioteket designet til at opdage og håndtere fejl ved applikationslaget, så det leverer en meget tilgængelig service oven på en klynge af computere, som hver især kan være tilbøjelige til fejl.

Kilde: Apache Hadoop

I 2003 udgav Google deres artikel om Google File System (GFS). Det detaljerede et proprietært distribueret filsystem beregnet til at give effektiv adgang til store mængder data ved hjælp af råvarehardware. Et år senere udgav Google endnu en artikel med titlen "MapReduce: Forenklet databehandling på store klynger." På det tidspunkt arbejdede Doug hos Yahoo. Disse papirer var inspirationen til hans open source-projekt Apache Nutch. I 2006 flyttede projektkomponenterne, der var kendt som Hadoop, ud af Apache Nutch og blev frigivet.

Hvorfor er Hadoop nyttigt?

Hver dag oprettes milliarder gigabyte data i en række forskellige former. Nogle eksempler på ofte oprettede data er:

  • Metadata fra telefonbrug
  • Webstedslogfiler
  • Transaktioner med kreditkortkøb
  • Indlæg på sociale medier
  • Videoer
  • Oplysninger indsamlet fra medicinsk udstyr

"Big data" henviser til datasæt, der er for store eller komplekse til at behandle ved hjælp af traditionelle softwareapplikationer. Faktorer, der bidrager til datakompleksiteten, er størrelsen på datasættet, hastigheden på de tilgængelige processorer og dataets format.

På tidspunktet for frigivelsen var Hadoop i stand til at behandle data i større skala end traditionel software.

Kerne Hadoop

Data gemmes i Hadoop Distributed File System (HDFS). Ved hjælp af kortreduktion behandler Hadoop data i parallelle klumper (behandler flere dele på samme tid) snarere end i en enkelt kø. Dette reducerer den nødvendige tid til at behandle store datasæt.

HDFS fungerer ved at gemme store filer opdelt i klumper og replikere dem på tværs af mange servere. At have flere kopier af filer skaber redundans, som beskytter mod tab af data.

Hadoop økosystem

Der findes mange andre softwarepakker, der supplerer Hadoop. Disse programmer omfatter Hadoop-økosystemet. Nogle programmer gør det lettere at indlæse data i Hadoop-klyngen, mens andre gør Hadoop lettere at bruge.

Hadoop-økosystemet inkluderer:

  • Apache Hive
  • Apache Pig
  • Apache HBase
  • Apache Phoenix
  • Apache Spark
  • Apache ZooKeeper
  • Cloudera Impala
  • Apache Flume
  • Apache Sqoop
  • Apache Oozie

Mere information:

  • Apache Hadoop