Sådan opbygges en skalerbar dataanalyserørledning

Hver applikation genererer data, men hvad betyder disse data? Dette er et spørgsmål, som alle dataforskere er ansat til at besvare.

Der er ingen tvivl om, at disse oplysninger er den mest værdifulde vare for en virksomhed. Men at give mening om data, skabe indsigt og gøre dem til beslutninger er endnu vigtigere.

Da dataene fortsætter med at vokse i volumen, skal dataanalyserørledningerne være skalerbare for at tilpasse ændringshastigheden. Og af denne grund giver det perfekt mening at vælge at oprette rørledningen i skyen (da skyen tilbyder skalerbarhed og fleksibilitet efter behov).

I denne artikel vil jeg afmystificere, hvordan man bygger en skalerbar og tilpassbar databehandlingspipeline i Google Cloud. Og rolig - disse begreber kan anvendes i enhver anden cloud- eller lokal datapipeline.

5 trin til oprettelse af en dataanalyserørledning:

  • Først indtager du dataene fra datakilden
  • Derefter behandler og beriger dataene, så dit downstream-system kan bruge dem i det format, det forstår bedst.
  • Derefter gemmer du dataene i en datasø eller et datalager til enten langvarig arkivering eller til rapportering og analyse.
  • Du kan derefter analysere dataene ved at indføre dem i analyseværktøjer.
  • Anvend maskinlæring til forudsigelser, eller opret rapporter, der kan deles med dine teams.

Lad os gennemgå hvert af disse trin mere detaljeret.

Sådan registreres dataene

Afhængigt af hvor dine data kommer fra, kan du have flere muligheder for at indtage dem.

  • Brug datamigreringsværktøjer til at migrere data fra lokale eller fra en sky til en anden. Google Cloud tilbyder en overførselstjeneste til dette formål.
  • For at indtage data fra dine tredjeparts saas-tjenester skal du bruge API'er og sende dataene til datalageret. I Google Cloud BigQuery leverer det serverløse datalager en dataoverførselstjeneste, der giver dig mulighed for at hente data fra saas-apps som YouTube, Google Ads, Amazon S3, Teradata, ResShift og mere.
  • Du kan også streame realtidsdata fra dine applikationer med Pub / Sub-tjenesten. Du konfigurerer en datakilde til at skubbe begivenhedsmeddelelser til Pub / Sub, hvorfra en abonnent henter beskeden og træffer passende handling på den.
  • Hvis du har IoT-enheder, kan de streame realtidsdata ved hjælp af Cloud IoT-kerne, som understøtter MQTT-protokollen til IoT-enhederne. Du kan også sende IoT-data til Pub / Sub.

Sådan behandles dataene

Når dataene er indtaget, skal de behandles eller beriges for at gøre dem nyttige til downstream-systemerne.

Der er tre hovedværktøjer, der hjælper dig med at gøre det i Google Cloud:

  • Dataproc administreres i det væsentlige Hadoop. Hvis du bruger Hadoop-økosystemet, ved du, at det kan være kompliceret at konfigurere det, der involverer timer og endda dage. Dataproc kan spinde en klynge op på 90 sekunder, så du hurtigt kan begynde at analysere dataene.
  • Dataprep er et intelligent grafisk brugergrænsefladesværktøj, der hjælper dataanalytikere med at behandle data hurtigt uden at skulle skrive nogen kode.  
  • Dataflow er serverløs databehandlingstjeneste til streaming og batchdata. Det er baseret på Apache Beam open source SDK, der gør dine rørledninger bærbare. Tjenesten adskiller lagring fra computing, som gør det muligt at skalere problemfrit. For flere detaljer henvises til GCPSketchnoten nedenfor.

Sådan opbevares dataene

Når du er behandlet, skal du gemme dataene i en datasø eller et datalager til enten langvarig arkivering eller til rapportering og analyse.

Der er to hovedværktøjer, der hjælper dig med at gøre det i Google Cloud:

Google Cloud Storage er en objektbutik til billeder, videoer, filer og så videre, som kommer i 4 typer:

  1. Standardlagring: God til "hot" -data, der ofte åbnes, inklusive websteder, streamingvideoer og mobilapps.
  2. Nearline Storage: lave omkostninger. God til data, der kan lagres i mindst 30 dage, inklusive sikkerhedskopiering af data og langhale multimedieindhold.
  3. Opbevaring af Coldline: Meget lave omkostninger. God til data, der kan lagres i mindst 90 dage, inklusive katastrofegendannelse.
  4. Arkivopbevaring: Laveste pris. God til data, der kan lagres i mindst 365 dage, inklusive lovgivningsarkiver.

BigQuery er et serverløst datalager, der skaleres problemfrit til petabyte data uden at skulle administrere eller vedligeholde nogen server.

Du kan gemme og forespørge om data i BigQuery ved hjælp af SQL. Derefter kan du nemt dele data og forespørgsler med andre på dit team.

Det huser også 100'ere af gratis offentlige datasæt, som du kan bruge i din analyse. Og det giver indbyggede stik til andre tjenester, så data let kan indtages i det og ekstraheres ud af det til visualisering eller videre behandling / analyse.

Sådan analyseres dataene

Når dataene er behandlet og gemt i en datasø eller et datalager, er de klar til at blive analyseret.  

Hvis du bruger BigQuery til at gemme dataene, kan du direkte analysere disse data i BigQuery ved hjælp af SQL.

Hvis du bruger Google Cloud Storage, kan du nemt flytte dataene til BigQuery.

BigQuery tilbyder også Machine Learning-funktioner med BigQueryML. Så du kan oprette modeller og forudsige lige fra BigQuery UI ved hjælp af den måske mere velkendte SQL.

Sådan bruges og visualiseres dataene

Brug af dataene

Når dataene er i datalageret, kan du bruge dem til at få indsigt og komme med forudsigelser ved hjælp af maskinindlæring.

For yderligere behandling og forudsigelser kan du bruge Tensorflow-rammen og AI-platformen afhængigt af dine behov.

Tensorflow er en ende-til-ende open source maskinlæringsplatform med værktøjer, biblioteker og samfundsressourcer.

AI-platform gør det let for udviklere, dataforskere og dataingeniører at strømline deres ML-arbejdsgange. Det inkluderer værktøjer til hvert trin i ML-livscyklussen startende fra Forberedelse -> Bygge -> Validering -> Implementering.

Visualisering af dataene

Der er mange forskellige værktøjer til datavisualisering, og de fleste af dem har et stik til BigQuery for nemt at oprette diagrammer i det valgte værktøj.

Google Cloud tilbyder et par værktøjer, som du måske finder nyttige at se på.

  • Data Studio er gratis og forbinder ikke kun med BigQuery, men også med mange andre tjenester for nem datavisualisering. Hvis du har brugt Google Drive, er deling af diagrammer og dashboards nøjagtigt sådan - ekstremt let.
  • Derudover er Looker en virksomhedsplatform til forretningsinformation, dataprogrammer og indlejret analyse.

Konklusion

Der er meget, der foregår i en dataanalyserørledning. Uanset hvilket værktøj du vælger at bruge, skal du sørge for, at de kan skaleres, når dine data vokser i fremtiden.

For mere sådant indhold kan du følge mig på Twitter, @pvergadia og besøge min hjemmeside, thecloudgirl.dev.