Håbende dataforsker? Mestre disse grundlæggende.

Datavidenskab er et spændende, hurtigtgående felt at blive involveret i. Der er ingen mangel på efterspørgsel efter talentfulde, analytisk sindede personer. Virksomheder i alle størrelser ansætter dataforskere, og rollen giver reel værdi på tværs af en bred vifte af brancher og applikationer.

Ofte kommer folks første møder med marken gennem læsning af sci-fi-overskrifter genereret af store forskningsorganisationer. Nylige fremskridt har rejst udsigten til maskinlæring, der transformerer verden, som vi kender den inden for en generation.

Men uden for den akademiske verden og forskning handler datavidenskab om meget mere udover overordnede emner som dyb læring og NLP.

Meget af en dataforskers kommercielle værdi kommer fra at give den klarhed og indsigt, som store mængder data kan bringe. Rollen kan omfatte alt fra datateknik til dataanalyse og rapportering - med måske noget maskinindlæring kastet ind for godt mål.

Dette er især tilfældet hos et opstartsfirma. Tidlige og mellemstore virksomheders databehov er typisk langt væk fra neurale netværk og computersyn. (Medmindre det naturligvis er kernefunktioner i deres produkt / service).

Snarere har de brug for nøjagtig analyse, pålidelige processer og evnen til at skalere hurtigt.

Derfor er de nødvendige færdigheder til mange annoncerede datalogiske roller brede og varierede. Som enhver forfølgelse i livet kommer meget af værdien fra at mestre det grundlæggende. Den sagnomsuste 80:20-regel gælder - ca. 80% af værdien kommer fra 20% af færdighedssættet.

Her er en oversigt over nogle af de grundlæggende færdigheder, som enhver håbende dataforsker skal mestre.

Start med statistik

Den vigtigste egenskab, som en dataforsker bringer til deres virksomhed, er evnen til at destillere indsigt fra kompleksitet. Nøglen til at opnå dette er at forstå, hvordan man afdækker mening fra støjende data.

Statistisk analyse er derfor en vigtig færdighed at mestre. Statistik giver dig mulighed for:

  • Beskriv data for at give et detaljeret billede til interessenter
  • Sammenlign data og test hypoteser for at informere forretningsbeslutninger
  • Identificer tendenser og relationer, der giver reel forudsigelsesværdi

Statistik giver et stærkt sæt værktøjer til at give mening om kommercielle og operationelle data.

Men vær forsigtig! Den ene ting værre end begrænset indsigt er vildledende indsigt. Dette er grunden til, at det er vigtigt at forstå det grundlæggende i statistisk analyse.

Heldigvis er der et par vejledende principper, du kan følge.

Vurder dine antagelser

Det er meget vigtigt at være opmærksom på dine antagelser om dine data.

Vær altid kritisk over for herkomst og skeptisk over for resultater. Kan der være en 'uinteressant' forklaring på eventuelle observerede tendenser i dine data? Hvor gyldig er din valgte statistiktest eller -metode? Opfylder dine data alle de underliggende antagelser?

At vide, hvilke fund der er 'interessante' og værd at rapportere, afhænger også af dine antagelser. Et elementært eksempel er at bedømme, om det er mere hensigtsmæssigt at rapportere gennemsnittet eller medianen af ​​et datasæt.

Ofte vigtigere end at vide, hvilken tilgang man skal tage, er at vide, hvilken ikke . Der er normalt flere måder at analysere et givet sæt data på, men sørg for at undgå almindelige faldgruber.

For eksempel skal der altid korrigeres for flere sammenligninger. Under ingen omstændigheder skal du søge at bekræfte en hypotese ved hjælp af de samme data, der bruges til at generere den! Du vil blive overrasket over, hvor let dette gøres.

Distribution> Placering

Når jeg taler om indledende statistik, sørger jeg altid for at understrege et bestemt punkt: fordelingen af ​​en variabel er normalt mindst lige så interessant / informativ som dens placering. Faktisk er det ofte mere.

Dette skyldes, at distributionen af ​​en variabel normalt indeholder oplysninger om de underliggende generative (eller sampling) processer.

For eksempel følger tælledata ofte en Poisson-fordeling, hvorimod et system, der udviser positiv feedback ("forstærkning") har tendens til at overflade en strømlovsfordeling. Stol aldrig på, at data distribueres normalt uden først at kontrollere omhyggeligt.

For det andet er forståelse af distributionen af ​​data afgørende for at vide, hvordan man arbejder med det! Mange statistiske tests og metoder er afhængige af antagelser om, hvordan dine data distribueres.

Som et konstrueret eksempel skal du altid sørge for at behandle unimodale og bimodale data forskelligt. De kan have det samme gennemsnit, men du vil miste en hel masse vigtig information, hvis du ser bort fra deres distributioner.

For et mere interessant eksempel, der illustrerer, hvorfor du altid skal kontrollere dine data, før du rapporterer sammenfattende statistik, skal du kigge på Anscombes kvartet:

Hver graf ser meget særpræget ud, ikke? Alligevel har hver identisk sammenfattende statistik - inklusive deres middel, varians og korrelationskoefficienter. Planlægning af nogle af distributionerne afslører, at de er ret forskellige.

Endelig bestemmer fordelingen af ​​en variabel den sikkerhed, du har om dens sande værdi. En 'snæver' fordeling tillader højere sikkerhed, mens en 'bred' distribution tillader mindre.

Variationen omkring et gennemsnit er afgørende for at give sammenhæng. Alt for ofte rapporteres midler med meget brede tillidsintervaller sammen med midler med meget snævre tillidsintervaller. Dette kan være vildledende.

Egnet prøveudtagning

Virkeligheden er, at prøveudtagning kan være et smertepunkt for kommercielt orienterede dataforskere, især for dem med baggrund inden for forskning eller teknik.

I en forskningsmiljø kan du finjustere nøjagtigt designede eksperimenter med mange forskellige faktorer og niveauer og kontrollere behandlinger. Imidlertid er 'live' kommercielle forhold ofte ikke optimale set fra et dataindsamlingsperspektiv. Enhver beslutning skal nøje afvejes mod risikoen for at afbryde 'business-as-usual'.

Dette kræver, at dataforskere er opfindsomme, men alligevel realistiske, med deres tilgang til problemløsning.

A / B-test er et kanonisk eksempel på en tilgang, der illustrerer, hvordan produkter og platforme kan optimeres på et granulært niveau uden at forårsage større forstyrrelser i forretningen som normalt.

Bayesiske metoder kan være nyttige til at arbejde med mindre datasæt, hvis du har et rimeligt informativt sæt prioriteter at arbejde fra.

Med de data, du indsamler, skal du huske at genkende dens begrænsninger.

Undersøgelsesdata er tilbøjelige til at prøve bias (ofte er det respondenter med de stærkeste meninger, der tager sig tid til at gennemføre undersøgelsen). Tidsserier og geodata kan påvirkes af autokorrelation. Og sidst men ikke mindst, skal du altid være opmærksom på multikollinearitet, når du analyserer data fra relaterede kilder.

Data Engineering

Det er noget af en data science-kliché, men virkeligheden er, at meget af data-workflowet bruges til sourcing, rengøring og lagring af de rådata, der kræves til den mere indsigtsfulde opstrømsanalyse.

Der bruges faktisk lidt tid på at implementere algoritmer fra bunden. Faktisk kommer de fleste statistiske værktøjer med deres indre arbejde pakket ind i pæne R-pakker og Python-moduler.

ETL-processen ('extract-transform-load') er kritisk for ethvert datalogisk teams succes. Større organisationer vil have dedikerede dataingeniører til at imødekomme deres komplekse krav til datainfrastruktur, men yngre virksomheder er ofte afhængige af deres dataforskere for at have stærke, alsidige datatekniske færdigheder.

Programmering i praksis

Datavidenskab er yderst tværfagligt. Ud over avancerede analytiske færdigheder og domænespecifik viden kræver rollen også solide programmeringsevner.

Der er ikke noget perfekt svar på hvilke programmeringssprog en håbende dataforsker skal lære at bruge. Når det er sagt, vil mindst en af ​​Python og / eller R tjene dig meget godt.

Uanset hvilket sprog du vælger, sigter du mod at blive fortrolig med alle dens funktioner og det omgivende økosystem. Gennemse de forskellige pakker og moduler, der er tilgængelige for dig, og opsæt din perfekte IDE. Lær de API'er, du skal bruge til at få adgang til din virksomheds kerneplatforme og -tjenester.

Databaser er et integreret stykke i puslespillet i enhver dataarbejdsgang. Sørg for at mestre nogle dialekter af SQL. Det nøjagtige valg er ikke så vigtigt, fordi skift mellem dem er en håndterbar proces, når det er nødvendigt.

NoSQL-databaser (såsom MongoDB) kan også være værd at lære om, hvis din virksomhed bruger dem.

At blive en selvsikker kommandolinjebruger vil gå langt med at øge din daglige produktivitet. Selv ved at kende fortrolighed med simpel bash-scripting får du en stærk start, når det kommer til automatisering af gentagne opgaver.

Effektiv kodning

En meget vigtig færdighed for håbende dataforskere at mestre er kodning effektivt. Genanvendelighed er nøglen. Det er værd at tage sig tid (når den er tilgængelig) til at skrive kode på et abstraktionsniveau, der gør det muligt at bruge den mere end én gang.

Der er dog en balance mellem kort og lang sigt.

Det har ingen mening at tage dobbelt så lang tid at skrive et ad hoc-script for at kunne genbruges, hvis der ikke er nogen chance for, at det nogensinde vil være relevant igen. Alligevel er hvert minut, der bruges til at omlægge den gamle kode, der skal køres igen, et minut, der kunne have været gemt tidligere.

Bedste praksis inden for softwareteknik er værd at udvikle for at kunne skrive virkelig performant produktionskode.

Værktøj til versionshåndtering som Git gør implementering og vedligeholdelse af kode meget mere strømlinet. Task schedulers giver dig mulighed for at automatisere rutineprocesser. Regelmæssige kodevurderinger og aftalte dokumentationsstandarder vil gøre livet meget lettere for dit teams fremtidige selv.

I enhver linje med teknisk specialisering er der normalt ikke behov for at genopfinde hjulet. Data engineering er ingen undtagelse. Rammer som Airflow gør planlægning og overvågning af ETL-processer lettere og mere robuste. Til distribueret datalagring og -behandling er der Apache Spark og Hadoop.

Det er ikke vigtigt for en nybegynder at lære disse i dybden. Alligevel er det altid en fordel at have en bevidsthed om det omgivende økosystem og de tilgængelige værktøjer.

Kommuniker tydeligt

Datalogi er en fuld stack-disciplin med en vigtig frontend til interessenterne: rapporteringslaget.

Sagen er enkel - effektiv kommunikation medfører en betydelig kommerciel værdi. Med datalogi er der fire aspekter af effektiv rapportering.

  • Nøjagtighed

    Dette er afgørende af åbenlyse grunde. Færdigheden her er at vide, hvordan man fortolker dine resultater, samtidig med at man er klar over eventuelle begrænsninger eller forbehold, der måtte gælde. Det er vigtigt ikke at overdrive eller undervurdere relevansen af ​​et bestemt resultat.

  • Præcision

    Dette betyder noget, fordi enhver tvetydighed i din rapport kan føre til fejlagtig fortolkning af resultaterne. Dette kan have negative konsekvenser længere nede.

  • Kortfattet

    Hold din rapport så kort som muligt, men ikke kortere. Et godt format giver muligvis en vis kontekst til hovedspørgsmålet, inkluderer en kort beskrivelse af de tilgængelige data og giver et overblik over 'overskriftsresultaterne og grafikken. Ekstra detaljer kan (og bør) medtages i et tillæg.

  • Tilgængelig

    Der er et konstant behov for at afveje den tekniske nøjagtighed i en rapport med den virkelighed, at de fleste af dens læsere vil være eksperter inden for deres respektive områder og ikke nødvendigvis datalogi. Der er ikke noget let svar, der passer til alle her. Hyppig kommunikation og feedback hjælper med at skabe en passende ligevægt.

Grafik-spillet

Kraftige datavisualiseringer hjælper dig med at kommunikere komplekse resultater til interessenter effektivt. En veldesignet graf eller et diagram kan med et blik afsløre, hvad flere afsnit i teksten ville være nødvendige for at forklare.

Der er en bred vifte af gratis og betalte visualiserings- og instrumentbrættebygningsværktøjer derude, herunder Plotly, Tableau, Chartio, d3.js og mange andre.

For hurtige mock-ups kan du nogle gange ikke slå god, gammeldags regnearkssoftware som Excel eller Google Sheets. Disse gør jobbet efter behov, men mangler funktionaliteten i specialbygget visualiseringssoftware.

Når du bygger dashboards og grafik, er der en række vejledende principper, der skal overvejes. Den bagvedliggende udfordring er at maksimere informationsværdien af ​​visualiseringen uden at ofre 'læsbarhed'.

En effektiv visualisering afslører et overblik på højt niveau med et hurtigt blik. Mere kompleks grafik kan tage lidt længere tid for seeren at fordøje og bør derfor tilbyde meget større informationsindhold.

Hvis du kun nogensinde har læst en bog om datavisualisering, så er Edward Tufte's klassiske The Visual Display of Quantitative Informationer det fremragende valg.

Tufte populariserede og opfandt meget af feltet datavisualisering. Udbredte udtryk som 'chartjunk' og 'data tæthed' skylder Tuftes arbejde. Hans koncept med 'data-ink ratio' forbliver indflydelsesrig over tredive år.

Brug af farve, layout og interaktivitet vil ofte gøre forskellen mellem en god visualisering og en professionel af høj kvalitet.

I sidste ende berører færdigheder oftere forbundet med UX og grafisk design end datalogi ved at skabe en fantastisk datavisualisering. Læsning omkring disse emner i din fritid er en fantastisk måde at udvikle en bevidsthed om, hvad der fungerer og hvad der ikke fungerer.

Sørg for at tjekke steder som bl.ocks.org for inspiration!

Datavidenskab kræver en forskelligartet færdighedssæt

Der er fire kernefærdighedsområder, hvor du som en håbende dataforsker skal fokusere på at udvikle dig. De er:

  • Statistik, herunder både den underliggende teori og den virkelige verdens anvendelse.
  • Programmering i mindst en af ​​Python eller R samt SQL og brug af kommandolinjen
  • Bedste praksis inden for datateknik
  • Kommunikere dit arbejde effektivt

Bonus! Lær konstant

Hvis du har læst så langt og overhovedet føler dig modløs - vær sikker. Den vigtigste færdighed i et så hurtigtgående felt er at lære at lære og genlære. Der kommer uden tvivl nye rammer, værktøjer og metoder i de kommende år.

Den nøjagtige færdighedssæt, du lærer nu, skal muligvis opdateres fuldstændigt inden for fem til ti år. Forvent dette. Ved at gøre det og være forberedt kan du holde dig foran spillet gennem kontinuerlig genlæring.

Du kan aldrig vide alt, og sandheden er - ingen gør det nogensinde. Men hvis du mestrer det grundlæggende, vil du være i stand til at hente noget andet på et behov for at vide-basis.

Og det er uden tvivl nøglen til succes i enhver hurtigt udviklende disciplin.