Sådan skæres AI-hype igennem for at blive maskinlæringsingeniør

Jeg er sikker på, at du har hørt om de utrolige applikationer af kunstig intelligens derude - fra programmer, der kan slå verdens bedste Go-spillere til selvkørende biler.

Problemet er, at de fleste mennesker bliver fanget af AI-hype og blander tekniske diskussioner med filosofiske.

Hvis du ønsker at skære igennem AI-hype og arbejde med praktisk implementerede datamodeller, skal du træne mod en dataingeniør- eller maskinlæringsingeniørposition.

Se ikke efter interessante AI-applikationer inden for AI-artikler. Se efter dem i data engineering eller maskinlæring tutorials.

Dette er de skridt, jeg tog for at bygge denne sjove lille skraber, jeg byggede for at analysere kønsdiversitet i forskellige kodende bootcamps. Det er den vej, jeg tog for at undersøge Springboards nye AI / ML online bootcamp med jobgaranti.

Her er en trinvis vejledning til at komme ind i maskinlæringsrummet med et kritisk sæt ressourcer knyttet til hver enkelt.

1. Start med at pusse op på din Python- og softwareudviklingspraksis

Du vil starte med at omfavne Python, det valgte sprog for de fleste maskinlæringsingeniører.

Det praktiske script-sprog er det valgte værktøj for de fleste dataingeniører og dataforskere. De fleste værktøjer til data er bygget i Python eller har bygget API-adgang til nem Python-adgang.

Heldigvis er Pythons syntaks relativt let at hente. Sproget har masser af dokumentations- og træningsressourcer. Det inkluderer også support til alle mulige programmeringsparadigmer fra funktionel programmering til objektorienteret programmering.

Den ene ting, der kan være lidt svært at hente, er den tabning og afstand, der kræves for at organisere og aktivere din kode. I Python betyder det hvide område virkelig noget.

Som maskinlæringsingeniør arbejder du i et team for at opbygge komplekse, ofte missionskritiske applikationer. Så nu er det også et godt tidspunkt at opdatere til softwareteknisk bedste praksis.

Lær at bruge samarbejdsværktøjer som Github. Bliv vane med at skrive grundige enhedstest til din kode ved hjælp af testrammer som næse. Test dine API'er ved hjælp af værktøjer som Postman. Brug CI-systemer som Jenkins for at sikre, at din kode ikke går i stykker. Udvikle gode kodevurderingsfærdigheder til at arbejde bedre sammen med dine fremtidige tekniske kolleger.

En ting at læse : Hvad er den bedste Python IDE til datalogi? Tag en hurtig gennemlæsning, så du kan forstå, hvilket værktøjssæt du vil arbejde i for at implementere Python på datasæt.

Jeg bruger Jupyter Notebook selv, da den leveres forudinstalleret med de fleste af de vigtige datavidenskabelige biblioteker, du vil bruge. Den leveres med en nem, ren interaktiv grænseflade, der giver dig mulighed for at redigere din kode på farten.

Jupyter Notebook leveres også med udvidelser, der giver dig mulighed for nemt at dele dine resultater med hele verdenen. De genererede filer er også super nemme at arbejde med på Github.

Én ting at gøre : Pandas Cookbook giver dig mulighed for at forkaste live eksempler på Pandas-rammen, et af de mest kraftfulde databehandlingsbiblioteker. Du kan hurtigt arbejde igennem et eksempel på, hvordan du spiller med et datasæt gennem det.

2. Se på maskinlæringsrammer og teori

Når du først spiller rundt med Python og træner med det, er det tid til at begynde at se på maskinlæringsteori.

Du lærer, hvilke algoritmer du skal bruge. At have en grundlæggende viden om teorien bag maskinlæring giver dig mulighed for let at implementere modeller.

En ting at læse : En rundvisning i de ti største algoritmer til maskinindlæring Nybegyndere hjælper dig med at komme i gang med det grundlæggende. Du lærer, at der ikke er en "gratis frokost". Der er ingen algoritme, der giver dig det optimale resultat for hver indstilling, så du bliver nødt til at dykke ned i hver algoritme.

Én ting at gøre : Spil rundt med den interaktive Free Machine Learning i Python Course - udvikle dine Python-færdigheder og start implementering af algoritmer.

3. Begynd at arbejde med datasæt og eksperimentere

Du har værktøjerne og teorien under dit bælte. Du bør overveje at lave små miniprojekter, der kan hjælpe dig med at forbedre dine færdigheder.

Én ting at læse : Se på 19 gratis offentlige datasæt til dit første datavidenskabsprojekt, og begynd at se på, hvor du kan finde forskellige datasæt på nettet at lege med.

Én ting at gøre : Kaggle datasæt giver dig mulighed for at arbejde med masser af offentligt tilgængelige datasæt. Hvad der er sejt ved denne samling er, at du kan se, hvor populære visse datasæt er. Du kan også se, hvilke andre projekter der er bygget med det samme datasæt.

4. Skaler dine datafærdigheder med Hadoop eller Spark

Nu hvor du træner på mindre datasæt, vil du gerne lære at arbejde med Hadoop eller Spark. Dataingeniører arbejder med streaming, realtidsdata på produktionsniveau i terabyte og undertiden petabyte skala. Skab dig ved at lære dig vej gennem en big data-ramme.

Én ting at læse : Denne korte artikel Hvordan samles Hadoop og Spark? vil hjælpe dig med at gå gennem både Hadoop og Spark og hvordan de sammenligner og kontrasterer med hinanden.

En ting at gøre : Hvis du med det samme vil begynde at arbejde med en big data-ramme, tilbyder Spark Jupyter-notesbøger, der er hostet på Databricks, en introduktion til tutorial-niveauet til rammen og får dig til at øve dig med kodeeksempler på produktionsniveau.

5. Arbejd med en dyb læringsramme som TensorFlow

Du er færdig med at udforske maskinlæringsalgoritmer og arbejde med de forskellige big data-værktøjer derude.

Nu er det tid til at påtage sig den slags kraftfuld forstærkningslæring, der har været fokus for nye fremskridt. Lær TensorFlow-rammen, så er du i forkant med maskinindlæringsarbejde.

Én ting at læse : Læs Hvad er TensorFlow? og forstå hvad der foregår under emhætten, når det kommer til denne kraftfulde dyb læringsramme.

Én ting at gøre : TensorFlow og Deep Learning uden ph.d. er et interaktivt kursus bygget af Google, der kombinerer teori placeret i dias med praktiske laboratorier med kode.

6. Begynd at arbejde med store datasæt på produktionsniveau

Nu hvor du har arbejdet med dybe læringsrammer, kan du begynde at arbejde hen imod store datasæt på produktionsniveau.

Som maskinlæringsingeniør tager du komplekse tekniske beslutninger om styring af store mængder data og implementering af dine systemer.

Dette vil omfatte indsamling af data fra API'er og webskrabning, SQL + NoSQL-databaser, og når du bruger dem, brug af pipeline-rammer som Luigi eller Airflow.

Når du distribuerer dine applikationer, kan du bruge containerbaserede systemer som Docker til skalerbarhed og pålidelighed og værktøjer såsom Flask til at oprette API'er til din applikation.

En ting at læse : 7 måder at håndtere store datafiler til maskinindlæring er en god teoretisk øvelse i, hvordan du vil håndtere store datasæt og kan tjene som en praktisk tjekliste over taktikker, du kan bruge.

Én ting at gøre : Offentligt tilgængelige Big Data Sets er en liste over steder, hvor du kan få meget store datasæt - klar til at øve dine nyfundne data engineering færdigheder på.

7. Øve, øve, øve, bygge mod en portefølje og derefter et job

Endelig er du kommet til et punkt, hvor du kan opbygge arbejdsmaskineindlæringsmodeller. Det næste skridt til at fremme din maskinlæringskarriere er at finde et job hos et firma, der har disse store datasæt, så du kan anvende dine færdigheder hver dag på et banebrydende maskinindlæringsproblem.

En ting at læse : 41 vigtige Machine Learning Interview-spørgsmål (med svar) hjælper dig med at øve den viden, du har brug for til at få et maskinlæringsinterview.

Én ting at gøre : Gå ud og find møder, der er dedikeret til maskinindlæring eller datateknik på Meetup - det er en fantastisk måde at møde jævnaldrende i rummet og potentielle ansættelsesledere.

Forhåbentlig har denne tutorial hjulpet med at skære igennem hype omkring AI til noget praktisk og skræddersyet, som du kan bruge. Hvis du har lyst til, at du har brug for lidt mere, tilbyder firmaet, jeg arbejder med, Springboard, et karriere track bootcamp dedikeret til AI og machine learning med en jobgaranti og 1: 1 mentorskab fra machine learning eksperter.