Jeg rangerede hvert Intro to Data Science-kursus på internettet baseret på tusindvis af datapunkter

For et år siden faldt jeg ud af et af de bedste datalogiprogrammer i Canada. Jeg begyndte at oprette mit eget datalogi-masterprogram ved hjælp af online ressourcer. Jeg indså, at jeg i stedet kunne lære alt hvad jeg havde brug for gennem edX, Coursera og Udacity. Og jeg kunne lære det hurtigere, mere effektivt og for en brøkdel af prisen.

Jeg er næsten færdig nu. Jeg har taget mange datavidenskabelige kurser og revideret dele af mange flere. Jeg kender mulighederne derude, og hvilke færdigheder der er nødvendige for elever, der forbereder sig på en dataanalytiker eller datavidenskabsrolle. For et par måneder siden begyndte jeg at oprette en gennemgangsdrevet guide, der anbefaler de bedste kurser til hvert emne inden for datalogi.

Til den første guide i serien anbefalede jeg et par kodningskurser til nybegyndere. Så var det statistik og sandsynlighedsklasser.

Nu på introduktioner til datavidenskab.

(Bare rolig, hvis du er i tvivl om, hvad en introduktion til datalogisk kursus indebærer. Jeg forklarer snart.)

Til denne vejledning brugte jeg 10+ timer på at forsøge at identificere hver online introduktion til datalogikursus, der blev tilbudt fra januar 2017, udtrække nøglebits af information fra deres pensum og anmeldelser og udarbejde deres ratings. Til denne opgave henvendte jeg mig til ingen ringere end open source Class Central-samfundet og dets database med tusindvis af kursusbedømmelser og anmeldelser.

Siden 2011 har Class Central-grundlægger Dhawal Shah holdt øje med onlinekurser end uden tvivl nogen andre i verden. Dhawal hjalp mig personligt med at samle denne liste over ressourcer.

Hvordan vi valgte kurser til at overveje

Hvert kursus skal opfylde tre kriterier:

  1. Det skal undervise i datalogiprocessen. Mere om det snart.
  2. Det skal være on-demand eller tilbydes hvert par måneder.
  3. Det skal være et interaktivt online kursus, så ingen bøger eller skrivebeskyttede tutorials . Selvom disse er levedygtige måder at lære, fokuserer denne guide på kurser.

Vi mener, at vi dækkede alle bemærkelsesværdige kurser, der passer til ovenstående kriterier. Da der tilsyneladende er hundredvis af kurser på Udemy, valgte vi kun at overveje de mest gennemgåede og højest vurderede. Der er dog altid en chance for, at vi savnede noget. Så lad os det vide i kommentarfeltet, hvis vi har udeladt et godt kursus.

Hvordan vi vurderede kurser

Vi har samlet en gennemsnitlig vurdering og et antal anmeldelser fra Class Central og andre anmeldelsessider for at beregne en vægtet gennemsnitlig vurdering for hvert kursus. Vi læste tekstanmeldelser og brugte denne feedback til at supplere de numeriske vurderinger.

Vi foretog subjektive pensumopkald baseret på to faktorer:

1. Dækning af datavidenskabsprocessen. Bør kurset over eller springe visse emner over? Dækker det visse emner for meget detaljeret? Se det næste afsnit for, hvad denne proces indebærer.

2. Brug af almindelige datavidenskabelige værktøjer. Undervises kurset ved hjælp af populære programmeringssprog som Python og / eller R? Disse er ikke nødvendige, men nyttige i de fleste tilfælde, så disse kurser foretrækkes en smule.

Hvad er datavidenskabsprocessen?

Hvad er datavidenskab? Hvad gør en datavidenskabsmand? Dette er de typer grundlæggende spørgsmål, som en introduktion til datalogisk kursus skal besvare. Følgende infografik fra Harvard-professorerne Joe Blitzstein og Hanspeter Pfister skitserer en typisk datavidenskabsproces , som vil hjælpe os med at besvare disse spørgsmål.

Vores mål med denne introduktion til datalogisk kursus er at blive fortrolig med datalogiprocessen. Vi ønsker ikke for dybdegående dækning af specifikke aspekter af processen, deraf ”intro til” delen af ​​titlen.

For hvert aspekt forklarer det ideelle kursus nøglebegreber inden for rammerne af processen, introducerer fælles værktøjer og giver et par eksempler (helst praktisk).

Vi leder kun efter en introduktion. Denne vejledning inkluderer derfor ikke fulde specialiseringer eller programmer som Johns Hopkins University's Data Science Specialization on Coursera eller Udacitys Data Analyst Nanodegree. Disse samlinger af kurser undgår formålet med denne serie: at finde de bedste individuelle kurser for hvert fag, der omfatter en datalogisk uddannelse. De sidste tre guider i denne artikelserie dækker hvert aspekt af datavidenskabsprocessen i detaljer.

Grundlæggende kodning, statistik og sandsynlighedsoplevelse krævet

Flere kurser, der er anført nedenfor, kræver grundlæggende programmering, statistik og sandsynlighedsoplevelse. Dette krav er forståeligt i betragtning af at det nye indhold er rimeligt avanceret, og at disse fag ofte har flere kurser dedikeret til dem.

Denne erfaring kan tilegnes gennem vores anbefalinger i de to første artikler (programmering, statistik) i denne Data Science Career Guide.

Vores valg til det bedste kursus i datalogi er ...

  • Datavidenskab AZ ™: Real Life Data Science-øvelser inkluderet (Kirill Eremenko / Udemy)

Kirill Eremenkos Data Science AZ ™ på Udemy er den klare vinder med hensyn til bredden og dybden af ​​dækningen af ​​datalogiprocessen i de 20+ kurser, der kvalificerede sig. Det har en 4,5-stjernet vægtet gennemsnitlig vurdering over 3.071 anmeldelser, hvilket placerer det blandt de bedst bedømte og mest anmeldte baner af de overvejede.

Den skitserer den fulde proces og giver eksempler fra det virkelige liv. Ved 21 timers indhold er det en god længde. Kritikere elsker instruktørens levering og organisering af indholdet. Prisen varierer afhængigt af Udemy-rabatter, som er hyppige, så du kan muligvis købe adgang for så lidt som $ 10.

Selvom det ikke markerer vores boks "brug af almindelige datavidenskabelige værktøjer" , bruges valgmulighederne for ikke-Python / R-værktøjer (gretl, Tableau, Excel) effektivt i sammenhæng. Eremenko nævner følgende, når han forklarer gretl-valget (gretl er en statistisk softwarepakke), selvom det gælder for alle de værktøjer, han bruger (fremhævelse min):

I gretl vil vi være i stand til at udføre den samme modellering ligesom i R og Python, men vi behøver ikke kode. Det er den store ting her. Nogle af jer kender måske allerede R meget godt, men andre kender det måske slet ikke. Mit mål er at vise dig, hvordan du bygger en robust model og giver dig en ramme, som du kan anvende i ethvert værktøj, du vælger . gretl hjælper os med at undgå at blive kørt fast i vores kodning.

En fremtrædende anmelder bemærkede følgende:

Kirill er den bedste lærer, jeg har fundet online. Han bruger eksempler fra det virkelige liv og forklarer almindelige problemer, så du får en dybere forståelse af kurserne. Han giver også en masse indsigt i, hvad det vil sige at være datavidenskabsmand fra at arbejde med utilstrækkelige data hele vejen til at præsentere dit arbejde for C-klasse ledelse. Jeg kan varmt anbefale dette kursus til begyndere til mellemliggende dataanalytikere!

En fantastisk introduktion til Python-fokus

  • Introduktion til dataanalyse (Udacity)

Udacitys introduktion til dataanalyse er et relativt nyt tilbud, der er en del af Udacitys populære dataanalytiker Nanodegree. Det dækker datavidenskabsprocessen klart og sammenhængende ved hjælp af Python, selvom det mangler lidt i modelleringsaspektet. Den anslåede tidslinje er 36 timer (seks timer om ugen over seks uger), selvom det er kortere efter min erfaring. Det har en 5-stjernet vægtet gennemsnitlig vurdering over to anmeldelser. Det er gratis.

Videoerne er godt produceret, og instruktøren (Caroline Buckey) er klar og nacn. Masser af programmeringsquizzer håndhæver de begreber, der læres i videoerne. Studerende vil forlade kurset med tillid til deres nye og / eller forbedrede NumPy- og Pandas-færdigheder (disse er populære Python-biblioteker). Det afsluttende projekt - som er bedømt og gennemgået i Nanodegree, men ikke i det gratis individuelle kursus - kan være en god tilføjelse til en portefølje.

Et imponerende tilbud uden gennemgangsdata

  • Data Science Fundamentals (Big Data University)

Data Science Fundamentals er en fire-retters serie leveret af IBMs Big Data University. Det inkluderer kurser med titlen Data Science 101, Data Science Methodology, Data Science Hands-on med Open Source Tools og R 101.

Det dækker hele datavidenskabsprocessen og introducerer Python, R og flere andre open source-værktøjer. Kurserne har en enorm produktionsværdi. Der beregnes 13–18 timers indsats, afhængigt af om du tager kurset “R 101” i slutningen, hvilket ikke er nødvendigt med henblik på denne guide. Desværre har den ingen gennemgangsdata på de største gennemgangssider, som vi brugte til denne analyse, så vi kan ikke anbefale det over ovenstående to muligheder endnu. Det er gratis.

Konkurrencen

Vores nummer 1-valg havde en vægtet gennemsnitlig vurdering på 4,5 ud af 5 stjerner over 3.068 anmeldelser. Lad os se på de andre alternativer sorteret efter faldende vurdering. Nedenfor finder du flere R-fokuserede kurser, hvis du er indstillet på en introduktion på det sprog.

  • Python for datalogi og maskinlæring Bootcamp (Jose Portilla / Udemy): Fuld procesdækning med et værktøjstungt fokus (Python). Mindre procesdrevet og mere af en meget detaljeret introduktion til Python. Fantastisk kursus, men ikke ideel til omfanget af denne guide. Det, ligesom Joses R-kursus nedenfor, kan fordoble som både introduktioner til Python / R og introer til datalogi. 21,5 timers indhold. Det har en 4,7- stjernet vægtet gennemsnitlig vurdering over 1.644 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Data Science og Machine Learning Bootcamp med R (Jose Portilla / Udemy): Fuld procesdækning med et værktøjstungt fokus (R). Mindre procesdrevet og mere af en meget detaljeret introduktion til R. Fantastisk kursus, men ikke ideel til omfanget af denne guide. Det, som Joses Python-kursus ovenfor, kan fordoble som både introduktioner til Python / R og introer til datalogi. 18 timers indhold. Det har en 4.6- stjernet vægtet gennemsnitlig vurdering over 847 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Datalogi og maskinindlæring med Python - Hands On! (Frank Kane / Udemy): Delvis procesdækning. Fokuserer på statistik og maskinindlæring. Anstændig længde (ni timers indhold). Bruger Python. Den har en 4,5- stjernet vægtet gennemsnitlig vurdering over 3.104 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Introduktion til datalogi (Data Hawk Tech / Udemy): Fuld procesdækning, dog begrænset dybde af dækning. Ganske kort (tre timers indhold). Kort dækker både R og Python. Det har en 4,4- stjernet vægtet gennemsnitlig vurdering over 62 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Anvendt datalogi: En introduktion (Syracuse University / Open Education by Blackboard): Fuld procesdækning, men ikke jævnt fordelt. Fokuserer stærkt på grundlæggende statistik og R. For anvendt og ikke nok procesfokus til formålet med denne vejledning. Online kursusoplevelse føles adskilt. Den har en 4,33 stjernet vægtet gennemsnitlig vurdering over 6 anmeldelser. Ledig.
  • Introduktion til datavidenskab (Nina Zumel & John Mount / Udemy): Kun delvis procesdækning, dog god dybde i aspekterne til forberedelse af data og modellering. Okay længde (seks timers indhold). Bruger R. Det har en 4,3- stjernet vægtet gennemsnitlig vurdering over 101 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Anvendt datalogi med Python (V2 Maestros / Udemy): Fuld procesdækning med god dækningsdybde for hvert aspekt af processen. Anstændig længde (8,5 timers indhold). Bruger Python. Det har en 4,3- stjernet vægtet gennemsnitlig vurdering over 92 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Vil du være dataforsker? (V2 Maestros / Udemy): Fuld procesdækning, dog begrænset dækningsdybde. Ganske kort (3 timers indhold). Begrænset værktøjsdækning. Den har en 4,3- stjernet vægtet gennemsnitlig vurdering over 790 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Data til indsigt: en introduktion til dataanalyse (University of Auckland / FutureLearn): Dækningens bredde uklar. Påstår at fokusere på dataudforskning, opdagelse og visualisering. Ikke tilbudt efter anmodning. 24 timers indhold (tre timer om ugen over otte uger). Det har en 4- stjernet vægtet gennemsnitlig vurdering over 2 anmeldelser. Gratis med betalt certifikat til rådighed.
  • Data Science Orientation (Microsoft / edX): Delvis procesdækning (mangler modelleringsaspekt). Bruger Excel, hvilket giver mening, da det er et Microsoft-mærket kursus. 12–24 timers indhold (to-fire timer om ugen over seks uger). Det har en 3,95- stjernet vægtet gennemsnitlig vurdering over 40 anmeldelser. Gratis med bekræftet certifikat til rådighed for $ 25.
  • Data Science Essentials (Microsoft / edX): Fuld procesdækning med god dækningsdybde for hvert aspekt. Dækker R, Python og Azure ML (en Microsoft machine learning-platform). Flere 1-stjernede anmeldelser med henvisning til værktøjsvalg (Azure ML) og instruktørens dårlige levering. 18–24 timers indhold (tre-fire timer om ugen over seks uger). Den har en 3,81 stjernet vægtet gennemsnitlig vurdering over 67 anmeldelser. Gratis med bekræftet certifikat til rådighed for $ 49.
  • Anvendt datalogi med R (V2 Maestros / Udemy): R-ledsageren til V2 Maestros 'Python-kursus ovenfor. Fuld procesdækning med god dækningsdybde for hvert aspekt af processen. Anstændig længde (11 timers indhold). Bruger R. Den har en 3,8- stjernet vægtet gennemsnitlig vurdering over 212 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Introduktion til datalogi (Udacity): Delvis procesdækning, dog god dybde for de emner, der er omfattet. Mangler udforskningsaspektet, selvom Udacity har et stort, fuldt kursus i sonderende dataanalyse (EDA). Påstår at være 48 timer i længden (seks timer om ugen over otte uger), men er kortere efter min erfaring. Nogle anmeldelser mener, at opsætningen til det avancerede indhold mangler. Føles uorganiseret. Bruger Python. Den har en 3,61 stjernet vægtet gennemsnitlig vurdering over 18 anmeldelser. Ledig.
  • Introduktion til datalogi i Python (University of Michigan / Coursera): Delvis procesdækning. Ingen modellering og vizualisering, selvom kursus nr. 2 og nr. 3 i den anvendte datalogi med Python-specialisering dækker disse aspekter. At tage alle tre kurser ville være for dybtgående med henblik på denne vejledning. Bruger Python. Fire uger i længden. Den har en 3,6- stjernet vægtet gennemsnitlig vurdering over 15 anmeldelser. Gratis og betalte muligheder til rådighed.
  • Datadrevet beslutningstagning (PwC / Coursera): Delvis dækning (mangler modellering) med et forretningsfokus. Introducerer mange værktøjer, herunder R, Python, Excel, SAS og Tableau. Fire uger i længden. Den har en 3,5- stjernet vægtet gennemsnitlig vurdering over 2 anmeldelser. Gratis og betalte muligheder til rådighed.
  • Et nedbrudskursus i datavidenskab (Johns Hopkins University / Coursera): En ekstremt kort oversigt over hele processen. For kort til formålet med denne serie. To timer i længden. Den har en 3,4- stjernet vægtet gennemsnitlig vurdering over 19 anmeldelser. Gratis og betalte muligheder til rådighed.
  • Data Scientists værktøjskasse (Johns Hopkins University / Coursera): En ekstremt kort oversigt over hele processen. Mere af et opsætningskursus for Johns Hopkins University's Data Science Specialization. Påstande om at have 4–16 timers indhold (en-fire timer om ugen over fire uger), selvom en anmelder bemærkede, at det kunne være afsluttet på to timer. Den har en 3,22- stjernet vægtet gennemsnitlig vurdering over 182 anmeldelser. Gratis og betalte muligheder til rådighed.
  • Datastyring og visualisering (Wesleyan University / Coursera): Delvis procesdækning (mangler modellering). Fire uger i længden. God produktionsværdi. Bruger Python og SAS. Den har en vejd gennemsnitsvurdering på 2,67 stjerner over 6 anmeldelser. Gratis og betalte muligheder til rådighed.

De følgende kurser havde ingen anmeldelser pr. Januar 2017.

  • CS109 Data Science (Harvard University): Fuld procesdækning i stor dybde (sandsynligvis for dybtgående til formålet med denne serie). Et fuldt 12-ugers bachelor-kursus. Kursnavigation er vanskelig, da kurset ikke er designet til online forbrug. Faktiske Harvard-forelæsninger er filmet. Ovenstående datavidenskabelige proces infografik stammer fra dette kursus. Bruger Python. Ingen gennemgangsdata. Ledig.
  • Introduktion til dataanalyse for virksomheder (University of Colorado Boulder / Coursera): Delvis procesdækning (mangler modellerings- og visualiseringsaspekter) med fokus på forretning. Datavidenskabsprocessen er forklædt som "Information-Action-værdikæden" i deres forelæsninger. Fire uger i længden. Beskriver flere værktøjer, men dækker kun SQL i enhver dybde. Ingen gennemgangsdata. Gratis og betalte muligheder til rådighed.
  • Introduktion til datalogi (Lynda): Fuld procesdækning, dog begrænset dækningsdybde. Ganske kort (tre timers indhold). Introducerer både R og Python. Ingen gennemgangsdata. Omkostningerne afhænger af Lynda-abonnementet.

Pakning af det

Dette er den tredje af en seks-delt serie, der dækker de bedste online-kurser til at starte dig selv ind i datavidenskabsområdet. Vi dækkede programmering i den første artikel og statistik og sandsynlighed i den anden artikel. Resten af ​​serien dækker andre datavidenskabelige kernekompetencer: datavisualisering og maskinindlæring.

Hvis du vil lære datalogi, skal du starte med en af ​​disse programmeringsklasser

Hvis du vil lære datalogi, skal du tage et par af disse statistikklasser

Det sidste stykke vil være et resumé af disse artikler plus de bedste onlinekurser til andre nøgleemner såsom datakørsel, databaser og endda software engineering.

Hvis du leder efter en komplet liste over datavidenskab online-kurser, kan du finde dem på Class Centers side om datalogi og big data.

Hvis du kunne lide at læse dette, så tjek nogle af Class Centrals andre stykker:

Her er 250 Ivy League kurser, du kan tage online lige nu gratis

250 MOOC'er fra Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton og Yale.

De 50 bedste gratis online universitetskurser ifølge data

Da jeg lancerede Class Central tilbage i november 2011, var der omkring 18 gratis online-kurser og næsten alle ...

Hvis du har forslag til kurser, jeg savnede, så lad mig det vide i svarene!

Hvis du fandt dette nyttigt, skal du klikke på? så flere mennesker vil se det her på Medium.

Dette er en kondenseret version af min originale artikel offentliggjort på Class Central, hvor jeg har inkluderet yderligere kursusbeskrivelser, pensum og flere anmeldelser.