Hvis du vil lære datalogi, skal du tage et par af disse statistikklasser

For et år siden var jeg en numerisk nørd uden kodende baggrund. Efter at have prøvet et online programmeringskursus blev jeg så inspireret, at jeg tilmeldte mig et af de bedste datalogiprogrammer i Canada.

To uger senere indså jeg, at jeg i stedet kunne lære alt hvad jeg havde brug for via edX, Coursera og Udacity. Så jeg faldt ud.

Beslutningen var ikke vanskelig. Jeg kunne lære det indhold, jeg ønskede hurtigere, mere effektivt og for en brøkdel af prisen.

Jeg havde allerede en universitetsgrad, og måske endnu vigtigere, jeg havde allerede universitetserfaringen. At betale $ 30K + for at gå tilbage til skolen syntes uansvarligt.

Jeg begyndte at oprette min egen datavidenskabsuddannelse ved hjælp af online kurser kort tid efter, efter at jeg var klar over, at det var en bedre pasform for mig end datalogi. Jeg gennemsøgte introduktionen til programmeringslandskab. Til den første artikel i denne serie anbefalede jeg et par kodningsklasser til nybegyndere data videnskabsmand.

Hvis du vil lære datalogi, skal du starte med en af ​​disse programmeringsklasser

En omfattende guide til online introduktion til programmeringskurser. medium.freecodecamp.com

Nu på statistik og sandsynlighed.

Jeg har taget et par kurser og revideret dele af mange. Jeg kender mulighederne derude, og hvilke færdigheder der er nødvendige for elever, der forbereder sig på en dataanalytiker eller datavidenskabsrolle.

Til denne vejledning brugte jeg 15+ timer på at forsøge at identificere hver online introduktion til statistik og sandsynlighedskursus, der blev tilbudt fra november 2016, udtrække nøglebits af information fra deres pensum og anmeldelser og udarbejde deres ratings. Til denne opgave henvendte jeg mig til ingen ringere end open source Class Central-samfundet og dets database med tusindvis af kursusbedømmelser og anmeldelser.

Siden 2011 har Class Central-grundlægger Dhawal Shah holdt øje med onlinekurser end uden tvivl nogen andre i verden. Dhawal hjalp mig personligt med at samle denne liste over ressourcer.

Hvordan vi valgte kurser til at overveje

Hvert kursus skal opfylde fire kriterier:

  1. Det skal være et indledende kursus med ringe eller ingen statistik eller sandsynlighedserfaring.
  2. Det skal være on-demand eller tilbydes hvert par måneder.
  3. Det skal være af anstændig længde : mindst ti timer i alt til estimeret afslutning.
  4. Det skal være et interaktivt online kursus, så ingen bøger eller skrivebeskyttede tutorials . Selvom disse er levedygtige måder at lære statistik og sandsynlighed på, fokuserer denne guide på kurser.

Vi mener, at vi dækkede alle bemærkelsesværdige kurser, der passer til ovenstående kriterier. Da der tilsyneladende er hundredvis af kurser på Udemy, valgte vi kun at overveje de mest gennemgåede og højest vurderede. Der er dog altid en chance for, at vi savnede noget. Så lad os det vide i kommentarfeltet, hvis vi har udeladt et godt kursus.

Hvordan vi vurderede kurser

Vi har samlet gennemsnittet og antallet af anmeldelser fra Class Central og andre anmeldelsessider. Vi beregnede en vægtet gennemsnitlig vurdering for hvert kursus. Hvis en serie havde flere kurser (som University of Texas i Austins todelte "Foundations of Data Analysis" -serie), beregnede vi den vægtede gennemsnitlige vurdering på tværs af alle kurser. Vi læste tekstanmeldelser og brugte denne feedback til at supplere de numeriske vurderinger.

Vi foretog subjektive pensumopkald baseret på tre faktorer:

  1. I hvilken grad hvert kursus underviser i statistik gennem kodning af eksempler - helst i R eller Python.
  2. Dækning af det grundlæggende i sandsynlighed og statistik. Dækning af beskrivende statistik, inferentiel statistik og sandsynlighedsteori er ideel.
  3. Hvor meget af pensum er relevant for datalogi? Har pensum specialiseret indhold som genomik, som flere kurser i biostatistik har? Dækker pensum avancerede begreber, der ikke ofte bruges i datalogi?

Hvorfor målrette kodning?

William Chen, dataforsker ved Quora, der har en kandidatuddannelse i anvendt matematik fra Harvard, skrev følgende i dette populære Quora-svar på spørgsmålet: "Hvordan lærer jeg statistik til datalogi?"

For enhver håbende dataforsker vil jeg varmt anbefale at lære statistik med stort fokus på kodning af eksempler, helst i Python eller R.

Da meget af en dataforskers statistiske arbejde udføres med kode, er det en fordel at blive fortrolig med de mest populære værktøjer.

Statistik OG sandsynlighed

Sandsynligheden er ikke statistik og omvendt. Min foretrukne forklaring på deres forskelle er fra Stony Brook University:

Sandsynlighed handler om at forudsige sandsynligheden for fremtidige begivenheder, mens statistik involverer analysen af ​​hyppigheden af ​​tidligere begivenheder.

De forklarer, at "sandsynlighed primært er en teoretisk gren af ​​matematik, der studerer konsekvenserne af matematiske definitioner," mens "statistik primært er en anvendt gren af ​​matematik, der forsøger at give mening om observationer i den virkelige verden."

Statistik betragtes generelt som en af ​​søjlerne i datalogi. Sandsynlighed - skønt den skaber mindre opmærksomhed - er også en vigtig del af en læseplan for datavidenskab.

Joe Blitzstein, professor i Harvard Statistics Department, sagde i dette populære Quora-svar, at håbefulde dataforskere også skulle have et godt fundament i sandsynlighedsteori.

Justin Rising, dataforsker med en ph.d. i statistik fra Wharton, præciseret, at dette “gode fundament” betyder at være fortrolig med sandsynligheden på lavere niveau.

Vores valg til de bedste statistikker og sandsynlighedskurser for dataforskere er ...

  • Grundlaget for dataanalyse - Del 1: Statistik ved hjælp af R ved University of Texas i Austin (edX)
  • Grundlaget for dataanalyse - Del 2: Inferentiel statistik ved University of Texas i Austin (edX)

“Fundamenter for dataanalyse” inkluderer to af de bedst gennemgåede statistikkurser, der er tilgængelige med en vægtet gennemsnitlig vurdering på 4,48 ud af 5 stjerner over 20 anmeldelser. Serien er et af de eneste kurser i det øverste niveau af ratings, der underviser i statistik med fokus på kodning af eksempler. Selvom de ikke er nævnt i nogen af ​​banetitlerne, indeholder pensum tilstrækkeligt sandsynlighedsindhold til at opfylde vores testkriterier. Disse kurser tilsammen har en fantastisk blanding af grundlæggende dækning og omfang for nybegynder data videnskabsmand.

Michael J. Mahometa, lektor og senior statistisk konsulent ved University of Texas i Austin, er instruktør i "Foundations of Data Analysis" -serien. Begge kurser i serien er gratis. Den estimerede tidslinje er 6 uger med 3–6 timer om ugen for hvert kursus. En fremtrædende anmelder sagde:

Fremragende kursus! Jeg deltog i del 1 og nød det meget, så det var meget let at beslutte at fortsætte med del 2. Dr. Mahometa og teamet er meget gode lærere, og deres materiale er af meget høj kvalitet. Øvelserne er interessante, og materialerne (videoer, laboratorier og problemer) er passende og velvalgte. Jeg anbefaler dette kursus til alle interesserede i statistisk analyse (som en introduktion til maskinindlæring, big data, datalogi osv.). På en skala fra 1 til 10 giver jeg 50!

Bemærk, at hvert kursus beskrivelse og pensum er tilgængelige via ovenstående links.

En stjernespecialisering

Opdatering (5. december 2016): Vores oprindelige anden anbefaling, UC Berkeleys "Stat2x: Introduction to Statistics" -serie, lukkede deres tilmelding et par uger efter frigivelsen af ​​denne artikel. Vi promoverede vores topanbefaling i afsnittet "Konkurrencen" i overensstemmelse hermed.

  • Statistik med R-specialisering af Duke University på Coursera

... som indeholder følgende fem kurser:

  • Introduktion til sandsynlighed og data
  • Inferential statistik
  • Lineær regression og modellering
  • Bayesian Statistik
  • Statistik med R Capstone

Denne fem-retters specialisering er baseret på Duke's fremragende dataanalyse og statistiske inferens-kursus, som havde en 4,82-stjernet vægtet gennemsnitlig vurdering over 55 anmeldelser. Specialiseringen undervises af den samme professor plus et par yderligere fakultetsmedlemmer. De tidlige anmeldelser af de nye individuelle baner, der har en 3,6-stjernet vægtet gennemsnitlig vurdering over 5 anmeldelser, skal tages med et saltkorn på grund af den lille prøvestørrelse. Pensumerne er omfattende og har fulde sektioner dedikeret til sandsynlighed.

Dr. Mine Çetinkaya-Rundel er hovedinstruktør for specialiseringen. De enkelte kurser kan revideres gratis, selvom du ikke har adgang til karakter. Anmeldelser antyder, at specialiseringen er "pengene værd." Hvert kursus har en estimeret tidslinje på 4–5 uger på 5-7 timer om ugen. En fremtrædende anmelder sagde følgende om det oprindelige kursus, som specialiseringen var baseret på:

En af de største baner, jeg har taget hidtil. [Dr. Mine Çetinkaya-Rundel er] en stor lærer, meget involveret i udveksling med sine studerende. Et stort udvalg af undervisningsmetoder og værktøjer. Masser af øvelse gennem korte tests, R-programmeringslaboratorier og et dybtgående projekt. Et meget livligt forum med masser af hjælp til at klare vanskeligheder. Kurset er ikke for svært, men mangfoldigheden af ​​det foreslåede materiale kræver, at de studerende involverer sig ganske betydeligt. En meget flot bog tilgængelig gratis med masser af øvelser.

Vil du have mere sandsynlighed?

  • Introduktion til sandsynlighed - videnskaben om usikkerhed af Massachusetts Institute of Technology (MIT)

Overvej ovenstående MIT-kursus, hvis du ønsker et dybere dykke ned i sandsynlighedens verden. Det er et mesterværk med en vægtet gennemsnitlig vurdering på 4,91 ud af 5 stjerner over 34 anmeldelser. Vær advaret: det er en udfordring og meget længere end de fleste MOOC'er. Det niveau, som kurset dækker sandsynlighed, er heller ikke nødvendigt for datalogi-begyndere.

John Tsitsiklis og Patrick Jaillet, som begge er professorer i Institut for Elektroteknik og Datalogi ved MIT, underviser i kurset. Indholdet af dette kursus er i det væsentlige det samme som for den tilsvarende MIT-klasse ( Probabilistic Systems Analysis and Applied Probability ) - et kursus, der er blevet tilbudt og kontinuerligt forbedret i mere end 50 år. Den estimerede tidslinje er 16 uger med 12 timer om ugen. En fremtrædende anmelder sagde:

Mange online kurser udvandet på en eller anden måde, men denne føles som et ordentligt stringent træningsdrevet kursus svarende til hvad du ville få personligt på en topskole som MIT. Professorer præsenterer begreber i forelæsninger, der åbenbart er blevet finpudset til laserfokus gennem mange års pædagogisk erfaring - der er ikke et eneste spildt sekund i præsentationer, og de går nøjagtigt i det rette tempo og detalje, så du kan forstå begreberne. Øvelserne får dig til at arbejde for din viden og er afgørende for virkelig at internalisere begreberne. Dette er det bedste online kursus, jeg har taget inden for ethvert emne.

Jeg opfordrer dig til at besøge Class Centers side for dette kursus for at læse resten af ​​anmeldelserne.

Konkurrencen

Vores # 1-valg havde en vægtet gennemsnitlig vurdering på 4.48 ud af 5 stjerner over 20 anmeldelser. Lad os se på de andre alternativer.

  • MedStats: Statistik inden for medicin (Stanford University / Stanford OpenEdx): Stor pensum, hvor eksemplerne har et medicinsk fokus. Dækker lidt R-programmering i slutningen, dog ikke så meget som UT Austins serie. En værdig mulighed for alle, selv dem der ikke målretter medicin. Det har en 4,58-stjernet vægtet gennemsnitlig vurdering over 32 anmeldelser.
  • SOC120x: I "Heart" -statistikker: At lære at elske statistik (University of Notre Dame / edX): Målretter mod et ikke-teknisk publikum, selvom det sandsynligvis ville være godt for alle. Ingen kodning. God produktionsværdi. Kursus og instruktører ser rigtig sjove ud. Det har en 4,54-stjernet vægtet gennemsnitlig vurdering over 12 anmeldelser.
  • QM101x: Statistik for erhvervslivet (Indian Institute of Management Bangalore / edX): En del af en 4-retters serie. Forretningsfokus. God pensum, der bruger kodning. De sidste to kurser i serien er ikke frigivet fra november 2016, så de kan ikke træffe en dom endnu. Den har en 4,43-stjernet vægtet gennemsnitlig vurdering over 27 anmeldelser.
  • Workshop i sandsynlighed og statistik (Udemy): Undervises af Dr. George Ingersoll, lektor til Executive MBA-programmer ved UCLA Anderson School of Management. Koster penge. Bruger Excel. Det har en 4,4-stjernet vægtet gennemsnitlig vurdering over 452 anmeldelser.
  • Introduktion til beskrivende statistik (San Jose State University / Udacity): En del af en 2-retters serie. Bide-størrelse videoer. Ingen kodning. Det har en 3,88-stjernet vægtet gennemsnitlig vurdering over 8 anmeldelser.
  • Introduktion til inferentiel statistik (San Jose State University / Udacity): En del af en 2-retters serie. Jeg tog begge kurser som opfriskere til mine undervisningsstatistikklasser og kom væk med en dybere forståelse. Nød virkelig Katie Kormaniks undervisningsstil (se videoen nedenfor). Bide-størrelse videoer. Ingen kodning. Den har en 4,4-stjernet vægtet gennemsnitlig vurdering over 5 anmeldelser.
  • 6.008.1x: Computational Probability and Inference (Massachusetts Institute of Technology / edX): Et af to kurser / serier til undervisning i statistik med fokus på kodning af eksempler i Python. Anmeldelser antyder, at der er behov for tidligere statistikoplevelse, og at kurset er lidt uorganiseret. Det har en 4-stjernet vægtet gennemsnitlig vurdering over 12 anmeldelser.
  • Grundlæggende statistik (University of Amsterdam / Coursera): Et af to statistikkurser i Amsterdams Universitets Metoder og Statistik inden for Samfundsvidenskab. En meget positiv anmeldelse af serien og dens instruktører. Ingen kodning. Den har en 4,06-stjernet vægtet gennemsnitlig vurdering over 8 anmeldelser.
  • Inferentiel statistik (University of Amsterdam / Coursera): Et af to statistikkurser i Amsterdams Universitets Metoder og Statistik inden for Samfundsvidenskabsspecialisering. En meget positiv anmeldelse af serien og dens instruktører. Ingen kodning. Det har en 4-stjernet vægtet gennemsnitlig vurdering over 3 anmeldelser.
  • PH525.1x: Statistik og R (Harvard University / edX): En del af en 7-retters serie om edX. Livsvidenskab fokus. Bruger R-programmering, men anmeldelserne antyder, at UT Austins serie er bedre. Det har en 3,96-stjernet vægtet gennemsnitlig vurdering over 26 anmeldelser.
  • PH525.3x: Statistisk inferens og modellering til højkapacitetseksperimenter (Harvard University / edX): En del af en 7-retters serie om edX. Livsvidenskab fokus. Bruger R-programmering, men anmeldelserne antyder, at UT Austins serie er bedre. Det har en 4,63-stjernet vægtet gennemsnitlig vurdering over 4 anmeldelser.
  • Introduktion til statistik (Udacity): Dette er et af Udacitys første kurser, og det har sine mangler, som beskrevet i denne mindeværdige anmeldelse af en universitetspædagog. Ingen kodning. Den har en 3,93-stjernet vægtet gennemsnitlig vurdering over 41 anmeldelser.
  • Matematisk biostatistik Boot Camp 1 (Johns Hopkins University / Coursera): En del af en 2-retters serie. Biostatistik fokus. Den har en 3,13-stjernet vægtet gennemsnitlig vurdering over 23 anmeldelser.
  • Matematisk biostatistik Boot Camp 2 (Johns Hopkins University / Coursera): En del af en 2-retters serie. Biostatistik fokus. Den har en 3,83-stjernet vægtet gennemsnitlig vurdering over 3 anmeldelser.
  • KIexploRx: Udforsk statistik med R (Karolinska Institutet / edX): Mere af et dataudforskningskursus end et statistikforløb. Bruger kodning. Det har en 3,77-stjernet vægtet gennemsnitlig vurdering over 22 anmeldelser.
  • Statistisk inferens (Johns Hopkins University / Coursera): Et af to statistikkurser i JHU's datavidenskabsspecialisering. Dårlige anmeldelser. Det har en 2,9-stjernet vejet gennemsnitlig vurdering over 29 anmeldelser.
  • Regressionsmodeller (Johns Hopkins University / Coursera): Et af to statistikkurser i JHU's datavidenskabsspecialisering. Dårlige anmeldelser. Det har en vægtet gennemsnitlig 2,73-stjernet over 30 anmeldelser.
  • DS101X: Statistisk tænkning til datavidenskab og analyse (Columbia University / edX): En del af Microsoft Professional Program Certificate i Data Science. Kort pensum. Dårlige anmeldelser. Det har en 2.77-stjernet vægtet gennemsnitlig vurdering over 24 anmeldelser.
  • Forståelse af klinisk forskning: Bag statistikken (University of Cape Town / Coursera): "Dette er ikke et omfattende statistikforløb, men det giver en praktisk orientering inden for medicinsk forskning og almindeligt anvendt statistisk analyse." Sundhedsfokus. Det har en 5-stjernet vægtet gennemsnitlig vurdering over 15 anmeldelser.
  • MED101x: Introduktion til anvendt biostatistik: Statistik for medicinsk forskning (Osaka University / edX): Biostatistikfokus. Bruger kodning. Det har en 4,5-stjernet vægtet gennemsnitlig vurdering over 3 anmeldelser.
  • Sandsynlighed og statistik (Stanford University / Stanford OpenEdx): Læreplan ser godt ud. Den ene anmeldelse er virkelig positiv. Ingen kodning. Det har en 4,5-stjernet vægtet gennemsnitlig vurdering over 1 anmeldelse.
  • Inferentiel og forudsigelig statistik for erhvervslivet (University of Illinois i Urbana-Champaign / Coursera): En del af en 7-kursus ledelsesøkonomi og forretningsanalysespecialisering. Bruger Excel. Det har en 5-stjernet vægtet gennemsnitlig vurdering over 1 anmeldelse.
  • Undersøgelse og produktion af data til forretningsbeslutning (University of Illinois i Urbana-Champaign / Coursera): En del af en 7-retters ledelsesøkonomi og forretningsanalysespecialisering. Bruger Excel. Det har en 5-stjernet vægtet gennemsnitlig vurdering over 1 anmeldelse.
  • Introduktion til sandsynlighed, statistik og tilfældige processer (University of Massachusetts Amherst / Independent): Videoer er ikke tilgængelige for hele kurset. Det har en 2,5-stjernet vægtet gennemsnitlig vurdering over 2 anmeldelser.
  • 005x: Introduktion til statistiske metoder til genkortlægning (Kyoto University / edX): Genetikfokus. Brug forudgående statistik og R-viden. Det har en 2,5-stjernet vægtet gennemsnitlig vurdering over 1 anmeldelse.
  • Statistik for genomisk datalogi (Johns Hopkins University / Coursera): genomisk fokus. Ikke et godt introduktionskursus: "En retfærdig klasse for en person med interesse i dette felt, der tilfældigvis også har en anstændig baggrund inden for R-programmering." Det har en 2-stjernet vægtet gennemsnitlig vurdering over 2 anmeldelser.

De følgende kurser havde ingen anmeldelser pr. November 2016.

  • Statistisk tænkning i Python (del 1) og statistisk tænkning i Python (del 2) (DataCamp): Bruger kodning og Python specifikt, hvilket gør det til et af få værdige kurser eller serier, der bruger dette sprog. Syv timers video og 120+ øvelser. DataCamp er en populær mulighed.
  • En praktisk introduktion til statistik med R (DataCamp): Bruger kodning. 26 timers video og 150+ øvelser. Igen er DataCamp en populær mulighed.
  • Statistisk databehandling med R - en blid introduktion (University College London / Independent): Bruger kodning.
  • Sandsynlighed og statistik (Carnegie Mellon): Bruger R. Primært tekstbaseret instruktion. Designet til at svare til et semester på et college-statistik-kursus.
  • Introduktion til sandsynlighed og statistik (Massachusetts Institute of Technology / MIT OCW): Traditionelt forelæsningsformat (videobånd).
  • Grundlæggende om teknisk statistisk analyse (University of Oklahoma / Janux): Ingeniørfokus.
  • Elementær forretningsstatistik (University of Oklahoma / Janux): Forretningsfokus.
  • STAT101x: Biostatistik til Big Data-applikationer (University of Texas Medical Branch / edX): Biostatistikfokus.
  • 416.1x: Sandsynlighed: Grundlæggende begreber og diskrete tilfældige variabler (Purdue University / edX): En del af en 2-retters serie.
  • 416.2x: Sandsynlighed: Distributionsmodeller og kontinuerlige tilfældige variabler (Purdue University / edX): En del af en 2-retters serie.
  • Erhvervsstatistik og analysespecialisering (Rice University / Coursera): Bruger Excel.
  • Statistik 110: Sandsynlighed (Harvard University): Traditionelt forelæsningsformat (videobånd). Anbefales ofte på Quora.
  • Statistik (Dataquest): En serie med flere kurser med omkring 12 timers indhold. Abonnement kræves. Et af to kurser / serier til undervisning i statistik med fokus på kodning af eksempler i Python. En bemærkning fra Dataquest: "statistik-kurserne bliver fuldstændig omskrevet i øjeblikket, som skal frigives i slutningen af ​​november."

Pakning af det

Dette er den anden af ​​en seks-delt serie, der dækker de bedste MOOC'er til at starte dig selv ind i datavidenskabsområdet. Vi dækkede programmering i den første artikel, og resten af ​​serien dækker adskillige andre datavidenskabelige kernekompetencer: datavidenskabsprocessen, datavisualisering og maskinindlæring.

Det sidste stykke vil være et resumé af disse kurser og de bedste MOOC'er til andre nøgleemner såsom datakørsel, databaser og endda software engineering.

Hvis du vil lære datalogi, skal du starte med en af ​​disse programmeringsklasser

En omfattende guide til online introduktion til programmeringskurser. medium.freecodecamp.com Jeg rangerede hvert Intro til Data Science-kursus på internettet, baseret på tusindvis af datapunkter

En omfattende guide til online introduktion til datavidenskabskurser. medium.freecodecamp.com

Hvis du leder efter en komplet liste over MOOC'er for datalogi, kan du finde dem på Class Centers side om datavidenskab og big data.

Hvis du kunne lide at læse dette, så tjek nogle af Class Centrals andre stykker:

Her er 250 Ivy League kurser, du kan tage online lige nu gratis

250 MOOC'er fra Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton og Yale. medium.freecodecamp.com De 50 bedste gratis online universitetskurser i henhold til data

Da jeg lancerede Class Central i november 2011, var der omkring 18 gratis online kurser og næsten hele ... medium.freecodecamp.com

Hvis du har forslag til kurser, jeg savnede, så lad mig det vide i svarene!

Hvis du fandt dette nyttigt, skal du klikke på? så flere mennesker vil se det her på Medium.

Dette er en kondenseret version af den originale artikel, der blev offentliggjort på Class Central, hvor kursusbeskrivelser, pensum og flere anmeldelser er inkluderet.