Du vil tilfældigt bombe tekniske interviews. Det gør alle. Her er dataene.

Når du lytter til hundredvis af tekniske interviews dag ud og dag ud, begynder du at lægge mærke til mønstre. Eller i dette tilfælde mangel på mønstre.

Jeg fandt dog en ting, der er ret konsekvent, og brugte det som grundlaget for et drikkespil:

  • Hver gang nogen mener, at svaret på et interviewspørgsmål er et hashbord, skal du tage en drink.
  • Og hver gang svaret faktisk er hashbord, skal du tage to drinks.

Men prøv ikke dette spil. Jeg døde næsten og spillede det.

Årsagen til, at jeg tilbragte mine dage med at lytte til tekniske interviews, er fordi jeg for et par år siden var med til at grundlægge interviewing.io, en interviewplatform, hvor folk kan øve teknisk samtale anonymt og i processen finde job.

Som et resultat har jeg adgang til masser af data om, hvordan de samme mennesker udfører fra interview til interview. Og jeg har opdaget så meget volatilitet, at det får mig til at sætte spørgsmålstegn ved pålideligheden af ​​single-interview-resultater helt.

Hvordan vi fik alle disse data

Når en interviewer og en interviewperson mødes på vores platform, mødes de i et samarbejde kodende miljø med stemme, tekstchat og et whiteboard og hopper lige ind i et teknisk spørgsmål.

Interviewspørgsmål på platformen har en tendens til at falde ind under kategorien af, hvad du vil støde på på en telefonskærm for en back-end software engineering rolle. Interviewere kommer typisk fra en blanding af store virksomheder som Google, Facebook og Yelp samt ingeniørfokuserede opstart som Asana, Mattermark, KeepSafe og mere.

Efter hvert interview vurderer interviewere interviewpersoner på et par forskellige dimensioner, herunder teknisk evne. Teknisk evne vurderes på en skala fra 1 til 4, hvor 1 er "meh" og 4 er "fantastisk!" På vores platform har en score på 3 eller derover generelt betydet, at personen var god nok til at komme videre.

På dette tidspunkt kan du måske sige, det er pænt og alt, men hvad er big deal? Mange virksomheder indsamler denne type data i forbindelse med deres egne rørledninger.

Her er den ting, der gør vores data specielle: den samme interviewperson kan lave flere interviews, som hver er med en anden interviewer og / eller en anden virksomhed. Dette åbner døren for nogle ret interessante og noget kontrollerede komparative analyser.

Find nr. 1: Din præstation fra interview til interview er ustabil

Lad os starte med nogle visuals. I nedenstående graf repræsenterer hvert personikon den gennemsnitlige tekniske score for en individuel interviewperson, der har foretaget 2 eller flere interviews på platformen.

En ting, vi ikke viser i denne graf, er tidens gang, så du kan se folks præstationer over tid. Det er lidt varmt rod.

Y-aksen er standardafvigelse af ydeevne, så jo højere op du går, jo mere ustabil interviewydelse bliver.

Som du kan se, er ca. 25% af de interviewede ensartede i deres præstationer, og resten er overalt.

Hvis du ser på grafen ovenfor, på trods af støj, kan du sandsynligvis gætte nogle af, hvilke personer du vil interviewe.

Men husk at hver repræsenterer et middel . Lad os foregive, at du i stedet var nødt til at træffe en beslutning baseret på kun et datapunkt. Det er her, tingene bliver dicey.

For virkelig at køre dette punkt hjem, skal du besøge den rigtig seje interaktive version af denne graf. Der kan du udvide alles præstationer og se, hvordan hver enkelt person klarede sig i hvert interview. Resultaterne overrasker dig måske! For eksempel:

  • Mange mennesker, der scorede mindst en 4, scorede også mindst en 2.
  • Hvis vi ser på højtydende (gennemsnit på 3,3 eller højere), ser vi stadig en hel del variation.
  • Ting bliver virkelig mørke, når vi betragter "gennemsnitlige" kunstnere (gennemsnit mellem 2,6 og 3,3).

? Besøg den virkelig seje interaktive visualisering?

Vi var nysgerrige efter at se, om volatiliteten overhovedet varierede med folks gennemsnitlige score. Med andre ord, var svagere spillere mere ustabile end stærke? Svaret er nej. Da vi kørte en regression på standardafvigelse kontra middelværdi, kunne vi ikke komme med noget meningsfuldt forhold (R-kvadrat ~ = 0,03), hvilket betyder, at folk er overalt - uanset hvor stærke de i gennemsnit er.

For mig følte det sig som at kigge ind i en smuk, overdådigt udpeget stue gennem et nøglehul at se på disse data - så foregive, at jeg var nødt til at træffe en ansættelsesbeslutning baseret på et interviewresultat. Nogle gange ser du et kunstværk på væggen, nogle gange ser du spiritusvalget, og nogle gange ser du bare bagsiden af ​​en sofa.

I en virkelig situation, når du forsøger at beslutte, om du vil fremme nogen til stedet, forsøger du sandsynligvis at undgå to ting - falske positive (ved fejlagtigt at bringe folk under din bar) og falske negativer (afvise folk hvem skulle have gjort det).

De fleste topvirksomheders interviewparadigme er, at falske negativer er mindre dårlige end falske positive. Dette giver mening, ikke? Med en stor nok pipeline og nok ressourcer, selv med en høj falsk negativ sats, får du stadig de mennesker, du ønsker.

Med en høj falsk positiv sats får du muligvis billigere ansættelse, men du beskadiger dit produkt, din kultur og fremtidige ansættelsesstandarder potentielt irreversible i processen. Og selvfølgelig er de virksomheder, der sætter ansættelsesstandarder og praksis for en hel industri , dem med de store rørledninger og tilsyneladende uudtømmelige ressourcer.

Den mørke side ved at optimere til høje falske negative satser hæver dog hovedet i form af vores nuværende ingeniørudlejningskrise. Giver enkelte interviewforekomster i deres nuværende inkarnation nok signal? Eller afviser vi kvalificerede mennesker midt i så stor efterspørgsel efter talent, fordi vi alle ser på en stor, ustabil graf gennem et lille nøglehul?

Så, hyperbolsk moralisering til side, i betragtning af hvor ustabil interviewpræstation er, hvad er oddsene for, at en god kandidat fejler en individuel telefonskærm?

Find nr. 2: Dine odds for at fejle et enkelt interview baseret på tidligere præstationer

Nedenfor kan du se fordelingen af ​​gennemsnitlige præstationer i vores befolkning af interviewpersoner.

For at finde ud af sandsynligheden for, at en kandidat med en given gennemsnitlig score ville mislykkes i et interview, var vi nødt til at udføre noget statistikarbejde.

For det første delte vi interviewpersoner op i kohorter baseret på deres gennemsnitlige score (afrundet til nærmeste 0,25). Derefter beregnede vi for hver kohorte sandsynligheden for at fejle, dvs. at få en score på 2 eller mindre. Endelig prøvede vi vores data igen for at omgå vores startdatasæt, der ikke var stort.

I vores resamplingprocedure behandlede vi et interviewresultat som en multinomial fordeling. Med andre ord lod vi som om, at hvert interview var en rulle af en vægtet, 4-sidet terning svarende til kandidatens kohorte.

Derefter rullede vi terningerne flere gange for at oprette et nyt, "simuleret" datasæt for hver kohorte og beregnede nye sandsynligheder for fiasko for hver kohorte ved hjælp af disse datasæt. Nedenfor kan du se resultaterne af at gentage denne proces 10.000 gange:

Som du kan se, overlapper mange af distributionerne ovenfor hinanden. Dette er vigtigt, fordi disse overlapninger fortæller os, at der muligvis ikke er statistisk signifikante forskelle mellem disse grupper (f.eks. Mellem 2,75 og 3).

Bestemt med fremkomsten af mange flere data kan afgrænsningerne mellem kohorter muligvis blive klarere. På den anden side, hvis vi har brug for en enorm mængde data for at opdage forskelle i fejlrate, kan det antyde, at folk er iboende meget variable i deres præstationer.

I slutningen af ​​dagen, mens vi med sikkerhed kan sige, at der er en signifikant forskel mellem den nederste ende af spektret (2,25) versus den øverste ende (3,75), for folk i midten er tingene mørke.

Ikke desto mindre forsøgte vi med disse distributioner at beregne sandsynligheden for, at en kandidat med en bestemt gennemsnitsscore ville mislykkes i et enkelt interview:

Det faktum, at folk, der generelt er ret stærke (f.eks. Betyder ~ 3), kan ødelægge tekniske interviews så meget som 22% af tiden viser, at der bestemt er plads til forbedring i processen. Og dette forværres yderligere af den generelle uklarhed midt i spektret.

Så er interview dømt?

Generelt når vi tænker på interview, tænker vi på noget, der burde have gentagelige resultater og have et stærkt signal. De data, vi har indsamlet, fortæller dog en anden historie.

Og den historie genklang med både min anekdotiske oplevelse som rekrutterer og med de følelser, vi har set ekko i samfundet.

Zach Holmans opstartsinterview er F ***** hits på afbrydelsen mellem interviewprocessen og det job, det er beregnet til at udfylde.

De fine herrer fra TripleByte nåede lignende konklusioner ved at se på deres egne data.

Et af de mere gribende udtryk for inkonsekvente interviewresultater kom for nylig fra afvist.us.

Du kan vædde på, at mange mennesker, der afvises efter en telefonskærm af Company A - men klarer sig bedre under en anden telefonskærm og i sidste ende ender et eller andet sted, der traditionelt er velrenommeret - bliver ramt af Company A's rekrutterere 6 måneder senere.

Og på trods af alles bedste indsats marcherer den skumle, flygtige og i sidste ende stokastiske massagecirkel i en rekrutteringsproces.

Så ja, det er bestemt en mulig konklusion er, at teknisk interview i sig selv faktisk er dømt og ikke giver et pålideligt, deterministisk signal til en interviewinstans. Algoritmiske interviews er et meget debatteret emne, og vi er dybt interesserede i at drille hinanden.

Især en ting, vi er meget begejstrede for, er at spore interviewets ydeevne som en funktion af interviewtypen, da vi får flere og flere forskellige interviewtyper / tilgange, der sker på platformen. Faktisk er et af vores langsigtede mål at virkelig grave i vores data, se på landskabet i forskellige interviewstilarter og komme med nogle seriøse datadrevne udsagn om, hvilke typer tekniske interviews der fører til det højeste signal.

I mellemtiden læner jeg mig imidlertid mod ideen om at trække på samlet præstation er meget mere meningsfuldt end at træffe en så vigtig beslutning baseret på et enkelt, vilkårligt interview.

Ikke alene kan aggregeret ydeevne hjælpe med at korrigere for en ukarakteristisk dårlig præstation, men det kan også udrydde mennesker, der til sidst klarer sig godt i et interview tilfældigt, eller dem, der over tid underkaster sig udyret og husker Cracking the Coding Interview .

Jeg ved, at det ikke altid er praktisk (eller muligt) at samle samlede præstationsdata i naturen. Men lad os sige, at en kandidats præstation er grænseoverskridende - eller hvor deres præstation adskiller sig vildt fra, hvad du ville forvente. Det kan være fornuftigt at interviewe dem en gang til og fokusere på forskellige materialer, inden de træffer den endelige beslutning.

Vi har indsamlet et ton flere interviewydelsesdata, der endnu ikke er inkluderet i denne analyse, så hvis du er nysgerrig efter at se, om interviewydelsen stadig er vilkårlig, skal du holde øje med!

Vil du blive fantastisk til tekniske interviews og lande dit næste job i processen? Deltag i interviewing.io.