Hvilke vurderinger skal du stole på? IMDB, Rotten Tomatoes, Metacritic eller Fandango?

En dataforsker undersøger

Skal du se en film? Der er mange faktorer at overveje, såsom instruktøren, skuespillerne og filmens budget. De fleste af os baserer vores beslutning på en anmeldelse, en kort trailer eller bare ved at kontrollere filmens vurdering.

Der er et par gode grunde til, at du vil undgå at læse anmeldelser eller se en trailer, selvom de bringer meget mere information end en vurdering.

For det første vil du måske helt undgå spoilere, uanset hvor små. Jeg forstår, at!

For det andet kan det være, at du vil have en upåvirket oplevelse af at se den film. Dette gælder normalt kun for anmeldelser, der er drysset med rammer, som "dette er en film om universets kompleksitet" eller "denne film handler virkelig ikke om kærlighed". Når disse rammer bliver kodet i din kortvarige hukommelse, er det virkelig svært at forhindre dem i at forstyrre din egen filmoplevelse.

En anden god grund er, at hvis du er træt eller skyndt, vil du måske ikke læse en anmeldelse, endsige se en 2-minutters trailer.

Så en numerisk filmvurdering ser ud til at være en god løsning i ganske få situationer for ganske få mennesker.

Denne artikel sigter mod at anbefale et enkelt websted for hurtigt at få en nøjagtig filmvurdering og tilbyder en robust, datadrevet argumentation for det.

Kriterier for "det bedste"

At komme med en sådan anbefaling er meget som at sige "dette er det bedste sted at lede efter en filmvurdering", hvilket er en evaluerende erklæring, der hviler på nogle kriterier, der bruges til at bestemme, hvad der er bedre, hvad der er værre eller værst, og hvad der er bedst , I dette tilfælde. Til min anbefaling vil jeg bruge et enkelt kriterium: en normalfordeling.

Det bedste sted at kigge efter en filmvurdering er at se, hvis klassificeringer er fordelt i et mønster, der ligner mest eller er identisk med mønsteret for en normalfordeling, hvilket er dette: givet et sæt værdier, der ligger i et bestemt interval , de fleste af dem er midt i det, og de få andre i ekstremintervallet. Generelt ser dette sådan ud som en normal (også kaldet Gaussisk) distribution:

Hvad er begrundelsen for dette kriterium? Fra min egen erfaring bestående af flere hundrede film kan jeg fortælle at jeg har set:

  • et par udestående, som jeg har set flere gange
  • et par, der var virkelig rystende og fik mig til at fortryde den tid, jeg brugte på at se dem
  • og en hel masse gennemsnitlige, for de fleste af dem kan jeg ikke engang huske plottet længere.

Jeg tror, ​​at de fleste mennesker - uanset om det er kritikere, filmfilm eller bare almindelige filmgæster - har haft en lignende oplevelse.

Hvis filmbedømmelser faktisk udtrykker filmkvalitet, bør vi se det samme mønster for begge.

I betragtning af at de fleste af os vurderer størstedelen af ​​film som en gennemsnitlig kvalitet, bør vi se det samme mønster, når vi analyserer filmbedømmelser. En lignende logik gælder for dårlige og gode film.

Hvis du endnu ikke er overbevist om, at der skal være en sådan overensstemmelse mellem mønstrene, så tænk på fordelingen af ​​ratings for en enkelt film. Da mange mennesker vurderer filmen, er det ikke et trosspring at antage, at der ofte vil være mange af dem med lignende præferencer. De er generelt enige om, at filmen enten er dårlig, gennemsnitlig eller god (jeg kvantificerer senere disse kvalitative værdier). Der vil også være et par andre, der vurderer filmen med en af ​​de to andre kvalitative værdier.

Hvis vi visualiserede fordelingen af ​​alle klassificeringer for en individuel film, ville vi højst sandsynligt se, at der dannes en enkelt klynge i et af de områder, der svarer til en lav, et gennemsnit eller en høj rating.

Forudsat at de fleste film betragtes som gennemsnitlige, har klyngen omkring det gennemsnitlige område størst sandsynlighed for at forekomme, og de to andre klynger har en mindre (men stadig signifikant) sandsynlighed. (Bemærk, at alle disse sandsynligheder i princippet kan kvantificeres, men dette vil kræve en masse data og vil have potentialet til at gøre denne artikel til en bog.)

Det mindst sandsynlige ville være en ensartet fordeling, hvor der ikke er klynger, og folks præferencer er opdelt næsten ens på tværs af de tre kvalitative værdier.

I betragtning af disse sandsynligheder bør fordelingen af ​​ratings for en stor nok prøve på film være en med en stump klynge i det gennemsnitlige område, afgrænset af bjælker med faldende højde (frekvens), der ligner en normalfordeling.

Hvis du har fundet alt dette svært at forstå, så overvej denne illustration:

IMDB, Rotten Tomatoes, Fandango eller Metacritic?

Nu hvor vi har et kriterium at arbejde med, lad os dykke ned i dataene.

Der er mange hjemmesider derude, der kommer med deres egne filmbedømmelser. Jeg har kun valgt fire, hovedsageligt baseret på deres popularitet, så jeg kunne få ratings for film med et acceptabelt antal stemmer. De glade vindere er IMDB, Fandango, Rotten Tomatoes og Metacritic.

I de sidste to har jeg kun fokuseret på deres ikoniske klassificeringstyper - nemlig tomatometeret og metascore -primært fordi disse er mere synlige for brugeren på hvert af webstederne (hvilket betyder, at det er hurtigere at finde dem). Disse deles også på de to andre websteder (metascore deles på IMDB og tomatometeret på Fandango). Udover disse ikoniske vurderinger har begge websteder også en mindre karakteristisk vurderingstype, hvor kun brugere kan bidrage.

Jeg har samlet vurderinger for nogle af de mest stemt og gennemgåede film i 2016 og 2017. Det rensede datasæt har vurderinger for 214 film og kan downloades fra denne Github-repo.

Jeg har ikke samlet vurderinger for film, der blev udgivet før 2016, simpelthen fordi der er sket en lille ændring i Fandangos klassificeringssystem kort efter Walt Hickeys analyse, som jeg vil henvise til senere i denne artikel.

Jeg er opmærksom på, at det er risikabelt at arbejde med en lille prøve, men i det mindste kompenseres dette ved at få det seneste øjebliksbillede af ratings 'distributioner.

Før jeg tegner og fortolker distributionerne, lad mig kvantificere de kvalitative værdier, jeg brugte tidligere: på en skala fra 0 til 10 er en dårlig film et sted mellem 0 og 3, en gennemsnitlig mellem 3 og 7 og en god mellem 7 og 10 .

Vær opmærksom på sondringen mellem kvalitet og kvantitet. For at holde det synligt i det følgende vil jeg henvise til ratings (antal) som lave, gennemsnitlige eller høje. Som før udtrykkes filmkvaliteten som dårlig, gennemsnitlig eller god. Hvis du bekymrer dig om, at det "gennemsnitlige" udtryk er det samme, skal du ikke, for jeg vil passe på at undgå enhver tvetydighed.

Lad os nu se på distributionerne:

Med et simpelt blik kan det bemærkes, at metascores histogram (det er hvad denne slags graf kaldes) ligner mest en normalfordeling. Den har en tyk klynge i det gennemsnitlige område bestående af stænger med uregelmæssige højder, hvilket gør toppen hverken stump eller hverken skarp.

De er dog mere talrige og højere end bjælkerne i hvert af de to andre områder, som falder i højden mod ekstremer, mere eller mindre gradvist. Alle disse indikerer tydeligt, at de fleste metascores har en gennemsnitlig værdi, hvilket stort set er det, vi leder efter.

I tilfælde af IMDB ligger størstedelen af ​​fordelingen også i det gennemsnitlige område, men der er en tydelig skævhed mod de højeste gennemsnitsværdier. Området med høje klassifikationer ligner det, der kunne forventes at blive set for en normalfordeling i den del af histogrammet. Det slående træk er imidlertid, at området, der repræsenterer lave filmvurderinger, er helt tomt, hvilket rejser et stort spørgsmålstegn.

Oprindeligt lagde jeg skylden på den lille prøve og tænkte, at en større ville gøre mere retfærdighed over for IMDB. Heldigvis var jeg i stand til at finde et færdiglavet datasæt på Kaggle indeholdende IMDB-ratings til 4.917 forskellige film. Til min store overraskelse så distributionen sådan ud:

Distributionens form ser næsten ud som den for prøven med 214 film, bortset fra området med lave klassifikationer, som i dette tilfælde er svagt befolket med 46 film (ud af 4917). Hovedparten af ​​værdierne er stadig i det gennemsnitlige område, hvilket gør IMDB-værdien værd at overveje yderligere for en anbefaling, selvom det klart er svært at konkurrere med metascore med den skævhed.

Under alle omstændigheder, hvad der virkelig er godt ved dette resultat er, at det kan bruges som et stærkt argument for at understøtte afhandlingen om, at 214-filmprøven er ret repræsentativ for hele befolkningen. Med andre ord er der en større tillid nu, at resultaterne af denne analyse ville være de samme - eller i det mindste ens - til de opnåede resultater, hvis absolut alle filmbedømmelser fra alle de fire websteder blev analyseret.

Med denne øgede tillid, lad os gå videre til at undersøge fordelingen af ​​Fandangos ratings, som ikke ser ud til at have ændret sig meget siden Hickeys analyse. Skævheden er stadig synligt mod den højere del af filmvurderingsspektret, hvor de fleste af klassificeringerne ligger. Området for den nederste halvdel af de gennemsnitlige ratings er helt tomt, ligesom området for lave ratings. Det kan let konkluderes, at fordelingen er ret langt fra at passe mit kriterium. Derfor vil jeg ikke overveje det yderligere for en mulig anbefaling.

(Jeg lover, at pinen med at rulle op slutter snart. Det er meget lettere at sammenligne distributionerne, hvis de placeres tæt på hinanden, snarere end at have dem spredt over artiklen.)

Endelig er tomatometerets fordeling uventet ensartet og ser endnu fladere ud under en anden binning-strategi (en binning-strategi defineres af det samlede antal søjler og deres intervaller; du kan spille med disse to parametre, når du genererer et histogram) .

Denne distribution er ikke let at fortolke i sammenhæng, fordi tomatometeret ikke er en klassisk vurdering, men snarere repræsenterer procentdelen af ​​kritikere, der gav en film en positiv anmeldelse. Dette gør det uegnet til den dårlige gennemsnit-gode kvalitative ramme, fordi det gør film enten gode, enten dårlige. Under alle omstændigheder antager jeg, at det stadig skal koge ned til den samme normalfordeling, hvor de fleste film har en moderat forskel mellem antallet af positive anmeldelser og de negative (hvilket giver mange ratings på 30% - 70% positive anmeldelser) og en få film har en væsentlig større forskel på den ene eller den anden måde.

I betragtning af den sidste overvejelse og formen på distributionen opfylder tomatometeret ikke mit kriterium. Det kunne være, at en større prøve ville gøre det mere retfærdigt, men alligevel, hvis jeg skulle anbefale det, ville jeg gøre det med nogle reserver på grund af det vage positive eller negative klassificeringssystem.

På dette tidspunkt af analysen kunne jeg sige, at ved at se på distributionerne er min anbefaling metascore.

Imidlertid synes IMDB's distribution også at være værd at overveje, især hvis du tilpasser lidt vurderingsintervallerne for de tre kvalitative kategorier (intervaller, som jeg selv definerede mere eller mindre vilkårligt). Fra dette perspektiv er det klart ikke nok at anbefale metascore ved at foretage en visuel undersøgelse.

Så jeg vil forsøge at afgrænse mellem disse to ved hjælp af en kvantitativ metode.

Ideen er at bruge Fandango-variablen som en negativ reference og derefter bestemme hvilken variabel, fra IMDB-vurderingen og metascore, der er mindst korreleret med den (jeg kalder disse variabler, fordi de kan tage forskellige værdier - for eksempel metascore er en variabel, fordi den tager forskellige værdier, afhængigt af filmen).

Jeg vil simpelthen beregne nogle korrelationskoefficienter, og variablen med den mindste værdi vil være min anbefaling (jeg vil derefter forklare, hvordan disse korrelationskoefficienter fungerer). Men før det, lad mig kort retfærdiggøre at vælge Fandango-variablen som en negativ reference.

Fandangos brugere elsker film for meget

En af grundene til dette valg er, at fordelingen af ​​Fandangos filmbedømmelser er længst væk fra en normal, idet den åbenlyse skæve retning mod den højere del af filmvurderingsspektret er.

Den anden årsag er skyen af ​​mistanke omkring Fandango efterladt af Walt Hickeys analyse. I oktober 2015 blev han også forvirret af en lignende distribution og opdagede, at de numeriske vurderinger på Fandangos hjemmeside altid blev afrundet til den næsthøjeste halvstjerne, ikke til den nærmeste (for eksempel ville en 4,1 gennemsnitsklassificering for en film er afrundet til 4,5 stjerner i stedet for 4,0).

Fandango-teamet fik fast det forudindtagede klassificeringssystem og fortalte Hickey, at ratinglogikken snarere var en "softwarefejl" på deres websted, der pegede mod et upartisk system i deres mobilapp. (Mere om dette på Hickeys artikel.) Justeringen ændrede nogle statistiske parametre til det bedre, men ikke nok til at overbevise mig om ikke at arbejde med Fandango-variablen som en negativ reference.

Sådan ser ændringen ud:

Lad os nu zoome ind på Fandango:

Mellem metascore og IMDB rating, hvilket er mindst korreleret med Fandango rating?

Den mindst korrelerede med Fandango-vurderingen er metascore. Den har en Pearson's r- værdi på 0,38 i forhold til Fandango, mens IMDB-værdien har en værdi på 0,63.

Lad mig nu forklare alt dette.

Da to variabler ændres, idet de tager forskellige værdier, korreleres de, hvis der er et mønster, der svarer til begge ændringer. Måling af korrelation betyder simpelthen at måle, i hvilket omfang der er et sådant mønster.

En af måderne til at udføre denne foranstaltning er at beregne Pearson's r. Hvis værdien er +1,0, betyder det, at der er en perfekt positiv korrelation, og hvis den er -1,0, betyder det, at der er en perfekt negativ korrelation.

I hvilket omfang variablerne er korreleret, falder, når Pearson's r nærmer sig 0, både fra den negative og den positive side.

Lad os bedre visualisere dette:

For at sætte abstraktionen ovenfor i sammenhæng, hvis vi sammenligner, hvordan værdierne for to klassificeringstyper ændrer sig - siger Fandango og IMDB, kan vi bestemme, i hvilken grad der er et mønster, der svarer til begge ændringer.

I betragtning af de netop nævnte korrelationskoefficienter er der et mønster mellem Fandango og IMDB i højere grad end for Fandango og metascore. Begge koefficienter er positive, og som sådan siges det, at korrelationen er positiv, hvilket betyder, at når Fandangos ratings stiger, har IMDB's ratings også en tendens til at stige mere end metascores.

Sagt på en anden måde, for en given filmvurdering på Fandango, er det mere sandsynligt, at metascore vil være mere forskellig fra den end IMDB-klassificeringen.

Dommen: brug Metacritics metascore

Alt i alt anbefaler jeg at tjekke metascore, når du leder efter en filmvurdering. Sådan fungerer det og dets ulemper.

I en nøddeskal er metascore et vægtet gennemsnit af mange anmeldelser, der kommer fra ansete kritikere. Metacritic-teamet læser anmeldelserne og tildeler hver en 0-100 score, som derefter tildeles en vægt, hovedsageligt baseret på anmeldelseens kvalitet og kilde. Du kan finde mere om deres klassificeringssystem her.

Nu vil jeg bare påpege et par ulemper ved metascore:

  • Vægtningskoefficienterne er fortrolige, så du kan ikke se, i hvilket omfang hver anmeldelse tælles i metascore.
  • Du har svært ved at finde metascores til mindre kendte film, der dukkede op før 1999, året Metacritic blev oprettet.
  • Nogle nylige film, hvis hovedsprog ikke er engelsk, er ikke engang anført på Metacritic. For eksempel er de rumænske film Two Lottery Tickets (2016) og Eastern Business (2016) ikke opført på Metacritic, mens de er på IMDB med ratings.

Få ord mere

For at opsummere, i denne artikel lavede jeg en enkelt anbefaling om, hvor jeg skulle se efter en filmvurdering. Jeg anbefalede metascore, baseret på to argumenter: distributionen ligner mest en normal, og den er mindst korreleret med Fandango-vurderingen.

Alle de kvantitative og visuelle elementer i artiklen er reproducerbare i Python, som det er vist her.

Tak for læsningen! Og glad for film!