En introduktion til ROUGE, og hvordan man bruger den til at evaluere resuméer

En introduktion til ROUGE, og hvordan man bruger den til at evaluere resuméer

ROUGE står for Recall-Oriented Understudy for Gisting Evaluation. Det er i det væsentlige et sæt metrics til evaluering af automatisk opsummering af tekster såvel som maskinoversættelser.

Det fungerer ved at sammenligne en automatisk produceret oversigt eller oversættelse med et sæt referenceoversigter (typisk menneskeskabt). Lad os sige, at vi har følgende system- og referenceoversigter:

Systemoversigt (hvad maskinen producerede):

the cat was found under the bed

Referenceoversigt (guldstandard - normalt af mennesker):

the cat was under the bed

Hvis vi kun betragter de enkelte ord, er antallet af overlappende ord mellem systemoversigten og referenceoversigten 6. Dette fortæller dig dog ikke meget som en måling. For at få en god kvantitativ værdi kan vi faktisk beregne præcisionen og tilbagekaldelsen ved hjælp af overlapningen.

Kort sagt, husker (i sammenhæng med ROUGE) henviser til hvor meget af referenceoversigtendet resumé systemet er ved at komme eller indfange. Hvis vi bare overvejer de enkelte ord, kan det beregnes som:

I dette eksempel vil tilbagekaldelsen således være:

Dette betyder, at alle ordene i referenceoversigten er fanget af systemoversigten , hvilket faktisk er tilfældet for dette eksempel. Voila!

Dette ser rigtig godt ud for et tekstopsummeringssystem. Men det fortæller dig ikke den anden side af historien. En maskingenereret oversigt (systemoversigt) kan være ekstremt lang og fanger alle ord i referenceoversigten. Men mange af ordene i systemoversigten kan være ubrugelige, hvilket gør resuméet unødigt detaljeret.

Det er her præcision kommer i spil. Med hensyn til præcision er det, du i det væsentlige måler, hvor meget af systemoversigten faktisk var relevant eller nødvendigt ? Præcision måles som:

I dette eksempel ville præcisionen således være:

Dette betyder simpelthen, at 6 ud af de 7 ord i systemoversigten faktisk var relevante eller nødvendige. Hvis vi havde følgende systemoversigt i modsætning til eksemplet ovenfor -

Systemoversigt 2:

the tiny little cat was found under the big funny bed

Præcisionen bliver nu:

Nu ser det ikke så godt ud, gør det? Det er fordi vi har en hel del unødvendige ord i resuméet. Den præcision aspekt bliver virkelig afgørende, når du forsøger at generere oversigter, der er kortfattede i naturen. Derfor er det altid bedst at beregne både præcision og tilbagekaldelse og derefter rapportere F-foranstaltningen .

Hvis dine resuméer på en eller anden måde er tvunget til at være kortfattede gennem nogle begrænsninger, kan du overveje at bruge bare tilbagekaldelsen, da præcision er mindre bekymrende i dette scenarie.

ROUGE-N, ROUGE-S og ROUGE-L kan betragtes som granulariteten af ​​tekster, der sammenlignes mellem systemoversigterne og referenceoversigterne.

  • ROUGE-N - måler unigram , bigram , trigramog overordnet n-gram overlapning
  • ROUGE-L - måler længste matchende rækkefølge af ord ved hjælp af LCS. En fordel ved at bruge LCS er, at det ikke kræver sammenhængende kampe, men i rækkefølge matches, der afspejler sætningsniveau ordrækkefølge. Da det automatisk inkluderer længste n-gram i rækkefølge, behøver du ikke en foruddefineret n-gram længde.
  • ROUGE-S - Er et par ord i en sætning i orden, hvilket giver mulighed for vilkårlige huller. Dette kan også kaldes skip-gram-sammenfald. For eksempel måler skip-bigram overlapningen af ​​ordpar, der maksimalt kan have to huller mellem ordene. For eksempel ville skip-bigrams for sætningen "kat i hatten" være "kat i, kat den, kat hat, i, i hat, hatten".

F.eks. Refererer ROUGE-1 til overlapning af unigram mellem systemoversigten og referenceoversigten. ROUGE-2 refererer til overlapning af bigrams mellem systemet og referenceoversigter.

Lad os tage eksemplet ovenfra. Lad os sige, at vi vil beregne ROUGE-2 præcision og tilbagekaldelsesscore .

Systemoversigt:

the cat was found under the bed

Referenceoversigt:

the cat was under the bed

Systemoversigt Bigrams:

the cat, cat was, was found, found under, under the, the bed

Referenceoversigt Bigrams:

the cat, cat was, was under, under the, the bed

Baseret på ovenstående bigrams er ROUGE-2-tilbagekaldelsen som følger:

I det væsentlige har systemoversigten gendannet 4 bigrams ud af 5 bigrams fra referenceoversigten, hvilket er ret godt! Nu er ROUGE-2-præcisionen som følger:

Præcisionen her fortæller os, at ud af alle systemoversigtsbigrammer er der en 67% overlapning med referenceoversigten. Dette er heller ikke så dårligt. Bemærk, at når resuméerne (både system- og referenceoversigter) bliver længere og længere, vil der være færre overlappende bigrams. Dette gælder især i tilfælde af abstrakt opsummering, hvor du ikke direkte genbruger sætninger til opsummering.

Årsagen til, at man ville bruge ROUGE-1 over eller i forbindelse med ROUGE-2 (eller andre finere granularitet ROUGE-målinger), er også at vise flydende oversigter eller oversættelse. Intuitionen er, at hvis du følger ordbestillingerne i referenceoversigten nærmere, så er din oversigt faktisk mere flydende.

For mere detaljerede oplysninger om disse evalueringsmålinger kan du henvise til Lin's papir. Hvilket mål, der skal bruges, afhænger af den specifikke opgave, du prøver at evaluere. Hvis du arbejder på ekstraktionssammendrag med ret detaljerede system- og referenceoversigter, kan det give mening at bruge ROUGE-1 og ROUGE-L. For meget kortfattede resuméer kan ROUGE-1 alene være tilstrækkelig, især hvis du også anvender stemming og stopper fjernelse af ord.

Papir at læse

  • ROUGE: En pakke til automatisk evaluering af resuméer