En historie med maskinoversættelse fra den kolde krig til dyb læring

Jeg åbner Google Translate dobbelt så ofte som Facebook, og den øjeblikkelige oversættelse af prismærkerne er ikke mere en cyberpunk for mig. Det er det, vi kalder virkelighed. Det er svært at forestille sig, at dette er resultatet af en hundredeårig kamp for at opbygge algoritmerne til maskinoversættelse, og at der ikke har været nogen synlig succes i halvdelen af ​​denne periode.

Den nøjagtige udvikling, jeg vil diskutere i denne artikel, danner grundlaget for alle moderne sprogbehandlingssystemer - fra søgemaskiner til stemmestyrede mikrobølger. Jeg taler om udviklingen og strukturen i online oversættelse i dag.

I begyndelsen

Historien begynder i 1933. Den sovjetiske videnskabsmand Peter Troyanskii præsenterede "maskinen til udvælgelse og udskrivning af ord ved oversættelse fra et sprog til et andet" til USSR's Videnskabsakademi. Opfindelsen var super enkel - den havde kort på fire forskellige sprog, en skrivemaskine og et old-school filmkamera.

Operatøren tog det første ord fra teksten, fandt et tilsvarende kort, tog et foto og skrev dets morfologiske egenskaber (substantiv, flertal, genitiv) på skrivemaskinen. Skrivemaskinens nøgler kodede for en af ​​funktionerne. Båndet og kameraets film blev brugt samtidigt og lavede et sæt rammer med ord og deres morfologi.

På trods af alt dette, som ofte sket i Sovjetunionen, blev opfindelsen betragtet som "ubrugelig". Troyanskii døde af Stenocardia efter at have forsøgt at afslutte sin opfindelse i 20 år. Ingen i verden vidste om maskinen, indtil to sovjetiske forskere fandt hans patenter i 1956.

Det var i begyndelsen af ​​den kolde krig. Den 7. januar 1954 startede eksperimentet Georgetown – IBM i IBMs hovedkvarter i New York. IBM 701-computeren oversatte automatisk 60 russiske sætninger til engelsk for første gang i historien.

”En pige, der ikke forstod et ord på sovjetens sprog, slog de russiske meddelelser ud på IBM-kort. "Hjernen" sprang sine engelske oversættelser af på en automatisk printer med en utrolig hurtig hastighed på to og en halv linje pr. Sekund, " - rapporterede IBMs pressemeddelelse.

Imidlertid skjulte de triumferende overskrifter en lille detalje. Ingen nævnte de oversatte eksempler blev nøje udvalgt og testet for at udelukke enhver tvetydighed. Til daglig brug var dette system ikke bedre end en lommefrasebook. Ikke desto mindre blev denne slags våbenkapløb lanceret: Canada, Tyskland, Frankrig og især Japan, alle deltog i løbet om maskinoversættelse.

Løbet om maskinoversættelse

De forgæves kampe for at forbedre maskinoversættelse varede i fyrre år. I 1966 kaldte den amerikanske ALPAC-komité i sin berømte rapport maskinoversættelse dyre, unøjagtige og kompromisløse. De anbefalede i stedet at fokusere på ordboksudvikling, som eliminerede amerikanske forskere fra løbet i næsten et årti.

Alligevel blev der kun skabt et grundlag for moderne naturlig sprogbehandling af forskerne og deres forsøg, forskning og udvikling. Alle nutidens søgemaskiner, spamfiltre og personlige assistenter dukkede op takket være en flok lande, der spionerede på hinanden.

Regelbaseret maskinoversættelse (RBMT)

De første ideer omkring regelbaseret maskinoversættelse dukkede op i 70'erne. Forskerne kiggede over tolkenes arbejde og forsøgte at tvinge de enormt trætte computere til at gentage disse handlinger. Disse systemer bestod af:

  • Tosproget ordbog (RU -> EN)
  • Et sæt sproglige regler for hvert sprog (F.eks. Har substantiver, der slutter med visse suffikser som -heit, -keit, -ung, feminine)

Det er det. Hvis det er nødvendigt, kunne systemer suppleres med hacks, såsom lister over navne, stavefejl og translitteratorer.

PROMPT og Systran er de mest berømte eksempler på RBMT-systemer. Bare kig på Aliexpress for at føle den bløde ånde i denne gyldne tidsalder.

Men selv de havde nogle nuancer og underarter.

Direkte maskinoversættelse

Dette er den mest enkle type maskinoversættelse. Det deler teksten i ord, oversætter dem, korrigerer morfologien lidt og harmoniserer syntaksen for at få det hele til at lyde rigtigt, mere eller mindre. Når solen går ned, skriver uddannede lingvister reglerne for hvert ord.

Outputtet returnerer en slags oversættelse. Normalt er det ganske skør. Det ser ud til, at sprogforskerne spildte deres tid til ingenting.

Moderne systemer bruger slet ikke denne tilgang, og moderne lingvister er taknemmelige.

Overførselsbaseret maskinoversættelse

I modsætning til direkte oversættelse forbereder vi os først ved at bestemme sætningens grammatiske struktur, som vi blev undervist i skolen. Derefter manipulerer vi hele konstruktioner, ikke ord, bagefter. Dette hjælper med at få en ordentlig konvertering af ordrækkefølgen i oversættelse. I teorien.

I praksis resulterede det stadig i ordret oversættelse og udmattede lingvister. På den ene side bragte det forenklede generelle grammatikregler. Men på den anden side blev det mere kompliceret på grund af det øgede antal ordkonstruktioner sammenlignet med enkeltord.

Interlingual maskinoversættelse

I denne metode omdannes kildeteksten til den mellemliggende repræsentation og er samlet for alle verdens sprog (interlingua). Det er den samme interlingua, som Descartes drømte om: et metasprog, der følger de universelle regler og omdanner oversættelsen til en simpel "frem og tilbage" opgave. Dernæst ville interlingua konvertere til ethvert målsprog, og her var singulariteten!

På grund af konverteringen forveksles Interlingua ofte med transferbaserede systemer. Forskellen er de sproglige regler, der er specifikke for hvert enkelt sprog og interlingua, og ikke sprogparrene. Det betyder, at vi kan tilføje et tredje sprog til interlingua-systemet og oversætte mellem alle tre. Vi kan ikke gøre dette i overførselsbaserede systemer.

Det ser perfekt ud, men i det virkelige liv er det ikke. Det var ekstremt svært at skabe sådan en universel interlingua - mange forskere har arbejdet på det hele deres liv. De er ikke lykkedes, men takket være dem har vi nu morfologiske, syntaktiske og endda semantiske repræsentationsniveauer. Men den eneste betydningstextteori koster en formue!

Ideen om mellemliggende sprog vil være tilbage. Lad os vente et stykke tid.

Som du kan se, er alle RBMT dumme og skræmmende, og det er grunden til, at de sjældent bruges, medmindre det er tilfældet (som oversættelse af vejrrapporter osv.). Blandt fordelene ved RBMT, der ofte nævnes, er dens morfologiske nøjagtighed (det forveksler ikke ordene), reproducerbarheden af ​​resultaterne (alle oversættere får det samme resultat) og evnen til at indstille det på fagområdet (at undervise økonomer eller udtryk specifikt for programmører, for eksempel).

Selv hvis nogen lykkedes med at skabe en ideel RBMT, og sprogvidere forbedrede den med alle stavningsreglerne, ville der altid være nogle undtagelser: alle de uregelmæssige verb på engelsk, adskillelige præfikser på tysk, suffikser på russisk og situationer, hvor folk bare sig det anderledes. Ethvert forsøg på at tage højde for alle nuancer vil spilde millioner af mandetimer.

Og glem ikke om homonymer. Det samme ord kan have en anden betydning i en anden sammenhæng, hvilket fører til en række oversættelser. Hvor mange betydninger kan du fange her: Jeg så en mand på en bakke med et teleskop ?

Sprog udviklede sig ikke baseret på et fast sæt regler - en kendsgerning, som sprogvidenskabere elsker. De var meget mere påvirket af invasionernes historie i de sidste tre hundrede år. Hvordan kunne du forklare det til en maskine?

Fyrre år af den kolde krig hjalp ikke med at finde nogen særskilt løsning. RBMT var død.

Eksempelbaseret maskinoversættelse (EBMT)

Japan var især interesseret i at kæmpe for maskinoversættelse. Der var ingen kold krig, men der var grunde: meget få mennesker i landet kendte engelsk. Det lovede at være et stort problem på den kommende globaliseringsfest. Så japanerne var meget motiverede til at finde en arbejdsmetode til maskinoversættelse.

Regelbaseret engelsk-japansk oversættelse er ekstremt kompliceret. Sprogstrukturen er helt anderledes, og næsten alle ord skal omarrangeres og nye tilføjes. I 1984 kom Makoto Nagao fra Kyoto University på ideen om at bruge færdige sætninger i stedet for gentagen oversættelse .

Lad os forestille os, at vi er nødt til at oversætte en simpel sætning - "Jeg skal i biografen." Og lad os sige, at vi allerede har oversat en anden lignende sætning - "Jeg skal i teatret" - og vi kan finde ordet "biograf" i ordbogen.

Alt, hvad vi har brug for, er at finde ud af forskellen mellem de to sætninger, oversætte det manglende ord og derefter ikke skrue det op. Jo flere eksempler vi har, jo bedre oversættelse.

Jeg bygger sætninger på ukendte sprog nøjagtigt på samme måde!

EBMT viste dagens lys for forskere fra hele verden: det viser sig, at du bare kan fodre maskinen med eksisterende oversættelser og ikke bruge år på at danne regler og undtagelser. Ikke en revolution endnu, men klart det første skridt mod den. Den revolutionerende opfindelse af statistisk oversættelse ville ske på bare fem år.

Statistisk maskinoversættelse (SMT)

I begyndelsen af ​​1990, på IBM Research Center, blev der først vist et maskinoversættelsessystem, der intet vidste om regler og lingvistik som helhed. Den analyserede lignende tekster på to sprog og forsøgte at forstå mønstrene.

Ideen var enkel og alligevel smuk. En identisk sætning på to sprog blev opdelt i ord, som blev matchet bagefter. Denne operation gentog sig omkring 500 millioner gange for at tælle, for eksempel hvor mange gange ordet "Das Haus" oversat som "hus" vs "bygning" vs "konstruktion" osv.

Hvis kildeordet oftest blev oversat som "hus", brugte maskinen dette. Bemærk, at vi ikke har sat nogen regler eller brugt nogen ordbøger - alle konklusioner blev foretaget maskinelt, styret af statistik og logikken, at "hvis folk oversætter den måde, vil jeg også." Og så blev statistisk oversættelse født.

Metoden var meget mere effektiv og nøjagtig end alle de foregående. Og der var ingen sprogkundskaber nødvendige. Jo flere tekster vi brugte, jo bedre oversættelse fik vi.

Der var stadig et spørgsmål tilbage: hvordan ville maskinen korrelere ordet "Das Haus" og ordet "bygning" - og hvordan ville vi vide, at det var de rigtige oversættelser?

Svaret var, at vi ikke ville vide det. I starten antog maskinen, at ordet “Das Haus” var lige korreleret med ethvert ord fra den oversatte sætning. Dernæst, når "Das Haus" dukkede op i andre sætninger, ville antallet af sammenhænge med "huset" stige. Det er "ordjusteringsalgoritmen", en typisk opgave for maskinlæring på universitetsniveau.

Maskinen havde brug for millioner og millioner af sætninger på to sprog for at indsamle de relevante statistikker for hvert ord. Hvordan fik vi dem? Vi besluttede os for at tage abstrakterne fra Europa-Parlamentets og FN's Sikkerhedsrådsmøder - de var tilgængelige på alle medlemslandenes sprog og var nu tilgængelige for download på FN Corpora og Europarl Corpora.

Ordbaseret SMT

I starten arbejdede de første statistiske oversættelsessystemer ved at opdele sætningen i ord, da denne tilgang var ligetil og logisk. IBMs første statistiske oversættelsesmodel blev kaldt Model one. Ganske elegant, ikke? Gæt hvad de kaldte den anden?

Model 1: "ordposen"

Model én brugte en klassisk tilgang - at opdele i ord og tælle statistik. Ordrækkefølgen blev ikke taget i betragtning. Det eneste trick var at oversætte et ord til flere ord. For eksempel kunne "Der Staubsauger" blive til "Støvsuger", men det betød ikke, at det ville vise sig omvendt.

Her er nogle enkle implementeringer i Python: shawa / IBM-Model-1.

Model 2: overvejer ordrækkefølgen i sætninger

Manglen på viden om sprogets ordrækkefølge blev et problem for Model 1, og det er i nogle tilfælde meget vigtigt.

Model 2 beskæftigede sig med det: det huskede det sædvanlige sted, ordet tager ved udgangssætningen, og blandede ordene til den mere naturlige lyd i mellemtrinnet. Ting blev bedre, men de var stadig lidt skøre.

Model 3: ekstra fertilitet

Nye ord optrådte ofte i oversættelsen, såsom artikler på tysk eller brug af "do", når de negerer på engelsk. “Ich will keine Persimonen” → “Jeg vil ikke have persimmoner.” For at håndtere det blev yderligere to trin tilføjet til Model 3.

  • NULL-tokenindsættelsen, hvis maskinen overvejer nødvendigheden af ​​et nyt ord
  • Valg af den rigtige grammatiske partikel eller ord til hver token-ord-tilpasning

Model 4: ordjustering

Model 2 betragtede ordet tilpasning, men vidste intet om ombestillingen. F.eks. Skifter adjektiver ofte steder med navneordet, og uanset hvor god ordren blev husket, ville det ikke gøre output bedre. Derfor tog model 4 hensyn til den såkaldte ”relative rækkefølge” - modellen lærte, hvis to ord altid skiftede plads.

Model 5: fejlrettelser

Intet nyt her. Model 5 fik nogle flere parametre til indlæringen og løste problemet med modstridende ordpositioner.

På trods af deres revolutionerende karakter kunne ordbaserede systemer stadig ikke behandle sager, køn og homonymi. Hvert eneste ord blev oversat på en enkelt-sand måde ifølge maskinen. Sådanne systemer bruges ikke længere, da de er blevet erstattet af de mere avancerede sætningsbaserede metoder.

Sætningsbaseret SMT

Denne metode er baseret på alle de ordbaserede oversættelsesprincipper: statistik, omordning og leksikale hacks. Selvom det til læring delte teksten ikke kun i ord, men også sætninger. Disse var n-gram, for at være præcis, som var en sammenhængende rækkefølge af n ord i træk.

Således lærte maskinen at oversætte stabile kombinationer af ord, hvilket mærkbart forbedrede nøjagtigheden.

Tricket var, at sætningerne ikke altid var enkle syntakskonstruktioner, og kvaliteten af ​​oversættelsen faldt betydeligt, hvis nogen, der var opmærksomme på lingvistik og sætningernes struktur, forstyrrede. Frederick Jelinek, pioneren inden for computerlingvistik, spøgte en gang med det: "Hver gang jeg fyrer en sprogforsker, stiger udførelsen af ​​talegenkenderen."

Udover at forbedre nøjagtigheden gav den sætningsbaserede oversættelse flere muligheder for at vælge de tosprogede tekster til læring. For den ordbaserede oversættelse var det nøjagtige match af kilderne kritisk, hvilket udelukkede enhver litterær eller fri oversættelse. Den sætningsbaserede oversættelse havde ikke noget problem at lære af dem. For at forbedre oversættelsen begyndte forskere endda at analysere nyhedswebstederne på forskellige sprog til dette formål.

Fra og med 2006 begyndte alle at bruge denne tilgang. Google Translate, Yandex, Bing og andre højt profilerede onlineoversættere fungerede som sætningsbaseret helt frem til 2016. Hver af jer kan sandsynligvis huske de øjeblikke, hvor Google enten oversatte sætningen fejlfrit eller resulterede i komplet vrøvl, ikke? Tullet kom fra sætningsbaserede funktioner.

Den gode gamle regelbaserede tilgang tilvejebragte konsekvent et forudsigeligt, men forfærdeligt resultat. De statistiske metoder var overraskende og forvirrende. Google Translate forvandler “tre hundrede” til “300” uden tøven. Det kaldes en statistisk anomali.

Sætningsbaseret oversættelse er blevet så populær, at når man hører "statistisk maskinoversættelse", er det det, der egentlig menes. Indtil 2016 hyldede alle studier sætningsbaseret oversættelse som den nyeste. Dengang troede ingen engang, at Google allerede fyrede op og gjorde sig klar til at ændre hele vores billede af maskinoversættelse.

Syntaksbaseret SMT

Denne metode skal også nævnes kort. Mange år før fremkomsten af ​​neurale netværk blev syntaksbaseret oversættelse betragtet som "fremtiden eller oversættelsen", men ideen tog ikke fart.

Tilhængerne af syntaksbaseret oversættelse mente, at det var muligt at slå det sammen med den regelbaserede metode. Det er nødvendigt at foretage en ganske præcis syntaksanalyse af sætningen - at bestemme emnet, predikatet og andre dele af sætningen og derefter opbygge et sætningstræ. Ved hjælp af det lærer maskinen at konvertere syntaktiske enheder mellem sprog og oversætter resten med ord eller sætninger. Det ville have løst ordtilpasningsproblemet en gang for alle.

Problemet er, at den syntaktiske parsing fungerer forfærdeligt, på trods af at vi anser det for løst for et stykke tid siden (da vi har de færdige biblioteker til mange sprog). Jeg forsøgte at bruge syntaktiske træer til opgaver lidt mere kompliceret end at analysere emnet og prædikatet. Og hver eneste gang gav jeg op og brugte en anden metode.

Lad mig vide i kommentarerne, hvis det lykkes dig at bruge det mindst en gang.

Neural Machine Translation (NMT)

Et ganske morsomt papir om brug af neurale netværk i maskinoversættelse blev offentliggjort i 2014. Internettet bemærkede det slet ikke, undtagen Google - de tog deres skovle ud og begyndte at grave. To år senere, i november 2016, fremsatte Google en meddelelse, der ændrede spil.

Ideen var tæt på at overføre stilen mellem fotos. Husk apps som Prisma, som forbedrede billeder i en eller anden berømt kunstnerstil? Der var ingen magi. Det neurale netværk blev lært at genkende kunstnerens malerier. Dernæst blev de sidste lag indeholdende netværksbeslutningen fjernet. Det resulterende stiliserede billede var bare det mellemliggende billede, som netværket fik. Det er netværkets fantasi, og vi anser det for smukt.

Hvis vi kan overføre stilen til billedet, hvad nu hvis vi prøver at påtvinge et andet sprog til en kildetekst? Teksten ville være den nøjagtige ”kunstnerstil”, og vi ville forsøge at overføre den, samtidig med at billedets essens bevares (med andre ord essensen af ​​teksten).

Forestil dig, at jeg prøver at beskrive min hund - gennemsnitlig størrelse, skarp næse, kort hale, altid gø. Hvis jeg gav dig dette sæt af hundens funktioner, og hvis beskrivelsen var præcis, kunne du tegne det, selvom du aldrig har set det.

Forestil dig nu, at kildeteksten er det sæt specifikke funktioner. Dybest set betyder det, at du koder det og lader det andet neurale netværk afkode det tilbage til teksten, men på et andet sprog. Dekoderen kender kun sit sprog. Det har ingen idé om funktionernes oprindelse, men det kan udtrykke dem på for eksempel spansk. Fortsat analogien betyder det ikke noget, hvordan du tegner hunden - med farveblyanter, akvarel eller din finger. Du maler det, som du kan.

Endnu en gang - et neuralt netværk kan kun kode sætningen til det specifikke sæt funktioner, og en anden kan kun afkode dem tilbage til teksten. Begge har ingen idé om hinanden, og hver af dem kender kun sit eget sprog. Kan du huske noget? Interlingua er tilbage. Ta-da.

Spørgsmålet er, hvordan finder vi disse funktioner? Det er indlysende, når vi taler om hunden, men hvordan håndteres teksten? For tredive år siden forsøgte forskere allerede at oprette den universelle sprogkode, og den endte med en total fiasko.

Ikke desto mindre har vi dyb læring nu. Og det er dens væsentlige opgave! Den primære sondring mellem dyb læring og klassiske neurale netværk ligger præcist i evnen til at søge efter disse specifikke funktioner uden nogen idé om deres natur. Hvis det neurale netværk er stort nok, og der er et par tusind videokort ved hånden, er det også muligt at finde disse funktioner i teksten.

Teoretisk kan vi videregive de funktioner, der er opnået fra de neurale netværk, til lingvisterne, så de kan åbne modige nye horisonter for sig selv.

Spørgsmålet er, hvilken type neuralt netværk skal bruges til kodning og afkodning? Convolutional Neural Networks (CNN) passer perfekt til billeder, da de fungerer med uafhængige pixelblokke.

Men der er ingen uafhængige blokke i teksten - hvert ord afhænger af dets omgivelser. Tekst, tale og musik er altid ensartet. Så tilbagevendende neurale netværk (RNN) ville være det bedste valg til at håndtere dem, da de husker det forrige resultat - det forrige ord, i vores tilfælde.

Nu bruges RNN'er overalt - Siris talegenkendelse (det analyserer sekvensen af ​​lyde, hvor den næste afhænger af den forrige), tastaturets tip (husk den foregående, gæt den næste), musikgenerering og endda chatbots.

For nørder som mig: Faktisk varierer neurale oversætteres arkitektur meget. Den almindelige RNN blev brugt i begyndelsen og derefter opgraderet til tovejs, hvor oversætteren ikke kun betragtede ord før kildeordet, men også det næste ord. Det var meget mere effektivt. Derefter fulgte det med hardcore multilayer RNN med LSTM-enheder til langvarig lagring af oversættelseskonteksten.

På to år overgik neurale netværk alt, hvad der var dukket op i de sidste 20 års oversættelse. Neural oversættelse indeholder 50% færre ordordfejl, 17% færre leksikale fejl og 19% færre grammatikfejl. De neurale netværk lærte endda at harmonisere køn og sag på forskellige sprog. Og ingen lærte dem at gøre det.

De mest bemærkelsesværdige forbedringer skete i felter, hvor direkte oversættelse aldrig blev brugt. Statistiske maskinoversættelsesmetoder fungerede altid ved hjælp af engelsk som nøglekilde. Således, hvis du oversatte fra russisk til tysk, oversatte maskinen først teksten til engelsk og derefter fra engelsk til tysk, hvilket fører til et dobbelt tab.

Neural oversættelse har ikke brug for det - kun en dekoder er påkrævet, så den kan fungere. Det var første gang, at direkte oversættelse mellem sprog uden almindelig ordbog blev mulig.

Google Translate (siden 2016)

I 2016 aktiverede Google neurale oversættelser til ni sprog. De udviklede deres system med navnet Google Neural Machine Translation (GNMT). Den består af 8 kode- og 8 dekoderlag af RNN'er samt opmærksomhedsforbindelser fra dekodernetværket.

De delte ikke kun sætninger, men også ord. Det var sådan, de behandlede et af de største NMT-spørgsmål - sjældne ord. NMT'er er hjælpeløse, når ordet ikke findes i deres leksikon. Lad os sige "Vas3k". Jeg tvivler på, at nogen lærte det neurale netværk at oversætte mit kaldenavn. I så fald forsøger GMNT at opdele ord i ordstykker og gendanne oversættelsen af ​​dem. Smart.

Tip: Google Translate, der bruges til webstedsoversættelse i browseren, bruger stadig den gamle sætningsbaserede algoritme. På en eller anden måde har Google ikke opgraderet det, og forskellene er ret synlige i forhold til onlineversionen.

Google bruger en crowdsourcing-mekanisme i onlineversionen. Folk kan vælge den version, de anser for at være mest korrekte, og hvis mange brugere kan lide det, vil Google altid oversætte denne sætning på den måde og markere den med et specielt badge. Dette fungerer fantastisk til korte hverdagssætninger som "Lad os gå i biografen" eller "Jeg venter på dig." Google kender engelsk bedre end jeg:

Microsofts Bing fungerer nøjagtigt som Google Translate. Men Yandex er anderledes.

Yandex Translate (siden 2017)

Yandex lancerede sit neurale oversættelsessystem i 2017. Dets vigtigste funktion, som erklæret, var hybriditet. Yandex kombinerer neurale og statistiske tilgange til at oversætte sætningen, og vælger derefter den bedste med sin foretrukne CatBoost-algoritme.

Sagen er, neurale oversættelse mislykkes ofte, når der oversættes korte sætninger, da den bruger kontekst til at vælge det rigtige ord. Det ville være svært, hvis ordet kom meget få gange i en træningsdata. I sådanne tilfælde finder en simpel statistisk oversættelse det rigtige ord hurtigt og enkelt.

Yandex deler ikke detaljerne. Det afværger os med markedsføring af pressemeddelelser. OKAY.

Det ser ud til, at Google bruger SMT til oversættelse af ord og korte sætninger. De nævner det ikke i nogen artikler, men det er meget mærkbart, hvis man ser på forskellen mellem oversættelsen af ​​korte og lange udtryk. Desuden bruges SMT til at vise ordets statistik.

Konklusionen og fremtiden

Alle er stadig begejstrede for ideen om "Babel fisk" - øjeblikkelig taleoversættelse. Google har taget skridt mod det med sine Pixel Buds, men faktisk er det stadig ikke, hvad vi drømte om. Den øjeblikkelige taleoversættelse er forskellig fra den sædvanlige oversættelse. Du skal vide, hvornår du skal begynde at oversætte, og hvornår du skal holde kæft og lytte. Jeg har ikke set egnede metoder til at løse dette endnu. Medmindre måske Skype ...

Og her er endnu et tomt område: al læring er begrænset til sættet med parallelle tekstblokke. De dybeste neurale netværk lærer stadig ved parallelle tekster. Vi kan ikke undervise i det neurale netværk uden at give det en kilde. Folk kan i stedet supplere deres leksikon med at læse bøger eller artikler, selvom de ikke oversætter dem til deres modersmål.

Hvis folk kan gøre det, kan det neurale netværk også gøre det i teorien. Jeg fandt kun en prototype, der forsøgte at tilskynde netværket, som kender et sprog, til at læse teksterne på et andet sprog for at få erfaring. Jeg ville prøve det selv, men jeg er fjollet. Ok, det er det.

Denne historie blev oprindeligt skrevet på russisk og derefter oversat til engelsk på Vas3k.com af Vasily Zubarev. Han er min pen-ven, og jeg er ret sikker på, at hans blog skal spredes.

Nyttige links

  • Philipp Koehn: Statistisk maskinoversættelse. Mest komplette samling af de metoder, jeg har fundet.
  • Moses - populært bibliotek til oprettelse af egne statistiske oversættelser
  • OpenNMT - endnu et bibliotek, men for neurale oversættere
  • Artiklen fra en af ​​mine foretrukne bloggere, der forklarer RNN og LSTM
  • En video “Hvordan man laver en sprogoversætter”, sjov fyr, pæn forklaring. Stadig ikke nok.
  • Tekstguide fra TensorFlow om oprettelse af din egen neurale oversætter, for dem der ønsker flere eksempler og for at prøve koden.

Andre artikler fra Vas3k.com

Sådan fungerer Ethereum og smarte kontrakter

Distribueret Turing-maskine med Blockсhain Protection vas3k.com Blockchain Inside Out: Hvordan Bitcoin fungerer

En gang for alle med enkle ord vas3k.com

En sidste ting…

Hvis du kunne lide denne artikel, skal du klikke på ? nedenfor, og del det med andre mennesker, så de også kan nyde det.