Især hvis du har haft en menneskedrevet oversættelsesproces i nogen tid, kan du undre dig over, om maskinoversættelse (MT) kan give sammenlignelige resultater med hensyn til kvalitet. Lad os tale om den overordnede nøjagtighed af MT, hvordan maskinoversættelseskvalitet vurderes, og hvor MT- og MT-kvalitetsestimater er på vej hen.
Hvad er nøjagtigheden af maskinoversættelse?
Maskinoversættelse er ret præcis takket være fremkomsten af neurale netværk- en metode inden for kunstig intelligens. I stedet for at oversætte næsten ord-til-ord, overvejer disse netværk kontekst for at producere mere nøjagtige oversættelser. Men kommer de tæt på den menneskelige ækvivalent? Svaret afhænger ofte af flere faktorer:
- Din maskinoversættelsessoftware. Nogle MT-motorer er mere pålidelige end andre med hensyn til oversættelseskvalitet, så den, du vælger, betyder noget.
- Domæne. Nogle maskinoversættelsessystemer er til generel brug, mens andre er uddannet i specifikke brancher. Når du oversætter kompleks terminologi, såsom til videnskabeligt eller juridisk indhold, kan det gøre hele forskellen at have en MT-motor uddannet på dit domæne.
- Indholdstype. Maskinoversættelse er muligvis ikke så nøjagtig for ting som marketingkampagner, slogans eller slogans. Disse kræver ofte at fange et brands personlighed eller en følelse i stedet for at gengive en nøjagtig oversættelse.
- Sprogpar. Selv de bedste MT-udbyderes kvalitetsresultater vil variere afhængigt af sprogparret. En række faktorer kan forårsage dette, herunder mangel på tilsvarende ord eller sætninger på mål- og kildesprogene.
Alt taget i betragtning kan maskinoversættelse ofte få dig det meste af vejen dertil på en oversættelse. Menneskelige oversættere kan derefter udføre maskinoversættelse efter redigering (MTPE) for at sikre nøjagtighed og få indhold til en publicerbar tilstand.
Hvad er kvalitetsevaluering af maskinoversættelse ?
MT kvalitetsevaluering er den traditionelle måde at vurdere, om maskinoversat tekst er på niveau med, hvordan et menneske ville oversætte kildetekst. Der er en række forskellige evalueringsmetrikker, herunder BLEU, NIST og TER. Disse bruges til at score maskinoversatte segmenter baseret på deres lighed med referenceoversættelser.
Referenceoversættelser er oversættelser af høj kvalitet af kildeteksten, der er genereret af menneskelige oversættere. Disse referencer er naturligvis nyttige. De er dog ikke altid tilgængelige – det er ikke ideelt at stole på dem under oversættelsesprojekter. Hvad er så den mest effektive måde at evaluere kvalitet på? Hos Smartling bruger vi en kombination af to metoder.
Den første er månedlige tredjeparts multidimensionelle kvalitetsmålinger (MQM) vurderinger på tværs af otte lokale. Disse vurderinger er guldstandarden i branchen for evaluering af HT, MT og MTPE. For at tildele passende kvalitetsresultater ser MQM på typen og sværhedsgraden af fejl fundet i oversat tekst.
For det andet udnytter vi løbende automatiserede kvalitetsvurderinger i realtid. Disse måler slutdistancen eller translationsfejlraten over HT, MT og MTPE. I sidste ende gør disse to typer evalueringer os i stand til at tilbyde garanteret oversættelseskvalitet.
Hvad er vigtigheden af maskinoversættelsesevaluering?
Evaluering har til formål at afgøre, om en oversættelse opfylder følgende kriterier:
- Nøjagtig. Indholdet skal trofast formidle budskabet og følelsen af den originale tekst på målsproget.
- Klar. Budskabet skal være let forståeligt, og alle instruktioner skal være handlingsrettede og lette at følge.
- Passende. Visse målgrupper kræver f.eks. visse niveauer af formalitet. Det er afgørende at sikre, at oversatte segmenter viser publikum behørig respekt og ikke fremmedgør eller støder dem.
Et oversat segment, der kommer til kort på et af disse områder, vil kræve efterredigering af en menneskelig oversætter.
Hvad angår fordelene ved MT-evaluering, er der flere. Du kan bruge den til at estimere oversættelsesomkostninger og besparelser og til at bestemme passende kompensation til lingvister. Oversættere kan også med et øjeblik se, hvor meget efterredigering et stykke indhold vil kræve.
To metoder til vurdering af maskinoversættelseskvalitet
Der er to muligheder for at evaluere maskinoversættelse:
- Manuel evaluering: Menneskelige oversættere ser på faktorer som flydende, tilstrækkelighed og oversættelsesfejl, såsom manglende ord og forkert ordrækkefølge. Ulempen ved denne metode er, at hver lingvist kan definere "kvalitet" subjektivt.
- Automatisk evaluering: Denne metode involverer scoring via algoritmer. Algoritmerne bruger menneskelige referenceoversættelser og automatiske målinger som BLEU og METEOR til at bedømme kvaliteten. Mens menneskelig evaluering er mere nøjagtig på sætningsniveau, giver denne metode et fugleperspektiv og er mere skalerbar og omkostningseffektiv.
Forskellene: estimering af maskinoversættelseskvalitet vs. evaluering
I modsætning til kvalitetsevaluering er maskinoversættelseskvalitetsvurdering (MTQE) ikke afhængig af menneskelige referenceoversættelser. Den bruger maskinlæringsmetoder (ML) til at lære af sammenhænge mellem kilde- og målsegmenter. Disse korrelationer informerer estimaterne, som kan oprettes på ord-, sætnings-, sætnings- eller dokumentniveau.
Hvad skal man bruge MT-kvalitetsvurdering til
I vores Reality Series-episode om Machine Translation Quality Estimation gav Mei Zheng, Senior Data Scientist hos Smartling, dette råd:
"Hvis du har ressourcerne til at lave automatisk scoring på alt dit indhold, så gør det bestemt. Prøv derefter nogle af disse strenge til evaluering af mennesker. På denne måde får du en baseline af, hvad den automatiske score svarer til, når en lingvist ser den."
Hvad er værdien af at sætte disse basislinjer baseret på kvalitetsestimater for en bred vifte af indhold? Når du også identificerer mønstre på tværs af ukorrekt oversatte strenge, kan du hurtigt og pålideligt bedømme, om maskinoversat indhold kan publiceres, som det er.
Faktorer, der påvirker MT kvalitetsestimeringsresultater
Automatisk kvalitetsvurdering er hurtig og omkostningseffektiv. Men som Alex Yanishevsky, Smartlings direktør for MT og AI Solutions siger, "Det vil ikke give dig den samme indsigt, som et menneske ville." Som diskuteret i MTQE-webinaret er der flere grunde til dette.
Kilden og dens kvalitet
Der er forskellige algoritmer til kvalitetsestimering, men de fleste tager ikke højde for den omgivende kontekst, såsom køn. Overvej for eksempel følgende tekst: "Dr. Smith blev fundet skyldig i at holde et beskyttet dyr i Atherton Magistrates Court efter at være blevet anklaget for at have fjernet en skrubbepyton fra en beboers ejendom. Hun gennemgik derefter den juridiske proces for at appellere rettens afgørelse."
For nøjagtigheden skal "Doctor" på et sprog som spansk oversættes til den feminine form (dvs. "Doctora"). De fleste MT-motorer er dog ikke uddannet til at opdage denne type kønsbias. Uden hurtig ingeniørarbejde på kildesproget kan outputtet være forkert og påvirke kvalitetsresultatet.
Billedbeskrivelse: Kildeovervejelser til MT-kvalitetsvurdering
En anden faktor, der kan påvirke kvalitetsvurderinger, er mangel på klarhed eller potentiale for flere fortolkninger af kildeteksten. Mei sagde det enkelt: "Når kilden er tvetydig, og vi som mennesker ikke ved, hvordan vi skal fortolke den, kan vi ikke forvente, at maskinoversættelse gør et bedre stykke arbejde end os."
Derudover, fordi MTQE-modeller er trænet i rene datasæt, håndterer de ikke altid mere rodede data godt. Ukvemsord er et godt eksempel. Mei forklarede: "Når du bruger bandeord, giver modeller for [kvalitetsvurdering] en meget høj straf. De fortæller dig: 'Hey, det er en dårlig oversættelse; du bør ikke offentliggøre dette.' Når du har use cases for [bandeord], kan du ikke bruge disse automatiske scoringsmekanismer til det."
Dit domæne eller branche
Forskellige scoringsalgoritmer kan give forskellige estimater baseret på deres kendskab til en branches terminologi. Så Alex understregede, at "der er ingen scoringsalgoritme, der er altomfattende." Han fortsatte: "For at en algoritme skal være effektiv, har vi brug for specifikke data for det pågældende domæne eller den pågældende industri." Ligesom MT-systemer kan tilpasses til en bestemt branche for at give mere nøjagtige oversættelser, kan scoringsalgoritmer også trænes på specifikke domæner.
Disse domænespecifikke data kan ofte være kritiske. Alex forklarede: "Hvis du har en reguleret industri som biovidenskab, medicinsk eller farmaceutisk, er 90 % [nøjagtighed] i de fleste tilfælde sandsynligvis ikke godt nok. Hvis kommaet for eksempel er det forkerte sted, og vi taler om at bruge en kirurgisk kniv, kan det bogstaveligt talt være forskellen på liv eller død.” Indsatsen er også høj i andre brancher, såsom finans og juridisk.
Det tiltænkte publikum
Estimater kan også variere baseret på en algoritmes forståelse af kvalitetstærskler for et bestemt sprog. Mei sagde: "Formalitet - ordvalget og stemmen i dit indhold - falder ind under dine stilistiske præferencer. Men nogle gange er det mere end præference. Det er ligesom, 'Jeg er nødt til at formidle dette formelt; ellers mister jeg min klient.'” Derfor kan manuel evaluering være så gavnlig for kvalitetssikringen.
Mei fortsatte: "I tilfælde af spansk, hvor det ikke kun er formelt eller uformelt, afhænger ordvalget virkelig af graden af respekt, du skal vise til den person, du taler med. Og det afhænger af det forhold, du har til personen - hvis denne person er af en højere rang end dig, eller er mere junior end dig."
Fremtiden for maskinoversættelseskvalitet og MTQE
Maskinoversættelseskvaliteten vil fortsætte med at forbedres, især da flere mennesker bruger store sprogmodeller (LLM'er) som GPT-4 til at supplere den. Mei gjorde den observation, at "disse LLM'er er meget magtfulde til at foretage rettelser til MT'er, såsom at [sikre] nøjagtigheden af køn, formaliteter, stilguider osv." De har dog mangler, som kræver, at lingvisterne tager fat. LLM-hallucinationer - hvor modeller præsenterer unøjagtige oplysninger som fakta - er et godt eksempel på dette.
I sidste ende vil MT og LLM'er gøre det muligt at gennemføre oversættelsesprojekter hurtigere og mere præcist. Men lingvisterne vil forblive i førersædet og foretage justeringer efter behov for at forbedre oversættelserne. Alex delte en lignende følelse og forudsagde, at oversættere i sidste ende kan påtage sig flere af en hurtig ingeniørs opgaver. "De vil begynde at lære, hvordan man rent faktisk skriver prompter på en sådan måde, at LLM vil være i stand til at korrigere outputtet og udjævne det til en bestemt stil, de har brug for - det være sig køn, det være sig formalitet."
Og hvad med fremtiden for kvalitetsvurdering af maskinoversættelse? Et stort spring fremad vil være skabelsen af algoritmer, der tager hensyn til kilden og målet. Ideelt set vil de være i stand til at vægte scores korrekt for at tage højde for faktorer som tvetydighed og emnekompleksitet. Eller i det mindste forbedre processen med at markere problemer, der kan påvirke målet negativt.
I mellemtiden har du dog allerede adgang til avancerede maskinoversættelsesmotorer via Smartlings Neural Machine Translation Hub. Der er endda indbyggede kvalitetsvurderingsfunktioner, såsom Smartling Auto-Select. (Auto-Select overvejer de seneste redigeringer af hver tilgængelig maskinoversættelsesmaskine og identificerer den aktuelle bedste udbyder for et specifikt landestandardpar.)
Billedebeskrivelse: MT Engines Integreret i Smartling NMT Hub
Hvad er resultaterne af denne kvalitetsvurderingsbaserede multi-MT-motortilgang? Op til 350 % højere kvalitet maskinoversættelser og et reduceret behov for efterredigering, hvilket betyder lavere omkostninger og hurtigere time to market.
For mere om, hvordan Smartling kan hjælpe dig med at opnå disse resultater, se vores Neural Machine Translation Hub-demo. Vi vil med glæde besvare eventuelle spørgsmål, du har bagefter!