Dyk ned i myterne og realiteterne omkring vurdering og sikring af oversættelseskvalitet som opfattet gennem linsen af MQM-metoden (Multidimensional Quality Metrics). MQM er et omfattende system designet til at vurdere og overvåge kvaliteten af oversat indhold. MQM fungerer som en standardiseret sproglig kvalitetssikringsramme (LQA) til at evaluere oversættelseskvaliteten på tværs af forskellige kategorier. Vurdering af oversættelser under MQM-rammen kan hjælpe med at identificere styrker i din lokaliseringsproces og muligheder for at forbedre.
I denne brandchat udforsker vi de almindelige fejl og bedste praksis, der anvendes for at sikre sproglig kvalitet i topklasse. Opdag, hvordan MQM-metoden kan give både lokaliseringsadministratorer og lingvister mulighed for at minimere fejl, fjerne subjektivitet og forbedre deres oversættelsesoutput.
Vores eksperter til denne session er:
- Olga Beregovaya | VP for kunstig intelligens og maskinoversættelse
- Valerie Dehant | Seniordirektør, Sprogservice
- Alex Yanishevsky | Direktør for implementering af kunstig intelligens og maskinoversættelse
Oversættelseskvalitet: Forståelse af MQM-metoden
Oversættelsesbranchen trives som enhver anden med kvalitet. Men hvordan vurderer man kvaliteten af oversættelser? Syvende afsnit af Smartlings 'Reality Series' gav værdifuld indsigt i oversættelseskvalitet. Væsentlige aspekter lige fra maskinoversættelse (MT), menneskelig oversættelse (HT) og MQM (Multidimensional Quality Metrics) rammer bruges til at kaste lys over dette komplekse problem.
Myte: En native speaker kan evaluere kvalitet Talerne startede med at aflive den vedvarende myte om, at enhver native speaker kan evaluere oversættelseskvalitet. Målingen af 'oversættelseskvalitet' er faktisk meget mere kompleks. Faktisk er kvalitetsevaluering ret subjektiv og kræver en indgående forståelse af konteksten og nuancerne i både kilde- og målsproget.
MQM Framework Hovedemnet for sessionen var introduktionen af MQM (multidimensional quality metrics) frameworket. Denne model går væk fra traditionelle evalueringer af tilstrækkelighed og flydende karakter og giver en mere objektiv metode til vurdering af oversættelseskvalitet. Det tager hensyn til faktorer som tilstrækkelighed, flydende og handlingsevne, samtidig med at det opmuntrer til blind evaluering. Talerne understregede vigtigheden af blind evaluering i MQM, hvor evaluatorer forbliver uvidende om, hvorvidt oversættelsen blev udført af et menneske eller en maskine. De understregede denne tekniks vitale rolle i at eliminere enhver skævhed fra evalueringen.
Hvordan adskiller MQM sig fra konventionelle metoder? Olga Beregovaya udtalte, at det hele handler om klassificering og kvantificering af 'oversættelsesfejl'. I MQM-modellen kategoriseres fejl, og der tildeles alvorlighedsvægte for at beregne en samlet kvalitetsscore. Denne metode giver os mulighed for at kvantificere begrebet oversættelseskvalitet og transformere det til en numerisk værdi, der kan bruges til forbedring.
Talerne berørte andre relevante industrievalueringsmålinger som BLEU, TER og kvalitetsestimering med store sprogmodeller (LLM'er). Disse værktøjer kombineret med løbende eksperimenter med LLM'er til kvalitetsestimering og semantisk evaluering øger vores forståelse af motoradfærd markant.
Olga Beregovaya bragte forskellen mellem tekstuel og semantisk scoring frem i lyset. Tekstscoring overvejer primært forskellen i tegn eller ord, der er nødvendige for at lave en ændring, mens semantisk scoring undersøger sammenhænge mellem ord og begreber i sætninger. Hun understregede også betydningen af menneskelig involvering i at identificere scoring statistiske outliers og undtagelser.
Alex Yanishevsky rejste spørgsmålet om datakvalitet i forbindelse med implementering af store sprogmodeller (LLM'er). Han hævdede, at data af høj kvalitet er grundlæggende og understregede behovet for at fange hallucinationer, når modellen væsentligt afviger fra den faktiske betydning.
Voldgift og KPI'er Valérie Dehant understregede voldgiftens rolle i at løse uenigheder blandt lingvister og opnå ensartet mærkning af fejl. Hun fremhævede MQM-metodens centrale rolle i at lette voldgift i scenarier, hvor modstridende etiketter af fejlkategorier skader modelindlæring. MQM's unikke voldgiftsevne giver en klar skelnen mellem fejl, hvilket muliggør en problemfri modeltræningsproces.
Alex Yanishevsky bemærkede, at Key Performance Indicators (KPI'er) for maskinoversættelse og menneskelig oversættelse er indholdsspecifikke. Han vakte interesse ved at citere følelsesmæssigt engagement, brugertilfredshed, konverteringer og supportbilletopløsning som potentielle KPI'er afhængigt af indholdstypen og hvordan det blev betjent (MT eller HT).
Valérie Dehant introducerede Smartlings værktøjssæt, der strømliner oprettelsen af skemaer, logningsfejl og fremmer samarbejdet mellem evaluatorer gennem et dashboard, udstyret med MQM-score, som giver detaljeret indsigt i fejl og potentielle forbedringsområder. Denne granulære analyse af fejl letter udformningen af handlingsplaner for kvalitetsforbedring.
Dommen Ved at forstå videnskaben bag oversættelseskvalitet og ved at implementere MQM-rammen kan vi nærme os evaluering af kvalitet med en standardiseret, pålidelig metode. Derudover forstærker episode syv, at kombinationen af automatisering og menneskelig analyse er afgørende for at forbedre modeller, identificere anomalier og fremme skalerbarheden af evalueringsprocessen. Se hele afsnittet ovenfor!