På grund af vores centrale rolle i lokaliseringsinfrastrukturen er Smartling godt positioneret til at lave analyser på makroniveau af brugsmønstre og generelle tendenser i webindholdsverdenen.

Og for nylig fandt vi noget interessant i de data.

Vi har bemærket, at LLM-bots scanner lokaliserede websteder. Formentlig er dette for at udvinde dem til indhold for yderligere at forbedre deres egne grundlæggende modeller.

Det er en tværgående trend, hvor enhver virksomhedstype og størrelse er påvirket. Uden at komme ind på lovligheden, etikken eller ejerskabet af dette indhold, bliver vi straks slået af potentialet for at skabe et internet-ekkokammer på grund af disse gennemgange.

Træningsdataforurening og konsekvenser

Med stigningen i virksomheder, der bruger en MT-first eller MT-fallback-tilgang til deres webindhold, plus den nylige tilgængelighed af LLM'er som oversættelsesudbyder, kan LLM'er snart finde sig selv i den position, at de uforvarende "spiser deres eget hundefoder."

Hvad er indvirkningen på kvaliteten og effektiviteten af LLM'er, når deres træningsdatasæt er sammenvævet med oversat indhold, der stammer fra LLM'er?

LLM'er er afhængige af det store udvalg af frit tilgængeligt digitalt indhold på internettet, hvad enten det er i en avisartikel, et akademisk tidsskrift, blogindlæg eller scannede bøger, for at samle nok indhold til at øge størrelsen og kompleksiteten af en præ-trænet model og dermed give menneskelignende generative evner. Men hvis en væsentlig del af indholdet, der indtages, udelukkende blev skabt af LLM'er uden nogen forstærkende læring fra menneskelig feedback, vil de så begynde at glide med hensyn til kvaliteten og nøjagtigheden af deres output? Vil feedback-sløjfen skabe en form for AI'isme, der til sidst spreder og ændrer sprogets struktur og tone generelt?

Det er svært at estimere virkningen, men når vi står i begyndelsen af denne generative AI-revolution, ser vi de potentielle faldgruber i den dataindsamlingsproces, der bruges af LLM-udbydere.

Intellektuel ejendomsret og værdispørgsmål

Det er umuligt at identificere al indkommende trafik, der tilhører bots, fordi vi er afhængige af deres korrekte brug af User-Agent-headere, der angiver deres oprindelse og formål. Mange skruppelløse skraberobotter vil ikke kun skjule deres formål; de vil aktivt forsøge at skjule sig selv og blande sig i den generelle strøm af trafik, som enhver offentlig hjemmeside ser.

En mulig fremtidig tilgang til filtrering af denne "ekkokammer"-effekt er, at LLM'er samarbejder med indholdsudbydere om at udvikle en form for vandmærkning, der identificerer indhold genereret af en LLM, så det kan kategoriseres korrekt og behandles. Denne type vandmærkning vil sandsynligvis være efterspurgt for at afbøde virkningerne af desinformation, IP-tyveri og anden asocial adfærd, som dårlige skuespillere kan udvise.

Derudover kan virksomheder, der ikke har noget imod eller er interesseret i at få LLM'er til at crawle deres data en dag vælge at tjene penge på deres indhold ved at sælge adgang til LLM-crawlere. Dette kan vise sig at være en lukrativ sideforretning, der betaler en forhandlet værdi for menneskeskabt indhold. Indholdsproducenter har allerede anlagt igangværende retssager mod LLM'er i et forsøg på at genvinde kontrollen over deres ophavsretligt beskyttede materiale.

Hvad kan vi gøre ved det?

LLM-skrabning af websteder for indhold er ikke en hemmelighed. Alligevel kan mange virksomheder blive overrasket over at erfare, at det sker for dem, og de kan være uvidende deltagere i aktiviteter, der giver dem ringe fordel, mens de genererer uendelig værdi for LLM'er.

I en verden af maskinoversættelse er "at bruge AI til at hjælpe AI" ikke en ny idé. Når klientspecifikke, domæne- eller long-tail sprogdata er knappe, er det ikke ualmindeligt at ty til dataforøgelsesteknikker såsom webcrawling af lignende websteder, tilbageoversættelse eller datafremstilling ved at skabe lidt forskellige kilde- og målsprogsvarianter.

Ikke desto mindre er det afgørende, at enhver, der stoler på modellens output, forstår fordele og ulemper ved sådanne tilgange. I de fleste tilfælde kan sådanne teknikker kun gradvist forbedre modelkvaliteten. I sidste ende erstatter de ikke det underliggende motto for maskinlæring - behovet for velmærkede og relevante data.

Hvorfor ikke oversætte mere intelligent?

Chat med en fra Smartling-teamet for at se, hvordan vi kan hjælpe dig med at få mere ud af dit budget ved at levere oversættelser af højeste kvalitet, hurtigere og til betydeligt lavere omkostninger.
Cta-Card-Side-Image