Tegnkodningsformater: En guide til tegnkodning for flersproget indhold

Digitalt indhold ser ikke altid ens ud, når det vises på forskellige sprog. Uden korrekt kodning kan tegn virke forvrængede, hvilket kan føre til forvirring, datakorruption eller endda webstedsfejl på globale markeder.

Uanset om du bygger en flersproget app eller lokaliserer dit websted, er tegnkodning en af de processer, der hjælper dig med at levere præcis tekst og problemfri brugeroplevelser. Ved at forstå dens betydning og forskellige formater – som ASCII- og Unicode-kodning – kan du nemt oversætte og vise dine budskaber til flersprogede målgrupper.

I denne guide forklarer vi, hvad tegnkodning er, hvilke nøglestandarder der bruges i dag, og hvorfor kodning er afgørende for internationalisering.

Hvad er tegnkodning, og hvordan påvirker det vellykket webstedslokalisering?

Tegnkodning involverer konvertering af tekst til tal eller symboler, så maskiner kan behandle og vise tekst på tværs af websteder, apps og operativsystemer. Da computere bruger binære cifre (0'er og 1'ere), giver tegnkodning en måde at oversætte tekst fra forskellige sprog til et digitalt format, som maskiner nemt kan fortolke.

Her er et grundlæggende kodningseksempel: I én kodningsstandard kan "A" repræsenteres af den binære sekvens "01000001". Computeren læser disse binære data, og kodningsstandarden oversætter dem tilbage til det tilsvarende menneskeligt læsbare tegn: "A".

Tegnkodning spiller en afgørende rolle i lokalisering for globale virksomheder, fordi det giver dem mulighed for præcist at vise en bred vifte af tegn fra forskellige skriftsystemer, herunder kinesisk, arabisk og kyrillisk. Dette fører til en mere præcis og hurtig oversættelse.

Virksomheder kan også bruge Smartlings Global Delivery Network (GDN), en webproxy til oversættelse, til hurtigt at starte oversættelser til websteder og apps. Når det er konfigureret, kan indholdet flyde problemfrit fra dit websted til Smartling til oversættelse. Smartling tilbyder endda en menu med specialtegn til forskellige sprog og formateringsmuligheder, som du nemt kan indsætte i dine oversættelser.

Hvad er de vigtigste typer af tegnkodning?

Hvert tegnkodningsformat understøtter forskellige sprog og tekniske behov for indholdslokalisering.

Kodningstype	Nøglefunktioner	Understøttede sprog	Brug cases
ASCII	7-bit, repræsenterer 128 tegn, inklusive engelske bogstaver, tal og grundlæggende symboler	engelsk	Tidlig databehandling, simple tekstfiler, ældre systemer
ISO-8859-1	8-bit, repræsenterer forskellige vest-/østeuropæiske tegn	Vesteuropæiske sprog, såsom tysk, fransk og spansk	Ældre webindhold, internationale dokumenter
UTF-8	Variabel længde (1-4 bytes), bagudkompatibel med ASCII, håndterer alle Unicode-tegn, ingen BOM kræves	Næsten alle sprog	Webindhold, moderne applikationer, dataudveksling på tværs af platforme
UTF-16	En eller to 16-bit kodeenheder	Næsten alle sprog, plus specialtegn som emojis	Web- og internationalt indhold, moderne tekstfiler med specialtegn
Windows-1252	8-bit, inkluderer vesteuropæiske tegn; supersæt af ASCII	Østeuropæiske sprog som polsk og tjekkisk	Ældre Windows-baserede applikationer

Her er et nærmere kig på de mest almindelige typer tegnkodning, herunder hvordan de fungerer, og eksempler på, hvordan de bruges på tværs af lokaliserede apps og websteder.

ASCII

Den amerikanske standardkode for informationsudveksling (ASCII) er et af de tidligste og enkleste tegnkodningssystemer. ASCII bruger 7 bit til at kode 128 tegn, der dækker grundlæggende engelske bogstaver, tal og tegnsætningstegn.

Med ASCII er hvert tegn knyttet til en unik numerisk kode. For eksempel er det store bogstav "A" repræsenteret som 65, og udråbstegnet "!" er 33. I binærtilstand bliver "A" til "01000001". ASCII er grundlæggende for moderne kodningsskemaer, men er begrænset til engelsk og mangler understøttelse af accenter eller ikke-latinske tegn.

ISO-8859-1

ISO-8859-1 er et 8-bit single-byte tegnkodningsformat udviklet af Den Internationale Standardiseringsorganisation (ISO) for at udvide ASCII's muligheder til vesteuropæiske sprog.

ISO-8859-1 koder 256 tegn, inklusive yderligere bogstaver med accenter som "é" og "ö", og en række specielle tegnsætnings- og symboltegn. For eksempel er tegnet "é" repræsenteret af koden 233, og "ñ" er 241. ISO-8859-1 kan dog ikke kode tegn uden for det vesteuropæiske sæt, hvilket begrænser dets anvendelse til internationale applikationer.

UTF-8

Unicode Transformation Format – 8 bit (UTF-8) er et tegnkodningsformat med variabel længde, der er designet til effektiv, global sprogkompatibilitet. Med UTF-8 kodes alle ASCII-tegn med én byte og bevarer de samme binære værdier. Ikke-ASCII-tegn, f.eks. "€", bruger multibyte-sekvenser, f.eks. "11100010 10000010 10101100" i stedet for "€" i binær fil.

UTF-8 kan kode alle tegn i Unicode-standarden for problemfri flersproget understøttelse. Det er blevet det dominerende kodningsformat til internettet og moderne applikationer på grund af dets evne til at håndtere enorme sprogsæt.

UTF-16

UTF-16 repræsenterer hvert tegn i Unicode-standarden ved hjælp af en eller to 16-bit kodeenheder. Tegn i almindelige skrifttyper gemmes som en enkelt 16-bit enhed, og andre tegn (som emojis og sjældne historiske skrifttyper) vises som surrogatpar, som er to kombinerede 16-bit kodeenheder.

For eksempel er “A” (U+0041) i UTF-16 0x0041, mens den smilende emoji “😊” (U+1F60A) gemmes som surrogatparret 0xD83D 0xDE0A. Dette gør det muligt for UTF-16 at kode over en million forskellige tegn, selvom det bruger mere plads end UTF-8 til noget tekst.

Windows-1252

Windows-1252 er en 8-bit tegnkodningstype udviklet af Microsoft til vesteuropæiske sprog, almindeligvis kaldet "ANSI"-kodning i Windows-miljøer. Det ligner ISO-8859-1, men indeholder ekstra tegn som krøllede anførselstegn (“ ”) og eurotegnet (€).

Windows-1252 blev brugt i vid udstrækning i ældre Windows-dokumenter og -applikationer, men er i vid udstrækning blevet erstattet af UTF-8, især af hensyn til international kompatibilitet.

Løsning af udfordringer med tegnkodning i en flersproget verden: 5 udfordringer og bedste praksis

Tegnkodning er teknisk og nuanceret, hvilket skaber visse udfordringer for virksomheder, der forsøger at nå ud til flersprogede målgrupper. Når du lokaliserer indhold i stor skala, skal du være opmærksom på disse almindelige kodningsproblemer og bedste praksis til at løse dem:

1. Forvrænget tekst

Når software fortolker tekst ved hjælp af forkert tegnkodning, kan det resultere i forvrængede, ulæselige tegn som spørgsmålstegn eller tilfældige symboler. Dette sker normalt, når tekst kodet i ét format (som UTF-8) åbnes eller gengives med en anden kodning (som ISO-8859-1), hvilket fører til uoverensstemmelser i bytefortolkningerne. Forvrænget tekst skaber forvirring for brugerne og kan mindske et websteds troværdighed.

Bedste praksis: Sigt efter at bruge ensartet kodning på tværs af indhold. Du kan gøre dette ved at bruge HTML-tags som <meta charset="UTF-8"> for at sikre, at browsere behandler tekst som tilsigtet.

2. Datatab under konvertering

Når du konverterer indhold mellem forskellige kodninger – f.eks. fra Windows-1252 til UTF-8 – kan nogle tegn gå tabt eller erstattes forkert. Dette kan have en alvorlig indvirkning på læsbarheden af flersproget og lokaliseret indhold, og hvis du ikke opdager det tidligt, kan det føre til datakorruption.

Bedste praksis: Brug Unicode-kompatible oversættelsesværktøjer, der strømliner konvertering mellem kodningsformater. Sikkerhedskopier også altid data, før du udfører kodningsændringer, og test resultaterne for nøjagtighed.

3. Manglende understøttelse af flersprogede skrifttyper eller glyf

Selv med det korrekte tegnkodningsformat kan tekst vises som tomme firkanter, hvis de nødvendige skrifttyper eller glyffer ikke er tilgængelige på brugerens enhed. Dette problem er især almindeligt, når man bruger bogstaver med accent eller emojis, som ældre eller grundlæggende skrifttypesæt muligvis ikke understøtter.

Bedste praksis: Brug websikre skrifttyper, der understøtter en bred vifte af tegn på tværs af sprog. Opret en skrifttypestak med reservetegn, som systemet automatisk kan indsætte i teksten, hvis det er nødvendigt.

4. Tovejstekst

Sprog som arabisk og hebraisk bruger et højre-mod-venstre (RTL) skrivesystem, hvilket kan føre til layout- og justeringsproblemer – især når det blandes med venstre-mod-højre (LTR) skrifttyper som engelsk. Hvis disse sprog ikke er korrekt kodet, kan de forstyrre læseflowet eller helt ødelægge formateringen.

Bedste praksis: Anvend korrekte sprog- og retningsspecifikke markups, såsom dir="rtl" og lang="ar" i HTML, for at hjælpe browsere med at vise teksten præcist. Vælg frameworks, der understøtter RTL-layouts, og test indhold for at sikre, at det vises korrekt for alle målgrupper.

5. Problemer med byteordremærke

Et byteordensmærke (BOM) er en særlig markør i begyndelsen af en tekstfil, der angiver byterækkefølge og kodning. Styklister kan forårsage problemer såsom:

Uventede usynlige tegn i starten af filer (f.eks. “ï»¿”)
Inkompatibilitet med visse systemer, f.eks. ældre webbrowsere
Interoperabilitet mellem applikationer

Bedste praksis: Brug værktøjer, der automatisk kan registrere og håndtere styklister korrekt, når du behandler tekstfiler. For webindhold skal du udelade BOM'en i UTF-8 for at undgå visningsproblemer.

Gør kodning nemt med Smartlings lokaliseringsværktøjer

Tegnkodning er ofte usynlig for brugerne, men det er afgørende for, hvordan de oplever indhold på tværs af enheder og sprog – fra lokaliserede apps til flersprogede websteder. Ved at forstå det grundlæggende i kodning kan oversættelses- og udviklingsteams forhindre dyre fejl og levere en mere problemfri oplevelse til et globalt publikum.

Smartling er bygget til at hjælpe virksomheder med at vokse globalt, samtidig med at det forenkler oversættelse for udviklere med en kraftfuld webproxy og et robust API. Smartling integrerer direkte med dine eksisterende teknologiske systemer, hvilket eliminerer manuelle opgaver og strømliner oversættelsesprocessen. Faktisk giver Smartling dig mulighed for at tilføje nye sprog og udløse oversættelsesworkflows ved hvert kodepush, så du kan ekspandere internationalt uden at gå glip af noget.

British Airways udnyttede for eksempel Smartlings weboversættelsesproxy til at lokalisere sin hjemmeside til koreanske kunder. Med Smartlings centraliserede platform kunne British Airways oversætte mere end 500.000 ord og lancere dobbelt så hurtigt som normalt. Læs casestudiet for at se, hvordan de fik det til at ske.