For at en språkekspert skal kunne arbeide med innholdet, må teksten være redigerbar. Selv om dataassistert oversettelse (CAT) har utviklet seg mye de siste tjue årene, kreves det fortsatt et trenet øye og en ekspert for å forstå når en fil ikke kan behandles. Denne manuelle innsatsen er fortsatt nødvendig for selv de mest avanserte programvarene som er tilgjengelige i dag.
Redigerbarhet er ikke noe problem for de fleste filformater, men i disse tilfellene er det ofte det. For eksempel:
- Hente tekst fra bilder eller programvare for desktop publishing
- Fjerne unødvendige linjeskift og mellomrom som ellers vil gjøre det vanskelig å jobbe med innholdet.
- Rense i PDF-filer etter optisk tegngjenkjenning (OCR)
- Filtrering av irrelevant innhold i Excel-filer
- Skape tag-innstilling (.ini)-filer for .xlm og andre lignende filtyper
Tekstutvinning
Filformater der det ofte kreves utvinning av tekst InDesign (.indd), QuarkXPress (.qxp), PDF documents (.pdf), Adobe Photoshop (.psd) og PowerPoint (.ppt). Våre tekniske eksperter går gjennom det ikke-redigerbare innholdet og henter ut tekster til et redigerbart format (f.eks. Microsoft Word, LanguageWire Editor eller andre CAT-verktøy). Når teksten er oversatt, korrekturlest eller behandlet med en annen språktjeneste legges den tilbake i det opprinnelige dokumentet på en måte som gjør at den visuelt er så lik kildematerialet som mulig.
Arbeidet med tekstutvinning kan ofte deles inn i to kategorier, konvertering eller utvinning. Her ser du noen eksempler på hver av prosessene:
Konvertering
- Konvertering av PDF-filer til Microsoft Word-filer med redigerbar tekst
- Gjør det mulig å redigere tekst i rastrerte bilder
- Konvertering av QuarkXPress-filer til InDesign
Utvinning
- Utvinning av tekst fra Adobe Illustrator (.ai)-filer
- Tekstutvinning fra designfiler i flere lag (InDesign, AutoCAD, etc.)
Optisk tegngjenkjenning (OCR)
OCR innebærer å konvertere elektronisk tekst til et redigerbart format. Dette gjøres ofte i oversettelsesbransjen. Uten denne muligheten hadde vi ikke kunnet gi nøyaktige analyser og, som følge av dette, kostnadsoverslag.
OCR-konvertering ser visuelt bra ut. Men hvis du skraper i overflaten oppdager du en formatering som ingen noensinne kan ha implementert. Dette kan ha stor påvirkning på prosessen, forlenge ledetidene for oversettelsen og øke den totale kostnaden på prosjektet.
Våre interne teknikere tar hånd om dette innholdet, optimaliserer filene dine for å øke effekten av oversettelsesminnet (TM) og gjør veien til markedet kortere.
Kort oppsummert
- Forberedelse av innhold som skal behandles i CAT-verktøy av språkeksperter
- Utvinning av tekst fra bilder eller programvare for desktop-publishing
- Fjerne unødvendige linjeskift og mellomrom
- Rense i PDF-filer etter optisk tegngjenkjenning (OCR)
- Filtrering av irrelevant innhold i Excel-filer
- Skape tag-innstilling (.ini)-filer for .xlm og andre lignende filtyper