Strojový překlad s DeepL

Co se skrývá za DeepL? Jsou díky strojovým překladům, jako je DeepL, techničtí překladatelé zbyteční? V čem je člověk nadřazen stroji
Vědci a firemní organizace pracují na vývoji umělé inteligence již od 50. let 20. století. Značného pokroku bylo dosaženo také v oblasti strojového překladu. Umožnil to výkonnější hardware a nové technické vymoženosti, jako je strojové učení a neuronové sítě, které zjednodušeně napodobují lidský mozek. K tomuto vývoji však přispělo i obrovské množství vysoce kvalitního dvojjazyčného obsahu, který je nyní k dispozici v elektronické podobě a který slouží jako tréninkový materiál pro překladové stroje založené na algoritmech umělé inteligence.

Společnost DeepL, založená v Kolíně nad Rýnem v roce 2009 pod názvem Linguee, způsobila v roce 2017 senzaci svou bezplatnou službou DeepL Translator, jejíž základní neuronové sítě vytvářejí texty dosud nepřekonané kvality. To potvrdily jak automatizované hodnotící metriky, tak slepé testy prováděné s profesionálními překladateli. Od roku 2018 je k dispozici také placené předplatné DeepL Pro a navíc API pro vývojáře pro integraci DeepL do jiných systémů. DeepL lze nyní integrovat i do běžných nástrojů CAT, jako jsou Across, memoQ a SDL.

Co se skrývá za DeepL?

DeepL pro jakýkoli druh textu je od roku 2016 neustále vyvíjen s využitím strojového učení a inovativních technologií zpracování jazyka. Podle společnosti byla k tréninku DeepL použita miliarda překladů – sestávajících z dvojjazyčných vět shromážděných webovým crawlerem společnosti Linguee na internetu. Ještě před spuštěním DeepL bylo možné zkoumat jednotlivé výrazy v kontextu v online aplikaci společnosti Linguee. Všechny hity, které web crawler nabízí, vycházejí z dvojjazyčných textů firem, úřadů a EU dostupných na internetu.

Pro vyzkoušení stránky DeepL byl vybrán odborný text z oblasti podnikových financí (viz obrázek níže). Výstup DeepL zaujme plynulostí textu: ukázkový text je zcela bez neobratných gramatických chyb. Naopak je z něj okamžitě patrný předmět textu – ukazatele likvidity a závazky společnosti.

Výsledky z překladače Google jsou méně přesvědčivé: jeden nesprávně přeložený odborný termín okamžitě upoutá pozornost technicky zdatných čtenářů. Google přeložil finanční termín „celkové závazky“ (německy Gesamtverbindlichkeiten) na „solidární závazky“ (německy Gesamthaftung), který se používá v právnickém jazyce. Ve skutečnosti se však jedná o odkaz na veškeré finanční závazky společnosti, jak správně rozpoznal server DeepL.

Při bližším zkoumání je však zřejmé, že ani DeepL nepřeložil všechny odborné termíny správně. Pojmy „current ratio“ a „quick ratio“ – přeložené DeepL do němčiny jako „aktuelle“ a „schnelle Kennzahlen“ – jsou poměrové ukazatele pro různé stupně likvidity. V německém bankovnictví a účetnictví se však tyto termíny obvykle používají nepřeložené jako „Current Ratio“ (neboli ukazatel hotovostní likvidity) a „Quick Ratio“ (neboli ukazatel kyselosti). Bez následné úpravy odborným překladatelem a bez správné odborné terminologie tedy nejsou strojově přeložené texty pro náročné odborné publikum příliš přesvědčivé. Podobných příkladů lze na internetu najít mnoho. Někdy jsou chyby tak jemné, že je odhalí pouze odborníci.

Činí strojové překladače jako DeepL překladatele zbytečnými?

To zcela závisí na takových faktorech, jako je typ textu, cílová skupina a účel komunikace, které je třeba vzít v úvahu při rozhodování pro nebo proti strojovému překladu. Náročné cílové skupiny, jako jsou investoři nebo lékaři, pravděpodobně nepřesvědčí špatně přeložené brožury nebo letáky. Strojový překlad však může být dostačující i pro jiné typy textů, například pro ty, které nejsou určeny k publikování, nebo pro zdrojové texty, které byly pro strojový překlad optimalizovány pomocí psaní podle pravidel.

Dalším důležitým faktorem je konkrétní jazyková kombinace, o kterou se jedná, protože kvalita výstupu se může lišit v závislosti na zdrojovém a cílovém jazyce: roli hraje struktura a gramatika příslušných jazyků a také dostupný objem a kvalita dvojjazyčných textů, na kterých jsou překladatelské algoritmy trénovány. Výsledky jsou ovlivněny také danou tematickou oblastí, protože existují určitá specializovaná témata, pro která je dostupný dvojjazyčný výukový materiál velmi chudý.

Tam, kde je člověk lepší než stroj

Strojový překlad poskytuje pro určité účely dostatečně dobré výsledky, ale pokud jde o reklamní texty obsahující slovní hříčky, technické texty plné odborného žargonu nebo texty, které jsou chybné či nejednoznačné, lidská mysl má stále navrch nad umělou inteligencí.

Znalost technického žargonu

Slovní zásoba používaná ve strojovém překladu založeném na neuronových sítích je obvykle omezena na 50 až 80 000 nejběžnějších slov, takže některé technické termíny nemusí být vůbec k dispozici – ty se označují jako „OOV (out of vocabulary) words“. I zde mají přednost profesionální překladatelé se znalostí příslušného odborného žargonu.

Porozumění logice textu

Výchozí texty často obsahují logické chyby nebo jsou volně založeny na ústředním tématu, které není snadné pochopit. Dokonce i tak jednoduché opomenutí, jako je vynechání slova „ne“, může způsobit, že se text stane vnitřně rozporným. Aby byli překladatelé schopni přesně reprodukovat zdrojový text v cílovém jazyce, zaměřují se pozorně na význam textů a jsou schopni si takových nesrovnalostí všimnout a v případě potřeby je vrátit zadavateli k objasnění.

Zpracování chybných textů

Zdrojové texty a soubory dat mohou obsahovat chyby. Zejména anglicky psané texty vznikají po celém světě, často je vytvářejí nerodilí mluvčí a jejich interpretace může být někdy obtížná. Ale i jednoduchý překlep může překladový stroj zmást. Na druhou stranu překladatelé se svými jemně vybroušenými kognitivními schopnostmi dokáží takové chybné pasáže textu interpretovat a zaujmout stanovisko, kdy se obrátit na zákazníka s žádostí o radu.

Kreativita v překladu

Určité typy textů, například reklamní a marketingový obsah, je třeba přizpůsobit zahraničním trhům, což vyžaduje kreativitu překladatele založenou na jeho hluboké znalosti cílové kultury, skupin a jazyka.

Vypořádání se s nejednoznačností

Většina jazyků obsahuje slova, která mohou mít v závislosti na kontextu různé významy. Zatímco DeepL uznává, že slovo „závazky“ používané ve finančních textech by mělo být v němčině překládáno jako „Verbindlichkeiten“, jiné překladače jej překládají jako „Haftung“, což je německý termín používaný právě pro označení odpovědnosti v právním smyslu. Lidští překladatelé si naproti tomu vždy uvědomují kontext a volí vhodnou terminologii.

Rozpoznávání synonym

Totéž platí pro používání synonym, která se sice často používají k obohacení literatury, ale v některých typech textů jsou odmítána. Zkušený technický překladatel rozpozná, že „zařízení“, „systém“ a „přístroj“ v ukázce textu níže mají stejný referent, a může klientovi doporučit, aby terminologii sjednotil. Ve strojovém překladu je tento problém jednoduše ignorován.

Užitečné

Text Překlad WordPress pluginu bez jazykového souboru
Domovská stránka překladače DeepL

ICTIS.CZ