Un experimento con DeepL

Le 30 de octobre, e le 1, 4 e 5 de novembre 2017

Introduction e synopse

Io faceva un prime experimento con translation machinal, usante le relativemente nove DeepL, sequite per revision (anglese: postediting) bilingual.

Resultato: ille methodo in mi experimento esseva quasi duo vices plus rapide que le traduction manual. Pro le traductor/revisor le maniera de travaliar esseva confortabile.

Ma il ha, como nos dice in nederlandese, multe mitsen en maren, conditiones e sedes. Caveats.

Proque traducer es difficile?

Le 29 de januario 1987 io comprava e depost legeva un libro scribite per J.J. Schoorl, con le titulo “De computer als vertaler”, le computator como traductor, ©1986, ISBN 90-6009-770-X. Hic un longe recension, in nederlandese como le libro ipse.

Ille libro describe multe cosas que io sentiva ja saper – ma io gaudeva de vider lo confirmate – super le problemas que debe ser solvite, si on vole crear software que pote facer lo que usque nunc solo pote facer translatores human: traducer textos de un lingua human a un altere.

On lege como in varie linguas le realitate es capturate in parolas in manieras differente, assi que parolas corresponde (in mi formulation) a nubes de significatos que non imbrica. Anque, lo que un lingua exprime per medio de un parola, un altere face per medio del grammatica: casos, ordination del parolas, structura del phrases; e vice versa.

Pro resolver iste differentias, il non suffice mirar solo parolas, on debe anque considerar le contexto in partes del phrase, in le phrase complete, mesmo in paragraphos e le documento integre. O ancora extra le documento. Dicte alteremente, pro resolver le problema de synonymos e homonymos, distribuite differentemente in cata lingua, on debe comprender le texto ante de poter translatar lo. On besonia non solmente cognoscentia del linguas, ma alsi cognoscentia del vita e del mundo.

Isto es mi methodo de traducer: non traduce parolas, ni expressiones, ni phrases. Traduce ideas. Lege e comprende le texto fonte, e reformula le ideas que le texto contine, in le lingua scopo, in un maniera que es usual in iste lingua scopo. Assi un bon traduction non sembla ser traducite, ma appare ser scribite directemente e originalmente in le lingua visate.

Le libro de Schoorl, in alto mentionate, ha essite un forte impeto pro me pro post 1995, quando io comenciava travaliar como freelance, non solo me occupar con informatica, ma de plus in plus etiam con traduction, linguas ja sempre essente un de mi passiones.

Le syntaxe de multe linguas es subtilmente complicate. Ben que le linguistica ha fornite methodos pro analysar le structura de phrases e le regulas que stipula lo, pro algorithmos, pro software, il remane difficilissime extraher le information que es cifrate in iste structura, tanto como il es difficile generar phrases in le lingua visate que es structuralmente correcte.

Qualitate

Le libro de Schoorl esseva publicate plus de 30 annos retro, in 1986, in un tempore quando le hardware ancora esseva irrisorimente debile in comparation con lo del smartphones, tablets, laptops e webservers de nostre tempore.

Totevia, quando ancora alcun menses retro periodicamente io survelia le qualitate del traductor automatic le plus cognoscite e probabilemente le melior, le Google Translate, ben que il habeva prestationes impressionante, io anque remarcava ancora multe problemas, como le selection incorrecte inter significatos del parolas fonte, miscomprension de expressiones idiomatic, e le generation frequente de traductiones con un syntaxe incorrecte.

Le problemas es pejor con linguas minus commun, e con combinationes de linguas que non contine le anglese. Apparentemente le anglese es quasi sempre usate como lingua intermediate. Ubi le anglese non es precise (cata lingua ha punctos de grande accuratessa e alteres de grande inglobation), errores de translation pote ser expectate.

Ora il ha le DeepL, ex le mesme stabulo que Linguee. DeepL es clarmente melior que Google Translate. Quasi sempre, le phrases que genera DeepL es grammatic, ha un structura syntactic correcte. Multe vices, le traductiones de DeepL es jam usabile. Ma ancora il ha errores. In mi experimento, le parola nederlandese “vorst” esseva occasionalmente traducite con le anglese “frost”, que es correcte si il se tracta de temperaturas basse e aqua que gela. Mais in mi texto, le vorst es un monarcha, un soverano, un rege.

De tempore a tempore expressiones idiomatic esseva miscomprehendite, interdum formulationes correcte poteva tamen ser ameliorate, pro devenir plus correcte, plus clar, plus belle e elegante, plus apte pro le thema e stilo del texto.

Conforto

Ergo si DeepL es usate pro seriosemente crear un bon traduction, un revision bilingual, dunque per un traductor qui sape ben e le lingua fonte e le lingua scopo, in mi opinion es strictemente requirite. Sinon, le miscomprensiones del traduction algorithmic non es detectate, e ameliorationes durante un revision monolingual (solmente in le lingua scopo) pote alterar le traduction in manieras que face lo deviar troppo del senso del original.

Ex mi parve experimentos con Google Translate io appercipeva que le grande numero de errores faceva le revision fatigante, anque proque io tendeva a analysar que era le error de ‘pensata’ del traductor automatic, como il ha essite que illo arrivava a su traduction erronee.

Illo resimila le travaliar con fuzzy matches in un programma de traduction plus traditional, un programma de memoria de traductiones, que non mesme traduce, ma juva le traductor human per trovar pares le phrases ja traducite in le passato, que es simila al carga actual, e que anque adjuta con fornir e surveliar le terminologia.

Quando on travalia con un fuzzy match – on poterea forsan appellar lo un ‘similitude partial’ – on labora con le phrase fonte de tunc, lo de nunc, le differentias inter le duo, le traduction de tunc, e le traduction in preparation de nunc. Troppo information pro le memoria curte human, que pote continer solo 3 o 4 items al mesme tempore. Quando il ha multe differentias, e pejo, anque codices typographic (que es sovente inutile e innecessari, ma que tamen debe ser placite aliquanto correctemente), le situation rapidemente deveni tan complicate e confundite, que traducer le phrase frescamente es plus confortabile e plus productive que usar le similantia del previe traduction.

In mi experimento con DeepL io non resentiva un tal incommoditate: io videva le phrase o paragrapho fonte, e un traduction a vices perfecte o sovente quasi perfecte. O un con errores ma que contineva ideas utile pro rapidemente arrivar a un resultato acceptabile. Io ha assi resentite un labor confortabile e agradabile, durante le processo de postediting bilingual del traduction automatic de DeepL.

Regula practic

Como regula approximative io ha sempre maneate: 250 parolas per hora. Isto se refere a parolas anglese o nederlandese: le lingua german ha minus parolas e parolas plus longe, dunque si iste lingua es le base del conto, il es necesse facer adaptationes.

In le exemplo, con un texto mie, primo scribite in nederlandese, mi lingua materne, sin limitar me, usante le plen potential lexicographic e syntactic que es a mi disponibile, io succedeva a traducer 1140 parolas al anglese, in 2^h25^m, inclusive de un controlo final de orthographia, e releger e ameliorar le texto un vice. Le tempo de traduction esseva assi 471 parolas per hora, 1,89 vices plus rapide que mi regula practic de 250.

Factores que influentia le tempo

Pro le serie in le qual io faceva mi experimento de traduction machinal, in major parte io scribeva primo in anglese (non mi lingua maternal), e depost traduceva al nederlandese (mi lingua maternal). A causa del limitationes linguistic que scriber in un lingua estranie ineluctabilemente comporta, un tal traduction naturalmente es plus facile e hinc plus rapide que in le altere direction.

Le prioritate in le serie esseva in clarmente explicar cosas que alcunes (initialmente etiam io) trova complicate – ma in realitate non es. Le scopo non era crear belletristica. In plus, dum io scribeva io ha ja sapite del traduction planate, ergo il existeva un tendentia de evitar in articulos fonte parolas e expressiones notorimente difficile a traducer in le altere lingua. Isto anque era ver in le poc casos in le qual io scribeva originalmente in nederlandese e traduceva depost al anglese.

Secun mi memoria, sin haber notate valores concrete, in traducer en>nl sovente io ha attingite un volumine de 400 o 600 parolas per hora. Ma probabilemente non continuemente, 8 horas per die, solo alcun horas in succession.

Assi vidite, le 470 parolas del experimento actual non es impressionante. Nonobstante, in le experimento con DeepL le direction del translation era nl>en e io non ha infligite un autolimitation: como ja mentionate, io ha usate tote le ricchessa que mi proprie lingua, le nederlandese, me dona pro exprimer mi pensamentos. Considerante iste conditiones, un tempo de 470 per hora, traducente manualmente in le ‘direction difficile’, serea pro me exceptional.

Al altere latere, un traductor professional con le anglese como lingua scopo e lingua maternal, ben versate in le thema del serie, e con bon cognoscimento del terminologia financiari, forsan poterea facilemente haber attingite le 470 parolas per hora anque in traduction manual (con le adjuta de un programma de memoria de traductiones e terminologia).

Mi regula practic de 250 parolas per hora es un media, e il ha un abundantia de factores que influentia le velocitate del translatar. Ergo le 470 parolas del experimento prova multe poco.

Practicalitates

Software de traduction automatic como Google Translate e DeepL es un cosa totalmente differente que software de memoria de translationes (translation memories). Io usa DVX3 de Atril. DVX3 supporta le uso de alcun systemas de traduction automatic, como un extra fonte de material, includente Google Translate (GT) ma non DeepL. Forsan DeepL seque in DVX4. Io ha brevemente essayate usar DVX3 con GT, ma sin successo: nihil eveniva. Sin dubita io ha facite alcun errores in le configuration.

Io legeva que un altere memoria de translationes, CafeTran, supporta DeepL, e io installava le programma, ancora sin leger le modo de empleo. Ma le programma apparentemente esseva create ex un altere maniera de pensar que le mie: io non poteva laborar con CafeTran, il esseva pro me un programma completemente inusabile. In plus, le ‘integration’ de DeepL de facto es manual: il sembla que on debe mesme facer le copy&paste (copiar e colar) cata vice.

On dice que GT4T pote ser de adjuta. Io non sape que isto es CafeTran e GT4T in combination, o cata software independentemente.

Comocunque, io non voleva lassar un o duo learning curves (curvas de apprendimento) influentiar mi resultatos. Dunque io usava mi vetere methodo pro scriber mi paginas anque pro traducer los:

Prepara le HTML del traduction ex un copia del file HTML original. Traduce le titulo, e le hyperligamines in basso e alto del pagina, ja a mano. Lassa le texto in lingua fonte in le copia como es.
Mira le resultato in un navigator del web (browser). Copia le texto in partes (DeepL impone un maximo al quantitate que vole traducer in un passo) e cola lo in DeepL. Copia e cola le resultato traducite in un file de labor separate.
Aperi le file preparate pro le HTML del lingua scopo, e le file de labor con le resultatos de DeepL, ambe in un programma pro editar textos (text editor) como mdiNotepad, assi que le paragraphos correspondente es visibile al mesme tempore.
Controla e revisa le traduction phrase a phrase, paragrapho a paragrapho, reimplaciante le lingua fonte per le lingua scopo.
Infelicemente con iste methodo codices como <strong>…</strong> e <i>…</i>, e hyperligamines on debe ipse reparar manualmente.

Confidentialitate

In mi experimento, io traduceva mi proprie textos que ja stava publicamente in le tela mundial, ubi le traduction alsi es publicate. Ma si traductores automatic esserea usate pro textos de clientes, o textos de clientes de clientes (officios de traduction), le question de confidentialitate se presenta. Traduction automatic comporta que textos es inviate a un servitor, es la processate e retorna al revisor. Lo que face le servitor con iste textos, si illos es stockate o usate pro altere fines que le mer traduction, non es sempre clar.

Le consequentia es que ille methodos de traduction es solmente acceptabile si le cliente lo sape e ha date su permission.

Le 5 de novembre 2017

Vide anque iste secunde experimento.

Le 8 de novembre 2017

Vide anque De opvolger van Google Translate: de schrik van elke menselijke vertaler? In nederlandese. Summario: in le practica, il ha multe problemas in le traductiones de DeepL.