Zoeken met patronen

15–, eigen vertaling van mijn eigen tekst in het Interlingua.

Inhoudsopgave.

Wat is dit?

Dit is een gebruiksaanwijzing voor een digitale zoekfaciliteit in diverse Interlingua-woordenboeken. Er staat uitleg in over de mogelijke manieren van zoeken.

Het betrof oorspronkelijk de woordenboeken Dictionario Nederlandese-Interlingua (nl>ia) van Piet Cleij, het Dictionario Interlingua-Nederlandese (ia>nl) van dezelfde auteur, en het Interlingua-English Dictionary (IED) van Alexander Gode (ia>en). Ondertussen zijn er meer toegevoegd.

Verbetering 27 februari 2020: Het woordenboek waar het resultaat vandaan kwam, staat aangeduid aan het begin van de regel, tenzij u dat uitschakelt door middel van het keuzevakje ‘Cela indication del dictionario’ (Verberg indicatie van woordenboek).

Wat is hiermee mogelijk?

U kunt er woorden mee vinden die vertaald zijn in de andere taal of talen. Dit zijn de lemma’s van het woordenboek. Omdat het materiaal van de woordenboeken georganiseerd is als eenvoudige tekstregels, kunt u ook woorden vinden die voorkomen in de vertalingen, in de voorbeelden en uitdrukkingen, en woorden die voorkomen als grammaticale categorieën (woordsoorten), aanduidingen van afwijkende uitspraak, enz.

U kunt zoeken met eenvoudige woorden of delen van woorden, maar ook met patronen, de zogenoemde ‘reguliere expressies’ (Engels: regular expressions). Die zoekpatronen kunnen variëren van heel eenvoudig tot extreem gecompliceerd. Dit wordt hieronder verduidelijkt aan de hand van veel voorbeelden en weinig tekst.

Waar komt het materiaal vandaan?

Het idee voor deze zoekfaciliteit kwam niet van mij, Ruud Harmsen, maar van Paul Denisowski, die een dergelijke interface biedt voor diverse talen waaronder Interlingua, in combinatie met het Engels.

Het door mij gebruikte materiaal van de woordenboeken van Piet Cleij heb ik afgeleid van deze Wikia’s, die het materiaal bevatten dat ook in de gedrukte boeken staat.

Meer over de methode van extractie en afleiding, en over de auteursrechten staat hier.

Voor het IED gebruik ik een kopie van het tekstbestand dat op diverse plaatsen op internet te vinden is.

Met selectievakjes kan de gebruiker ervoor kiezen één, twee of alle drie de woordenboeken bij het zoeken mee te nemen, in elke gewenste combinatie. De volgorde van de woordenboeken is echter vast, en komt overeen met die van de selectievakjes in het scherm. Als geen keuze is gemaakt, geldt standaard het IED.

Toelichting bij de keuze van de woordenboeken, toegevoegd op 22 mei 2019:

codebrontaaldoeltaalauteur, bron
ia-en (IED) Interlingua Engels Interlingua-English Dictionary, Alexander Gode
en-ia (G&B) Engels Interlingua Appendix II van de Interlingua Grammar, Alexander Gode & Hugh Blair
en-ia (S&G) Engels Interlingua Brian Sexton & Frank Peter Gopsill
ia-ia Interlingua Interlingua Toma Macovei
ia-nl Interlingua Nederlands Piet Cleij
nl-ia Nederlands Interlingua Piet Cleij
fr-ia Frans Interlingua Piet Cleij. Gebaseerd op materiaal uit zijn nalatenschap. Zie deze toelichting (in het Interlingua).
de-ia Duits Interlingua Fandom / Wikia, André Schild & Helmut. E. Ruhrig
es-ia Spaans Interlingua Fandom / Wikia
eo-en Esperanto Engels De Esperanto-pagina van Paul Denisowski

Wat zijn patronen?

Zoekpatronen of ‘reguliere expressies’ vormen een zeer krachtige methode – maar een die soms ook ingewikkeld is en moeilijk te begrijpen – om allerlei teksten te vinden zonder voor elke te vinden variant een apart zoekargument te hoeven gebruiken.

In Wikipedia staat uitleg van alle details van reguliere expressies, in alle brontalen van het Interlingua (it, es, pt, en, fr) en ook in het Nederlands. Het Interlingua ontbreekt echter nog. Wie wordt vrijwilliger en combineert het vele bestaande materiaal om er een goed Wikipedia-artikel in het Interlingua van te maken?

Zie ook regular-expressions.info.

Ik geef hier nu geen theoretische uitleg van de reguliere expressies, maar in plaats daarvan veel voorbeelden.

Voorbeelden

Gewoon een woord

Met deze zoekactie in het Nederlands en deze in het Engels, vond ik de synoniemen (of bijna-synoniemen?) ‘cercar’, ‘recercar’ en ‘querer’, die ik gebruikte in de oorspronkelijke Interlingua-versie van deze handleiding.

Solo entratas (alleen lemma’s)

Deze wijze van zoeken is vaak niet ideaal, omdat die te veel vindt! Zo vindt genoemde zoekpoging met zoeken ook ‘bezoeken’ en ‘onderzoeken’, woorden die que betekenis en herkomst misschien wel een zeker verband houden met ‘zoeken’, maar die toch heel verschillend zijn.

We hebben dus een manier nodig om het zoeken te beperken tot alleen één woord, zoals het Nederlandse woord ‘zoeken’. Dit kunnen we doen door het zoekargument te laten voorafgaan door het symbool ‘^’, zo.

De ^ duidt het begin van de regel aan (zoals de $ het eind ervan aangeeft), en omdat de regels van de woordenboeken gewoonlijk beginnen met het lemma, dat wil zeggen het woord dat het woordenboek vertaalt of verklaart, vinden we zo alleen nog die.

Optie “solo entratas” (alleen lemma’s)

Het is niet handig steeds handmatig dat accent circonflexe (^) voor het zoekwoord te moeten typen. Ten eerste moet je maar net weten waar op het toetsenbord het symbool ^ zit – dit verschilt per toetsenbordindeling. Op de mijne zit de ^ boven de 6, dus ik druk de wisseltoets (shift, ⇧) in en tevens het cijfer 6.

Op sommige toetsenbordindelingen, bijv. ‘US International’ die vaak wordt toegepast op in Nederlands gebruikte computers, dient de ^ als dead key om tekens met een circonflexe te kunnen maken: â, ê, î, ô en û. Daardoor moet je dan om het teken ^ zelf te krijgen, er een spatie achteraan tikken.

Om dit ongemak te verhelpen is er in het zoekscherm een selectievakje “Solo entratas”. Als dit keuzevakje is aangevinkt, wordt de circonflexe vanzelf voor de zoektekst gezet, als die er tenminste al niet stond. Klik hier voor een voorbeeld. Merk op dat het toevoegen van de ^ (indien nodig) pas gebeurt na het klikken op de knop “Cerca” (Zoek).

Geparametriseerde URI

Zoals u waarschijnlijk al hebt opgemerkt, openen de aanklikbare voorbeelden in deze gebruiksaanwijzing een extra tabblad, een extra pagina in dezelfde instantie van het bladerprogramma (de web browser). Het idee is dat men in één tabblad deze handleiding leest, om in het andere te voorbeelden uit te proberen.

Door parameters in de URI (Uniform Resource Identifier) op te geven worden zoektekst en selectievakjes al vooraf ingevuld. Ik ga niet alle details van de parameters uitleggen, omdat wie die eventueel wil weten mensen moeten zijn met interesse en handigheid in informatica, dus die kunnen dan zelf gemakkelijk uitvinden, op basis van de URI’s en de HTML van de voorbeelden, hoe het allemaal werkt.

22 april 2017: Er nu is een link om voor de meest recente zoekactie de bijbehorende geparametriseerde URI op te roepen.

De zuiverste manier om die URI eruit te halen, inclusief alle procent-coderingen die nodig zijn om de URI te kunnen citeren in fora e.d., is door in de browser de functie ‘Linklocatie kopiëren’ uit te voeren. Dan verschijnt bijvoorbeeld een rechte haak [ als %5B en een ronde haak als %28, enz. Klikt u echter meteen op de link, dan kan de browser bepaalde details van de URI al veranderen.

Woorden, woorden

Een soortgelijke optie als “Solo entratas”, maar anders, is “Parolas integre” (Hele woorden). Hiermee wordt niet alleen gezocht aan het begin van de regel (waar de lemma’s staan), maar in de hele regel, dus ook in de vertalingen en voorbeelden enz.

Wat speciaal is bij gebruik van deze optie, is dat alleen complete woorden worden gevonden, niet ook langere woorden waarvan het gezochte woord een onderdeel is.

Voorbeelden:

Hoofdletters

Normaal maakt het programma ‘egrep’, dat achter de schermen op de server het zware zoekwerk doet, onderscheid tussen grote en kleine letters. Dus zoeken op ‘spanje’ levert niet ‘Spanje’ op. Dit gedrag kunt u echter wijzigen door het keuzevakje “Alsi majusculas“ (Ook hoofdletters) aan te vinken.

Er is ook een andere manier om dit te bereiken: met een selectie van tekens, zo. [Ss] betekent hierin dat in deze positie een van de vermelde tekens mag staan, om met dit zoekargument een regel te selecteren.

Een verwant voorbeeld: wie weet dat de namen van volk, taal en land in midden van Europa iets is met ‘german’ maar niet weet welke correct wordt geschreven met een hoofdletter of kleine letter aan het begin, kan een van deze zoekacties gebruiken: german (met “Alsi majusculas“) of [gG]erman (zonder die keuze). De beide zoekmanieren zijn echter niet identiek: de eerste zou ook GERMANO, GeRmAn, germaN, etc. vinden, als die in het woordenboek voorkwamen.

Tekens tussen [ ]

Het aangeven van een toegestane selectie van letters tussen rechte haken ([ ]) is niet beperkt tot twee letters zoals in de vorige voorbeelden. Men kan daar elke gewenste tekenreeks neerzetten, eventueel inclusief reeksen. Zo vertegenwoordigt [aeiouáàéëêïy] alle klinkers, enkele met accenten, [a-z] zijn alle onderkastletters, [a-z][A-Z] stelt onderkast en bovenkast voor (alternatief: [[:alpha:]]), e [a-zA-Z0-9] alle letters en cijfers (alternatief: [[:alnum:]]). Meer mogelijkheden staan in de Wikipedia.

Varianten vinden

Deze mogelijkheid is handig om woorden te vinden zonder vooraf precies de spelling te weten die in het woordenboek gebruikt is.

Wat was ook weer naam van het teken ‘^’? Accent(o) circonflex, circumflexe, circomflexa? In welke talen? Ik vergeet dat steeds. Laten we het de woordenboeken vragen: circ[ou][nm]flex[eao].

Wat er in moderne chips zit, schrijf je dat in het Nederlands met een ‘c’ of met een ‘k’? Antwoord: allebei.

Bestaan er in het Interlingua woorden zoals Italiaans cui, qui, que, en zo ja, wat betekenen die dan? Vraag het de woordenboeken.

Alternatieven met |

Het symbool ‘|’ (op mijn toetsenbord rechtsboven, boven de backslash ‘\’) duidt een keuze aan, een logische ‘of’ (Engels: OR). Hiermee kunnen we bijvoorbeeld het vorige voorbeeld uitbreiden met het Italiaanse woord ‘che’ (dat niet bestaat in het Interlingua, maar laten we even aannemen dat we dat niet vooraf weten):
(che|[cq]u[ei]).

Nog een ander voorbeeld: vind alle voorkomens van het Nederlandse werkwoord ‘stappen’, en van het zelfstandig naamwoord ‘stap’ met het verkleinwoordachtervoegsel ‘-je’, voorafgegaan voor een van de voorvoegsels in, op, uit, over, af en ver: (in|op|uit|over|af|ver)stap(pen|je).

Herhalingsoperatoren

Voor reguliere expressies zijn operatoren gedefinieerd die aangeven hoe vaak een teken herhaald mag zijn:

Het opgeven van de herhaling kan helpen de juiste schrijfwijze te ontdekken wat betreft dubbele letters: app?el{1,2}ar vindt ‘appellar’ maar zou ook ‘appelar’, ‘apellar’ en ‘apelar’ vinden als die aanwezig waren.

Een alternatieve zoekactie zou ap+el+ar zijn, wat echter niet precies hetzelfde is, omdat daarmee ook het woord ‘appellar’ gevonden zou worden als het één, twee maar ook drie, vier enz. letters ‘p’ of ‘l’ had.

De herhalingstekens slaan niet alleen op tekens, maar ook op klassen ([[::]]) en groepen tekens ([]), en op opeenvolgingen tussen (). Voorbeeld: (an){2} gaat na waar ‘an’ gevolgd wordt door nog eens ‘an’: in de Nederlandse en Interlingua woorden ‘ananas’, en in het Interlingua in ‘banana’. Ook in ‘lontanantia’, ververwijderdheid. Op de een of andere manier bevalt dat woord me wel. In beide talen.

Zinnen, uitdrukkingen en collocaties in het IED

In het IED zijn voorbeeldzinnen, uitdrukkingen en collocaties (woorden die gewoonlijk bij elkaar voorkomen) gegeven op aparte regels, tussen de symbolen ` (enkel achterwaarts aanhalingsteken) en ' (enkel aanhalingsteken). De zoekopdracht is: ^`.+. Hierin staat de punt voor elk willekeurig teken.

Bij uitdrukkingen in het IED kan de interface-optie “Alsi linea previe” (Ook de voorafgaande regel) zorgen voor meer context: op die vorige regel staat namelijk gewoonlijk het lemma waar die uitdrukking bij hoort. Zo uit te proberen. Er is ook de optie “Alsi linea proxime”, die zoals verwacht de regel na het zoekresultaat toont.

De variant zonder ^ vindt verwijzingen, vaak in verband met de zogenoemde verbos de duple thema (werkwoorden met dubbele stam). Alternatief: zoeken naar {see}.

Zinnen, uitdrukkingen en collocaties in nl>ia>nl

In uitdrukkingen neemt de aanduiding ‘~’ vaak de plaats in van het lemma, dat zelf aan het begin van de regel staat. Zoekt men dus een uitdrukking op twee woorden die erin voorkomen, dan kan de volgorde in de regel afwijken van de volgorde in echte zinnen. Het beste is daarom om naar beide volgorden te zoeken.

Een voorbeeld: zoeken naar aan.+niets en niets.+aan biedt de beste kansen om Nederlandse uitdrukkingen zoals ‘daar is niets aan te doen’ en ‘daar is niets aan’ te vinden.

Hierbij stelt de punt ‘.’ weer een willekeurig teken voor, en het plusteken ‘+’ de herhaling: één of meer keren.

Natuurlijk kunt u ook beide volgorden combineren tot één zoekinstructie.

Toevoeging van 15 juni 2016:
Het is voortaan niet meer nodig dit handmatig te doen. Er is nu namelijk een nabijheidsoperator. Men kan APUD of NEAR gebruiken (hoofdletters verplicht). Zo is de zoekactie aan APUD niets equivalent aan, en wordt intern uitgevoerd als aan.+niets|niets.+aan. Veel gemakkelijker en comfortabeler.

Optie Sin exemplos (zonder voorbeelden)

Toevoeging van 13 december 2015:
Het is nu ook mogelijk de gebruiksvoorbeelden te onderdrukken. De voorbeelden zijn natuurlijk verhelderend, maar door hun overvloedige aantal kunnen ze ook verwarrend werken. Daarom zorgt het aanvinken van de optie “Sin exemplos” (Zonder voorbeelden) ervoor dat ze niet verschijnen: een extra filtertrap verwijdert alle regels waarin ‘~’ staat.

Alleen ASCII, en verder?

Een van de sterke punten van Interlingua, in het bijzonder in vergelijking met Esperanto, is naar mijn mening dat Interlingua toe kan met de zesentwintig letters van het Latijnse alfabet. Anders geformuleerd, er is geen ISO-8859-n of Unicode bij nodig. Simpel, duidelijk, effectief en elegant.

Toch bestaat er een klein aantal woorden, die het meest correct worden geschreven met het gebruik van accenten. Het is niet per se nodig, maar wel gebruikelijk. Het gaat om woorden die niet heel frequent zijn.

Ik demonstreer hier hoe zulke woorden te vinden zijn. Het blijken er 89. In het IED staan er 46.

Afwijkende beklemtoning

IED

In het IED wordt de kuut (het accent aigu) ook gebruikt om een klemtoon aan te geven die anders valt dan volgens de normale regels.

nl>ia>nl

Een afwijkende beklemtoning wordt in de woordenboeken van Piet Cleij (en anderen) aangegeven door onderstreping. In de elektronische interface kunnen we deze vinden via de codes in de onderliggende HTML, <u> en </u> (gebaseerd op het Engelse woord underline). Voor wie dat weet, is het niet moeilijk een zoekopdracht ervoor te formuleren: <u>..?</u>.

Mijn extractieprogramma, dat het elektronisch materiaal voor de zoekfunctie aanmaakt, zet elk woord met een onderstreepte klinker tussen haakjes, voorafgegaan door hetzelfde woord zonder de onderstreping. Dus ‘capite’ wordt ‘capite (capite)’. Het voordeel is dat alle woorden te vinden zijn, zelfs als de plaats van de klemtoon vooraf niet bekend is, zonder de onzichtbare codes <u> en </u> erbij te hoeven zetten.

Afwijkende uitspraak in nl>ia>nl

In de woordenboeken van Piet Cleij wordt een uitspraak die afwijkt van de normale regels aangegeven tussen { }. Deze indicaties zijn als volgt te vinden. Omdat de accolades { en } een speciale betekenis hebben, is het om de tekens zelf te vinden nodig ze te laten voorafgaan door een backslash: \{ e \}.

In veel gevallen gaat het om de Franse uitspraak van de tekencombinatie ch, in het Nederlands geïmiteerd met een sj.

Rechte haken in het IED

Sommige lemmawoorden in het IED staan tussen [ ]. Ze zijn in het elektronische IED te vinden met deze zoekopdracht: \[.+\]. Omdat de rechte of hoekige haken, ‘[’ e ‘]’ in reguliere expressies een speciale betekenis hebben, is het nodig er een backslash voor te zetten als je het woord zelf wilt vinden: \[ en \].

Een ingewikkelder zoekactie (die duidelijk laat zien dat reguliere expressies niet altijd op het eerste gezicht makkelijk te begrijpen zijn!), die echter completer en betrouwbaarder is, is: (^\[[a-z].+\])|(\[[^ -\.]+\]). Dit levert 236 resultaten op.

In juni 2013 vertelde Stanley A. Mulaik dat:
Illos esseva includite al ultime minuta con le adjuta de Blair (secundo un littera a me de Dr. Gode). Illos esseva prendite de altere linguas constructe con le condition que 'illos non pare troppo extranee in le contexto del resto del vocabulario'.

Ofwel in het Nederlands:
Ze werden op het laatste moment opgenomen met hulp van Blair (volgens een brief aan mij van Dr. Gode). Ze werden ontleend uit andere gecon­stru­eerde talen onder de voorwaarde dat 'ze er niet te vreemd uitzagen in de context van de rest van het vocabulaire'.

En aan het eind van de Explanatory Notes (Toelichtende notities) aan het eind van de Inleiding tot het IED (een gedeelte dat merkwaardigerwijze ontbreekt in vertalingen naar het Interlingua!) staat deze opmerking in het Engels:
Bracketed Entries. – Bracketed entries are words used in one of the major traditional auxiliary languages. They are included in this Dictionary as being neither incompatible with its principles nor a necessary product of them.

In mijn vertaling:
Lemma’s tussen rechte haken. – Lemma’s tussen rechte haken zijn woorden die worden gebruikt in een van de belangrijke traditionele hulptalen. Ze zijn op­ge­nomen in dit Woordenboek als niet strijdig met zijn principes maar tevens niet als een noodzakelijk product daarvan.

Stan Mulaik schreef ook:
Multe interlinguaistas usa alcun de istos e alcun del particulas latin. Le selection non es uniforme. Illo es subjective, proque il non ha alcun guida a formas commun.

Vertaald:
Veel Interlinguïsten gebruiken enkele van de Latijnse partikels. De keuze is niet uniform. Dit is subjectief, omdat er geen leidraad is naar gemeen­schappelijke vormen.

Dat is waar: vele van de woorden in het IED in [ ] zijn tegenwoordig algemeen in gebruik: an, ancora, anque, ci, desde, esque, ja, ma, nec, on, poc, poco, quam, ser, sera, serea, sia, sovente, tro, troppo, ulle, vamos. Maar niet: atque, aut, donec, el, ella, esso, este, haver, homo, isse, isso, jo, magis, mi, trop, voi.

Dat de keuze subjectief is en ongeleid, zie ik persoonlijk niet als een probleem, maar eerder als een fort van Interlingua: dat maakt de taal rijker, flexibeler en gevarieerder, en daardoor beter geschikt voor mijn doeleinden. En misschien voor die van anderen.


Alleen de basiswoordenschat

12 december 2015: een nieuwe functie: zoeken met alleen de 2500 (2k5) woorden van het basiswoordenboek, geselecteerd uit het woordenboek Interlingua-Nederlands van Piet Cleij.

Hier meer informatie.


Nafilter

21 juli 2019

Situatie en reden om dit toe te voegen: bij het vertalen van een artikeltje van mijn hand rees de vraag: “hoe vertaal ik in het interlingua het Nederlandse phrasal verb eruithalen, in de zin van herkennen, het eruit kunnen opmaken?”

Hoe schrijf je het officieel, er uithalen, eruit halen, eruithalen? En belangrijker, hoe dacht de samensteller van het woordenboek dat je het zou moeten schrijven? Waar zoek ik op, ‘halen’, ‘uithalen’, ‘eruithalen’, ‘halen NEAR uit’?

Het simpelste is te zoeken naar ‘halen’. Maar het woordenboek van Piet Cleij is zo uitgebreid, dat dat een lijst van 510 regels oplevert! Is het werkelijk nodig dat ik al die regels ga doorploegen om te zien of die speciale betekenis die ik zoek, behandeld is in het woordenboek?

Zo kwam ik ertoe te denken: “als ik uit die lijst alleen de regels zag waarin de letteropeenvolging ‘uit’ ook voorkomt, dan had ik het zoveel makkelijker!” Dus dat heb ik gedaan: laat de computer het werk maar doen, laat hem na de eerste egrep om resultaten uit het woordenboekbestand te selecteren, nog een extra egrep doen, om me daarvan alleen de regels te laten zien waarin ‘uit’ voortkomt! Dit reduceert de brij van 510 naar 78 regels!

Iets met ‘tirar’ of ‘(ex)traher’, dat wordt de gezochte vertaling.

Latere toevoeging (19 januari 2020): in plaats van regels uit de resultaten te selecteren, is het nu ook mogelijk ze uit te sluiten, door “exclude” aan te vinken.

Profielen

Functie geheel ingebouwd op 13 oktober 2021, beschrijving 20 oktober 2021

Als ik in het Interlingua schrijf of naar het Interlingua vertaal, gebruik ik de woordenboekentoegang intensief. En ik gebruik die op diverse manieren.

De eenvoudigste is te zoeken naar een heel Nederlands woord, om het equivalent in het Interlingua te vinden. Soms is meer beperking gewenst, alleen het hoofd­woord van het lemma. Het kan verhelderend zijn ook de andere richting mee te nemen, van Interlingua naar Nederlands, of naar Engels (het IED). Af en toe ook wil ik alles in het Engels zien, het IED, Sexton & Gopsill, en de lijst uit de Interlingua Grammar. Bij Sexton & Gopsill zijn de hoofdwoorden in hoofdletters, dus het bij die combinatie handig het verschil tussen hoofdletter en kleine letters te negeren. Bij andere niet.

Voor dit alles is nogal wat geklik nodig. Dat bevalt me niet. Daarom heb ik een mogelijkheid ingebouwd om een combinatie van opties te bewaren onder een genummerde knop, om die met een andere knop, met hetzelfde nummer, terug te kunnen roepen. Een enkele klik voor een heleboel opties.

Er zijn negen van zulke knoppen. Het technische mechanisme voor het opslaan van de opties is dat van de cookies. Zo wordt bereikt dat wat opgeslagen zit achter elke knop (indien gebruikt), individueel anders is voor elke gebruiker van de interface, zonder onderlinge beïnvloeding.

De cookies vervallen na een half jaar. Maar natuurlijk kun je de inhoud veranderen, ze opnieuw zetten, of ze verwijderen in de browser.

Kleuren: Vervelend Raar Doe maar wat Pagina opnieuw laden