Zoeken met patronen

15–17 december 2015, eigen vertaling van mijn eigen tekst in het Interlingua.

Wat is dit?

Dit is een gebruiksaanwijzing voor een digitale zoekfaciliteit in drie Interlingua-woordenboeken. Er staat uitleg in over de mogelijke manieren van zoeken.

Het betreft de woordenboeken Dictionario Nederlandese-Interlingua (nl>ia) van Piet Cleij, het Dictionario Interlingua-Nederlandese (ia>nl) van dezelfde auteur, en de Interlingua-English Dictionary (IED) van Alexander Gode (ia>en).

Wat is hiermee mogelijk?

U kunt er woorden mee vinden die vertaald zijn in de andere taal of talen. Dit zijn de lemma’s van het woordenboek. Omdat het materiaal van de woordenboeken georganiseerd is als eenvoudige tekstregels, kunt u ook woorden vinden die voorkomen in de vertalingen, in de voorbeelden en uitdrukkingen, en woorden die voorkomen als grammaticale categorien (woordsoorten), aanduidingen van afwijkende uitspraak, enz.

U kunt zoeken met eenvoudige woorden of delen van woorden, maar ook met patronen, de zogenoemde ‘reguliere expressies’ (Engels: regular expressions). Die zoekpatronen kunnen variren van heel eenvoudig tot extreem gecompliceerd. Dit wordt hieronder verduidelijkt aan de hand van veel voorbeelden en weinig tekst.

Waar komt het materiaal vandaan?

Het idee voor deze zoekfaciliteit kwam niet van mij, Ruud Harmsen, maar van Paul Denisowski, die een dergelijke interface biedt voor diverse talen waaronder Interlingua, in combinatie met het Engels.

Het door mij gebruikte materiaal van de woordenboeken van Piet Cleij heb ik afgeleid van deze Wikia’s, die het materiaal bevatten dat ook in de gedrukte boeken staat.

Meer over de methode van extractie en afleiding, en over de auteursrechten staat hier.

Voor de IED gebruik ik een kopie van het tekstbestand dat op diverse plaatsen op internet te vinden is.

Met selectievakjes kan de gebruiker ervoor kiezen n, twee of alle drie de woordenboeken bij het zoeken mee te nemen, in elke gewenste combinatie. De volgorde van de woordenboeken is echter vast: altijd Nederlands-Interlingua, Interlingua-Nederlands, Interlingua-Engels.

Wat zijn patronen?

Zoekpatronen of ‘reguliere expressies’ vormen een zeer krachtige methode – maar een die soms ook ingewikkeld is en moeilijk te begrijpen – om allerlei teksten te vinden zonder voor elke te vinden variant een apart zoekargument te hoeven gebruiken.

In Wikipedia staat uitleg van alle details van reguliere expressies, in alle brontalen van het Interlingua (it, es, pt, en, fr) en ook in het Nederlands. Het Interlingua ontbreekt echter nog. Wie wordt vrijwilliger en combineert het vele bestaande materiaal om er een goed Wikipedia-artikel in het Interlingua van te maken?

Ik geef hier nu geen theoretische uitleg van de reguliere expressies, maar in plaats daarvan veel voorbeelden.

Voorbeelden

Gewoon een woord

Met deze zoekactie in het Nederlands en deze in het Engels, vond ik de synoniemen (of bijna-synoniemen?) ‘cercar’, ‘recercar’ en ‘querer’, die ik gebruikte in de oorspronkelijke Interlingua-versie van deze handleiding.

Solo entratas (alleen lemma’s)

Deze wijze van zoeken is vaak niet ideaal, omdat die te veel vindt! Zo vindt genoemde zoekpoging met zoeken ook ‘bezoeken’ en ‘onderzoeken’, woorden die que betekenis en herkomst misschien wel een zeker verband houden met ‘zoeken’, maar die toch heel verschillend zijn.

We hebben dus een manier nodig om het zoeken te beperken tot alleen n woord, zoals het Nederlandse woord ‘zoeken’. Dit kunnen we doen door het zoekargument te laten voorafgaan door het symbool ‘^’, zo.

De ^ duidt het begin van de regel aan (zoals de $ het eind ervan aangeeft), en omdat de regels van de woordenboeken gewoonlijk beginnen met het lemma, dat wil zeggen het woord dat het woordenboek vertaalt of verklaart, vinden we zo alleen nog die.

Optie “solo entratas” (alleen lemma’s)

Het is niet handig steeds handmatig dat accent circonflexe (^) voor het zoekwoord te moeten typen. Ten eerste moet je maar net weten waar op het toetsenbord het symbool ^ zit – dit verschilt per toetsenbordindeling. Op de mijne zit de ^ boven de 6, dus ik druk de wisseltoets (shift, ⇧) in en tevens het cijfer 6.

Op sommige toetsenbordindelingen, bijv. ‘US International’ die vaak wordt toegepast op in Nederlands gebruikte computers, dient de ^ als dead key om tekens met een circonflexe te kunnen maken: , , , en . Daardoor moet je dan om het teken ^ zelf te krijgen, er een spatie achteraan tikken.

Om dit ongemak te verhelpen is er in het zoekscherm een selectievakje “Solo entratas”. Als dit keuzevakje is aangevinkt, wordt de circonflexe vanzelf voor de zoektekst gezet, als die er tenminste al niet stond. Klik hier voor een voorbeeld. Merk op dat het toevoegen van de ^ (indien nodig) pas gebeurt na het klikken op de knop “Cerca” (Zoek).

Geparametriseerde URI

Zoals u waarschijnlijk al hebt opgemerkt, openen de aanklikbare voorbeelden in deze gebruiksaanwijzing een extra tabblad, een extra pagina in dezelfde instantie van het bladerprogramma (de web browser). Het idee is dat men in n tabblad deze handleiding leest, om in het andere te voorbeelden uit te proberen.

Door parameters in de URI (Uniform Resource Identifier) op te geven worden zoektekst en selectievakjes al vooraf ingevuld. Ik ga niet alle details van de parameters uitleggen, omdat wie die eventueel wil weten mensen moeten zijn met interesse en handigheid in informatica, dus die kunnen dan zelf gemakkelijk uitvinden, op basis van de URI’s en de HTML van de voorbeelden, hoe het allemaal werkt.

Woorden, woorden

Een soortgelijke optie als “Solo entratas”, maar anders, is “Parolas integre” (Hele woorden). Hiermee wordt niet alleen gezocht aan het begin van de regel (waar de lemma’s staan), maar in de hele regel, dus ook in de vertalingen en voorbeelden enz.

Wat speciaal is bij gebruik van deze optie, is dat alleen complete woorden worden gevonden, niet ook langere woorden waarvan het gezochte woord een onderdeel is.

Voorbeelden:

Hoofdletters

Normaal maakt het programma ‘egrep’, dat achter de schermen op de server het zware zoekwerk doet, onderscheid tussen grote en kleine letters. Dus zoeken op ‘spanje’ levert niet ‘Spanje’ op. Dit gedrag kunt u echter wijzigen door het keuzevakje “Alsi majusculas“ (Ook hoofdletters) aan te vinken.

Er is ook een andere manier om dit te bereiken: met een selectie van tekens, zo. [Ss] betekent hierin dat in deze positie een van de vermelde tekens mag staan, om met dit zoekargument een regel te selecteren.

Een verwant voorbeeld: wie weet dat de namen van volk, taal en land in midden van Europa iets is met ‘german’ maar niet weet welke correct wordt geschreven met een hoofdletter of kleine letter aan het begin, kan een van deze zoekacties gebruiken: german (met “Alsi majusculas“) of [gG]erman (zonder die keuze). De beide zoekmanieren zijn echter niet identiek: de eerste zou ook GERMANO, GeRmAn, germaN, etc. vinden, als die in het woordenboek voorkwamen.

Tekens tussen [ ]

Het aangeven van een toegestane selectie van letters tussen rechte haken ([ ]) is niet beperkt tot twee letters zoals in de vorige voorbeelden. Men kan daar elke gewenste tekenreeks neerzetten, eventueel inclusief reeksen. Zo vertegenwoordigt [aeiouy] alle klinkers, enkele met accenten, [a-z] zijn alle onderkastletters, [a-z][A-Z] stelt onderkast en bovenkast voor (alternatief: [:alpha:]), e [a-zA-Z0-9] alle letters en cijfers (alternatief: [:alnum:]). Meer mogelijkheden staan in de Wikipedia.

Varianten vinden

Deze mogelijkheid is handig om woorden te vinden zonder vooraf precies de spelling te weten die in het woordenboek gebruikt is.

Wat was ook weer naam van het teken ‘^’? Accent(o) circonflex, circumflexe, circomflexa? In welke talen? Ik vergeet dat steeds. Laten we het de woordenboeken vragen: circ[ou][nm]flex[eao].

Wat er in moderne chips zit, schrijf je dat in het Nederlands met een ‘c’ of met een ‘k’? Antwoord: allebei.

Bestaan er in het Interlingua woorden zoals Italiaans cui, qui, que, en zo ja, wat betekenen die dan? Vraag het de woordenboeken.

Alternatieven met |

Het symbool ‘|’ (op mijn toetsenbord rechtsboven, boven de backslash ‘\’) duidt een keuze aan, een logische ‘of’ (Engels: OR). Hiermee kunnen we bijvoorbeeld het vorige voorbeeld uitbreiden met het Italiaanse woord ‘che’ (dat niet bestaat in het Interlingua, maar laten we even aannemen dat we dat niet vooraf weten):
(che|[cq]u[ei]).

Nog een ander voorbeeld: vind alle voorkomens van het Nederlandse werkwoord ‘stappen’, en van het zelfstandig naamwoord ‘stap’ met het verkleinwoordachtervoegsel ‘-je’, voorafgegaan voor een van de voorvoegsels in, op, uit, over, af en ver: (in|op|uit|over|af|ver)stap(pen|je).

Herhalingsoperatoren

Voor reguliere expressies zijn operatoren gedefinieerd die aangeven hoe vaak een teken herhaald mag zijn:

Het opgeven van de herhaling kan helpen de juiste schrijfwijze te ontdekken wat betreft dubbele letters: app?el{1,2}ar vindt ‘appellar’ maar zou ook ‘appelar’, ‘apellar’ en ‘apelar’ vinden als die aanwezig waren.

Een alternatieve zoekactie zou ap+el+ar zijn, wat echter niet precies hetzelfde is, omdat daarmee ook het woord ‘appellar’ gevonden zou worden als het n, twee maar ook drie, vier enz. letters ‘p’ of ‘l’ had.

De herhalingstekens slaan niet alleen op tekens, maar ook op klassen ([::]) en groepen tekens ([]), en op opeenvolgingen tussen (). Voorbeeld: (an){2} gaat na waar ‘an’ gevolgd wordt door nog eens ‘an’: in de Nederlandse en Interlingua woorden ‘ananas’, en in het Interlingua in ‘banana’. Ook in ‘lontanantia’, ververwijderdheid. Op de een of andere manier bevalt dat woord me wel. In beide talen.

Zinnen, uitdrukkingen en collocaties in de IED

In de IED zijn voorbeeldzinnen, uitdrukkingen en collocaties (woorden die gewoonlijk bij elkaar voorkomen) gegeven op aparte regels, tussen de symbolen ` (enkel achterwaarts aanhalingsteken) en ' (enkel aanhalingsteken). De zoekopdracht is: ^`.+. Hierin staat de punt voor elk willekeurig teken.

Om technische redenen – tussen de gebruikersinterface en het programma egrep, dat het eigenlijk werk doet – werkt het niet met het aanhalingsteken aan het eind: ^`.+'. Daar is wel een technische oplossing voor, maar die is niet de moeite van het inbouwen waard. Wie wel wil weten hoe, raadplege het commentaar hier in de HTML.

Bij uitdrukkingen in de IED kan de interface-optie “Alsi linea previe” (Ook de voorafgaande regel) zorgen voor meer context: op die vorige regel staat namelijk gewoonlijk het lemma waar die uitdrukking bij hoort. Zo uit te proberen.

Le variant zonder ^ vindt verwijzingen, vaak in verband met de zogenoemde verbos de duple thema (werkwoorden met dubbele stam). Alternatief: zoeken naar {see}.

Zinnen, uitdrukkingen en collocaties in nl>ia>nl

In uitdrukkingen neemt de aanduiding ‘--’ vaak de plaats in van het lemma, dat zelf aan het begin van de regel staat. Zoekt men dus een uitdrukking op twee woorden die erin voorkomen, dan kan de volgorde in de regel afwijken van de volgorde in echte zinnen. Het beste is daarom om naar beide volgorden te zoeken.

Een voorbeeld: zoeken naar aan.+niets en niets.+aan biedt de beste kansen om Nederlandse uitdrukkingen zoals ‘daar is niets aan te doen’ en ‘daar is niets aan’ te vinden.

Hierbij stelt de punt ‘.’ weer een willekeurig teken voor, en het plusteken ‘+’ de herhaling: n of meer keren.

Natuurlijk kunt u ook beide volgorden combineren tot n zoekinstructie.

Toevoeging van 15 juni 2016:
Het is voortaan niet meer nodig dit handmatig te doen. Er is nu namelijk een nabijheidsoperator. Men kan APUD of NEAR gebruiken (hoofdletters verplicht). Zo is de zoekactie aan APUD niets equivalent aan, en wordt intern uitgevoerd als aan.+niets|niets.+aan. Veel gemakkelijker en comfortabeler.

Toevoeging van 13 december 2015:
Het is nu ook mogelijk de gebruiksvoorbeelden te onderdrukken. De voorbeelden zijn natuurlijk verhelderend, maar door hun overvloedige aantal kunnen ze ook verwarrend werken. Daarom zorgt het aanvinken van de optie “Sin exemplos” (Zonder voorbeelden) ervoor dat ze niet verschijnen: een extra filtertrap verwijdert alle regels waarin ‘--’ staat.

Alleen ASCII, en verder?

Een van de sterke punten van Interlingua, in het bijzonder in vergelijking met Esperanto, is naar mijn mening dat Interlingua toe kan met de zesentwintig letters van het Latijnse alfabet. Anders geformuleerd, er is geen ISO-8859-n of Unicode bij nodig. Simpel, duidelijk, effectief en elegant.

Toch bestaat er een klein aantal woorden, die het meest correct worden geschreven met het gebruik van accenten. Het is niet per se nodig, maar wel gebruikelijk. Het gaat om woorden die niet heel frequent zijn.

Ik demonstreer hier hoe zulke woorden te vinden zijn. Het blijken er 89. In de IED staan er 46.

Afwijkende beklemtoning

IED

In de IED wordt de kuut (het accent aigu) ook gebruikt om een klemtoon aan te geven die anders valt dan volgens de normale regels.

nl>ia>nl

Een afwijkende beklemtoning wordt in de woordenboeken van Piet Cleij (en anderen) aangegeven door onderstreping. In de elektronische interface kunnen we deze vinden via de codes in de onderliggende HTML, <u> en </u> (gebaseerd op het Engelse woord underline). Voor wie dat weet, is het niet moeilijk een zoekopdracht ervoor te formuleren: <u>..?</u>.

Mijn extractieprogramma, dat het elektronisch materiaal voor de zoekfunctie aanmaakt, zet elk woord met een onderstreepte klinker tussen haakjes, voorafgegaan door hetzelfde woord zonder de onderstreping. Dus ‘capite’ wordt ‘capite (capite)’. Het voordeel is dat alle woorden te vinden zijn, zelfs als de plaats van de klemtoon vooraf niet bekend is, zonder de onzichtbare codes <u> en </u> erbij te hoeven zetten.

Afwijkende uitspraak in nl>ia>nl

In de woordenboeken van Piet Cleij wordt een uitspraak die afwijkt van de normale regels aangegeven tussen { }. Deze indicaties zijn als volgt te vinden. Omdat de accolades { en } een speciale betekenis hebben, is het om de tekens zelf te vinden nodig ze te laten voorafgaan door een backslash: \{ e \}.

In veel gevallen gaat het om de Franse uitspraak van de tekencombinatie ch, in het Nederlands gemiteerd met een sj.

Rechte haken in de IED

Sommige woorden in de IED staan tussen [ ]. Ze zijn in de elektronische IED te vinden met deze zoekopdracht: \[.+\]. Omdat de rechte of hoekige haken, ‘[’ e ‘]’ in reguliere expressies een speciale betekenis hebben, is het nodig er een backslash voor te zetten als je het woord zelf wilt vinden: \[ en \].

Een ingewikkelder zoekactie (die duidelijk laat zien dat reguliere expressies niet altijd op het eerste gezicht makkelijk te begrijpen zijn!), die echter completer en betrouwbaarder is, is: (^\[[a-z].+\])|(\[[^ -\.]+\]). Dit levert 236 resultaten op.

In juni 2013 vertelde Stanley A. Mulaik dat:
Illos esseva includite al ultime minuta con le adjuta de Blair (secundo un littera a me de Dr. Gode). Illos esseva prendite de altere linguas constructe con le condition que 'illos non pare troppo extranee in le contexto del resto del vocabulario'.

Ofwel in het Nederlands:
Ze werden op het laatste moment opgenomen met hulp van Blair (volgens een brief aan mij van Dr. Gode). Ze werden ontleend uit andere geconstrueerde talen onder de voorwaarde dat 'ze er niet te vreemd uitzagen in de context van de rest van het vocabulaire'.

En aan het eind van de Explanatory Notes (Toelichtende notities) aan het eind van de Inleiding tot de IED (een gedeelte dat merkwaardigerwijze ontbreekt in vertalingen naar het Interlingua!) staat deze opmerking in het Engels:
Bracketed Entries. – Bracketed entries are words used in one of the major traditional auxiliary languages. They are included in this Dictionario as being neither incompatible with its principles nor a necessary product of them.

In mijn vertaling:
Lemma’s tussen rechte haken. – Lemma’s tussen rechte haken zijn woorden die worden gebruikt in een van de belangrijke traditionele hulptalen. Ze zijn opgenomen in dit woordenboek als niet strijdig met zijn principes maar tevens niet als een noodzakelijk product daarvan.

Stan Mulaik schreef ook:
Multe interlinguaistas usa alcun de istos e alcun del particulas latin. Le selection non es uniforme. Illo es subjective, proque il non ha alcun guida a formas commun.

Vertaald:
Veel Interlingusten gebruiken enkele van de Latijnse partikels. De keuze is niet uniform. Dit is subjectief, omdat er geen leidraad is naar gemeenschappelijke vormen.

Dat is waar: vele van de woorden in de IED in [ ] zijn tegenwoordig algemeen in gebruik: an, ancora, anque, ci, desde, esque, ja, ma, on, poc, poco, quam, ser, sera, serea, sia, sovente, tro, troppo, ulle, vamos. Maar niet: atque, aut, donec, el, ella, esso, este, haver, homo, isse, isso, jo, magis, mi, trop, voi.

Dat de keuze subjectief is en ongeleid, zie ik persoonlijk niet als een probleem, maar eerder als een fort van Interlingua: dat maakt de taal rijker, flexibeler en gevarieerder, en daardoor beter geschikt voor mijn doeleinden. En misschien voor die van anderen.


Alleen de basiswoordenschat

12 december 2015: een nieuwe functie: zoeken met alleen de 2500 (2k5) woorden van het basiswoordenboek, geselecteerd uit het woordenboek Interlingua-Nederlands van Piet Cleij.

Hier meer informatie.

Kleuren: Vervelend Raar Doe maar wat Pagina opnieuw laden