Querer con patronos

Le 16–19 de novembre.
Le 12 de decembre 2015: 2k5.
Le 13 de decembre 2015: Sin exemplos.

Que es isto?

Isto es un modo de empleo pro un facilitate de recerca digital in tres dictionarios de interlingua. Il ha notas explicative super le manieras possibile de usar le facilitate.

Il se tracta del Dictionario Nederlandese-Interlingua (nl>ia) de Piet Cleij, le Dictionario Interlingua-Nederlandese (ia>nl) del mesme autor, e le Interlingua-English Dictionary (IED) de Alexander Gode (ia>en).

Que pote on facer con illo?

On pote trovar parolas que es traducite in le altere lingua(s). Isto es le entratas del dictionarios. Proque le material del dictionarios es organisate como simplice lineas de texto, on pote etiam trovar parolas que occurre in le traductiones, in exemplos e expressiones, e como categorias grammatical, indicationes special del pronunciation, etc.

On pote cercar con simplice parolas o partes de parolas, ma anque con patronos, le assi appellate ‘expressiones regular’. Ille patronos de questa pote variar, de bastante facile a extrememente intricate. Illo sera elucidate infra, per multe exemplos e pauc textos.

De ubi veni le material?

Le idea pro le facilitate veniva non de me, Ruud Harmsen, sed de Paul Denisowski, qui offere un interfacie simile al mie pro multe linguas incluse interlingua, in combination con le anglese.

Le material del dictionarios de Piet Cleij que io usa, io derivava de ce Wikias, que contine le material que es anque in le libros imprimite.

Plus super le methodo de extraher e derivar, e super le derectos de autor es hic.

Pro le IED io usa un copia del file de texto que es in varie locos in le internet.

Con quadratos de selection le usator pote includer un, duo o omne tres dictionarios in le cerca, in cata combination desirate. Le ordine del dictionarios totevia es fixe: sempre nederlandese-interlingua, interlingua-nederlandese, interlingua-anglese.

Que es patronos?

Patronos de recerca, o ‘expressiones regular’, es un methodo multo potente – mais a vices complicate e difficile a comprehender – pro trovar textos diverse sin applicar un argumento de cerca separate pro cata variante que on vole poter trovar.

In Wikipedia il ha explicationes de tote le detalios de expressiones regular, in omne linguas fonte de interlingua (it, es, pt, en, fr), ma non in interlingua mesme. Qui deveni voluntario pro combinar iste multe material existente, e face un bon articulo pro le Wikipedia in interlingua?

Qui io non va dar explicationes theoretic del expressiones regular, mais in lor vice multe exemplos.

Exemplos

Un simplice parola

Con iste cerca in hollandese e iste in anglese, io trovava le synonymos (o quasi synonymos?) ‘cercar’, ‘recercar’ e ‘querer’, que io ja usava in supra in iste modo de empleo.

Solo entratas

Assi querer sovente non es ideal, proque illo trova troppo! Per exemplo, le mentionate cerca con zoeken anque trova ‘bezoeken’ (visitar) e ‘onderzoeken’ (examinar, investigar), parolas que potesser habe un certe relation semantic e etymologic con ‘zoeken’, ma tamen es multo differente.

Dunque un methodo es necesse pro limitar le cerca a solo un parola, como le nederlandese ‘zoeken’. Isto nos pote attinger per preceder le argumento de cerca per le symbolo ‘^’, assi.

Le ^ symbolisa le initio del linea (del mesme maniera que $ indica le fin), e proque le lineas del dictionarios normalmente comencia con le entrata, i.e. le parola que le dictionario traduce o explica, nos trova assi solo illes.

Option “solo entratas”

Il non es confortabile deber manualmente typar le accento circumflexe (^) al initio del texto de cerca. Primo, on debe saper ubi es le symbolo ^ in le claviero – isto varie inter le multe dispositiones. (Le ^ es super le 6 in le mie, dunque io preme le clave shift (⇧) e anque le cifra 6.)

In alcun dispositiones de claviero, e.g. le ‘US International’ que es multo usate in Nederland, le ^ servi como clave morte pro poter facer le litteras con circumflexo: , , , e . Por isto, pro facer un ^ separate on debe typar le ^ sequite per un spatio.

Pro superar iste incommoditates il ha in le schermo de cerca le quadrato de selection “Solo entratas”. Si le quadrato es marcate, le circumflexo es automaticamente addite al initio del texto de cerca, si il non ja esseva la. Clicca pro un exemplo. Nota que le addition del ^ (si necesse) eveni post cliccar le button “Cerca”.

IUR parametrisate

Como probabilemente vos ja ha remarcate, le exemplos cliccabile in iste modo de empleo aperi un extra scheda (anglese: tab), un altere pagina in le mesme instantia del navigator del web (browser). Le idea es que in un scheda on lege iste manual, in le altere on pote testar le exemplos.

Usante parametros in le IUR (Identification Uniforme de Ressources) anglese: URIUniform Resource Identifier), le texto de cerca e le quadratos de selection es plenate in avantia. Io non explicara le detalios del parametros, proque totes qui eventualmente lo vole cognoscer, debe esser personas con interesse e dexteritate in le informatica, ergo illes pote facilemente mesme discoperir le specificationes ex le URIs e HTML del exemplos.

Parolas, parolas

Un option simile a “Solo entratas”, ma differente, es “Parolas integre”. Con “Parolas integre” on cerca non solo in le initio del linea (ubi es le entratas) ma in tote le linea, ergo alsi in le traductiones e exemplos etc.

Lo que es special si on usa iste option, es que solo parolas complete es trovate, non parolas plus longe que contine le parola cercate.

Exemplos:

Majusculas

Normalmente le programma ‘egrep’, que foras de scena in le servitor face le labor pesante de cercar, distingue minusculas de majusculas. Ergo cercar ‘spanje’ non produce ‘Spanje’, le nomine nederlandese del pais Espania. Quanquam on pote modificar ille conducta per marcar le quadrato de selection “Alsi majusculas“.

Il ha anque un altere maniera de complir isto: usar un selection de characteres, assi. [Ss] significa que in iste position pote occurrer qualcunque del duo characteres mentionate, pro seliger le linea per iste argumento de cerca.

Un exemplo similar: qui sape que le nomines del populo, lingua e pais in le centro de Europa es alique con ‘german’ ma non sape qual es scribite correctemente con un majuscula o minuscula initial, pote usar iste quesitas: german (con “Alsi majusculas“) o [gG]erman (sin ille option). Totevia, le duo cercas non es identic: le prime etiam trovarea GERMANO, GeRmAn, germaN, etc., si istes serea in le dictionario.

Characteres inter [ ]

Indicar un acceptabile selection de litteras inter parentheses quadrate ([ ]) non es limitate a duo litteras como in le previe exemplos. On pote la poner cata sequentia de litteras, eventualmente includente series. Per exemplo [aeiouy] representa toto le vocales, alcun con accentos, [a-z] es tote le minusculas, [a-z][A-Z] tote le minusculas e majusculas (alternativa: [:alpha:]), e [a-zA-Z0-9] tote le litteras e cifras (alternativa: [:alnum:]). Plus possibilitates es in le Wikipedia.

Trovar variantes

Iste facilitate es utile pro trovar parolas sin in avantia saper le exacte orthographia usate in le dictionario.

Qual esseva le nomine del symbolo ‘^’? Accento circonflex, circumflexe, circomflexa? In que linguas? Sempre io lo oblida. Vamos demandar le dictionarios: circ[ou][nm]flex[eao].

Lo que se trova in le chips moderne, scribe se in nederlandese con ‘c’ o con ‘k’? Responsa: con ambes.

Existe in interlingua parolas como le italiano cui, qui, que, e si si, qual su significato? Demanda le dictionarios.

Alternativas con |

Le symbolo ‘|’ (in mi claviero supra al dextra, super le barra inverse ‘\’) indica un selection, un condition logic ‘o’ (anglese: OR). Con illo, per exemplo nos pote extender le previe exemplo con le parola italian ‘che’ (que non existe in interlingua, ma vamos assumer que nos non lo sape in avantia):
(che|[cq]u[ei]).

Un altere exemplo complicate: cerca tote le occurrentias del verbo nederlandese ‘stappen’, e del substantivo ‘stap’ con le suffixo diminutive ‘-je’, precedite per un del prefixos in, op, uit, over, af e ver: (in|op|uit|over|af|ver)stap(pen|je).

Operatores de repetition

Pro expressiones regular es definite operatores que indica quante vices un character pote ser repetite:

Le specification de repetition pote nos adjutar trovar le orthographia correcte quanto a litteras duple: app?el{1,2}ar trova ‘appellar’ sed etiam trovarea ‘appelar’, ‘apellar’ e ‘apelar’ si illos serea presente.

Un cerca alternative serea ap+el+ar, que totevia non es identic, proque illo trova le parola ‘appellar’ scribite con un, duo ma alsi tres, quatro etc. litteras ‘p’ o ‘l’.

Le repetition non solo se refere a characteres, ma anque a classes ([::]) e gruppos de characteres ([]), e a sequentias inter (). Exemplo: (an){2} trova ubi ‘an’ es sequite per ancora un ‘an’: in le parolas nederlandese e interlingual ‘ananas’, e in le parola interlingual ‘banana’. E in ‘lontanantia’. Comocunque me place iste parola.

Phrases, expressiones e collocationes in le IED

In le IED, phrases exemple, expressiones e collocationes (parolas que typicamente occurre insimul) es date in lineas separate, inter le symbolos ` (virguletta singule inverse) e ' (virguletta singule). Le mission de cerca es: ^`.+. In illo, le puncto representa le notion ‘ulle character’.

Pro rationes technic in le interfacie – inter le interfacie del usator e le programma egrep, que face le labor real – il non functiona con le virguletta al fin: ^`.+'. Un solution technic existe, ma non vale le pena. Qui lo vole saper, vide le commentario hic in le HTML.

Con expressiones in le IED, le option del prefacio “Alsi linea previe” servi a monstrar plus contexto, a saper le linea previe, que normalmente contine le entrata que pertine al expression: sic.

Le variante sin ^ trova referimentos, sovente in connexion con le assi nominate verbos de duple thema. Alternativa: cercar {see}.

Phrases, expressiones e collocationes in nl>ia>nl

In expressiones le indication ‘--’ subinde prende le loco del entrata, que mesme se trova al initio del linea. Dunque, si on cerca un expression con duo parolas que in ille occurre, le ordine in le linea pote differer del ordine in phrases real. Alora le melior methodo es essayar ambe ordines de parolas.

Un exemplo: cercar aan.+niets e niets.+aan da le melior chances pro trovar expressiones nederlandese como ‘daar is niets aan te doen’ (non es possibile alterar lo, illo es inevitabile) e ‘daar is niets aan’ (illo non es difficile, o non es interessante).

Hic le puncto ‘.’ symbolisa qualcunque littera, e le signo plus ‘+’ le repetition: un o multe vices.

Naturalmente on pote anque combinar le duo ordines in un instruction de cerca.

Addition de 15 de junio 2016:
Ora il non plus es necesse facer isto manualmente. Nam il ha nunc un operator de cerca de proximitate. On pote usar APUD o NEAR (majusculas obligatori). Assi le cerca aan APUD niets es equivalente a, e es internemente effectuate como aan.+niets|niets.+aan. Multo plus facile e confortabile.

Addition del 13 de decembre 2015:
Ora il es anque possibile supprimer le exemplos de uso del parolas. Naturalmente le exemplos es clarificante, ma su abundantia a vices anque pote confunder. Pro illo marcar le option “Sin exemplos” non los monstra: un passo extra de filtrage remove tote le lineas que contine ‘--’.

Solo ASCII, e del resto?

Un del fortes de interlingua, specialmente in comparation con esperanto, in mi opinion es que interlingua require solmente le vinti-sex litteras del alphabeto latin. Formulate alteremente, ASCII basta pro scriber lo, nulle ISO-8859-n o Unicode es necesse. Simple, clar, effective e elegante.

Tamen existe un parve quantitate de parolas, que es le plus correctemente scribite con le uso de accentos. Il non es strictemente requirite, ma habitual. Il se de tracta de parolas que non es multo frequente.

Ci io demonstra como trovar tal parolas. Il ha 89. In le IED il ha 46.

Accentuation deviante

IED

In le IED le accento acute es anque usate pro indicar an un parola ha un accentuation differente del commun.

nl>ia>nl

Accentuation foras del commun in le dictionarios de Piet Cleij (e alteres) es marcate per sublineamento. In le interfacie electronic istes nos pote trovar via le codices del HTML subjacente, <u> e </u> (basate sur le anglese underline). Pro qui lo sape, pois facer un ordine de cerca non es difficile: <u>..?</u>.

Mi programma de extraction, que face le material electronic pro le cerca, placia le parolas con vocales sublineate inter parentheses, e precede isto con le parola sin sublineamento. Ergo ‘capite’ deveni ‘capite (capite)’. Le avantage es que tote le parolas pote esser trovate, mesmo si le accentuation es a priori incognite, sin deber includer le codices invisible <u> e </u>.

Pronunciation deviante in nl>ia>nl

In le dictionarios de Piet Cleij, pronunciationes que devia del regulas normal es indicate inter { }. On pote les trovar de tal modo. Proque le accolladas { e } habe un significato special, pro trovar le characteres mesme, on debe facer preceder les per un barra oblique inverse (anglese: backslash): \{ e \}.

In multe casos il se tracta del pronunciation francese del digramma ch, imitate in nederlandese per sj.

Parentheses quadrate in le IED

Alicun parolas entratas in le IED es in [ ]. Illos es trovabile in le IED electronic per iste commando de questa: \[.+\]. Proque le parentheses recte o quadrate, ‘[’ e ‘]’, in expressiones regular habe un significato special, pro trovar le characteres mesme on debe poner ante les un barra inverse: \[ e \].

Un cerca plus complicate (que clarmente monstra que expressiones regular non sempre es facile a comprehender a prime vista!), que totevia es plus complete e digne de fide: (^\[[a-z].+\])|(\[[^ -\.]+\]). Il ha 236 resultatos.

In junio 2013 Stanley A. Mulaik relatava que:
Illos esseva includite al ultime minuta con le adjuta de Blair (secundo un littera a me de Dr. Gode). Illos esseva prendite de altere linguas constructe con le condition que 'illos non pare troppo extranee in le contexto del resto del vocabulario'.

E al fin del Explanatory Notes al fin del Introduction al IED (un parte que curiosemente manca in traductiones al interlingua!) il ha iste remarca in anglese:
Bracketed Entries. – Bracketed entries are words used in one of the major traditional auxiliary languages. They are included in this Dictionario as being neither incompatible with its principles nor a necessary product of them.

In mi traduction:
‘Entratas in parentheses quadrate. – Entratas in parentheses quadrate es parolas usate in un del grande linguas auxiliar traditional. Illos es includite in iste Dictionary como parolas nec incompatibile con su principios nec un producto de ille principios.’

Stan Mulaik anque scribeva:
Multe interlinguaistas usa alcun de istos e alcun del particulas latin. Le selection non es uniforme. Illo es subjective, proque il non ha alcun guida a formas commun.

Illo es ver: multes del parolas in le IED in [ ] es hodie in uso commun: an, ancora, anque, ci, desde, esque, ja, ma, on, poc, poco, quam, ser, sera, serea, sia, sovente, tro, troppo, ulle, vamos. Ma non: atque, aut, donec, el, ella, esso, este, haver, homo, isse, isso, jo, magis, mi, trop, voi.

Que le selection es subjective e sin guida, io personalmente non senti como un problema, ma potius como un forte de interlingua: illo lo face plus ric, flexibile e variate, e per illo plus apte pro mi scopos. E forsan por les de alteres.


Solo le vocabulario basic

Le 12 de decembre 2015: un nove function: cercar solo le 2500 parolas del dictionario basic, seligite ex le dictionario interlingua-nederlandese de Piet Cleij.

Ecce plus information.

Colores: Enoiose Extravagante Necun preferentia Recarga le pagina