Le 15–. Un articulo scribite per Ruud Harmsen (como totes in iste sito web, si non alteremente indicate).
Pro le successo de un lingua le disponibilitate de bon dictionarios es importante. Quando io comenciava a apprender interlingua, io poteva contar con le grande dictionarios nederlandese-interlingua, e vice versa, de Piet Cleij. Un bon maniera de melior maestrar un lingua es essayar pensar e scriber in illo. Assi es que io ha apprendite le anglese, al etate de 16 o 17 annos: io voleva pensar in anglese, e pro toto que io non poteva pensar per manco de parolas, al arrivar in casa io cercava los in le dictionario.
Parolas que es importante in le vita del apprenditor, naturalmente retorna in su pensamentos, e assi es automaticamente repetite, usque illos ha firmemente devenite parte del vocabulario.
Proque le dictionario nl>ia>nl
de Piet Cleij contine un vaste
numero de parolas, ma anque multissime exemplos e expressiones, le nuances e
subtilitate de mi expression in interlingua es fortemente adjutate per le accesso
a iste dictionarios. Mesmo nunc, plus que sex annos post mi
prime passos in interlingua,
a vices io consulta
le dictionarios. Satis subinde, de facto.
Le nederlandese non es un parve lingua, essente parlate in le tres paises Surinam, Belgica e Nederland, per circa 24 milliones personas. Comparate con le totalitate del population de Europa e del mundo, illo non es multe. Pro qui non sape le nederlandese, le dictionarios de Piet Cleij es inutile. Tamen Thomas Breinstrup me ha dicite que ille los usa, proque ex su maestria del danese (lingua materne), svedese e anglese, parolas nederlandese es sovente recognoscibile.
Le francese ha plus parlatores, in Francia, Belgica (Wallonia e Bruxelles), Suissa, Canada e varie paises in Africa, e ha un rolo international plus importante e versatile que le nederlandese. Le accessibilitate de un ponte ab le lingua francese al vocabulario international de interlingua pote dunque promover le bon cosa de interlingua ancora plus.
Le mesme Piet Cleij del dictionarios nederlandese ha anque create un grande e bon dictionario francese-interlingua. Un publication como libro de papiro es disponibile del UMI via Lulu.com, e on pote anque discargar e consultar le files PDF in le sito del UMI.
Io voleva facer iste dictionario anque accessibile via mi interfacie ja facite pro altere dictionarios – intertanto novem in total, in illo includite un sin connexion con interlingua, esperanto-anglese, ma que refere a Paul Denisowski, de qui io ha le idea de facer le interfacie in le forma que illo habe.
Personalmente io prefere le accesso electronic al vocabulos, per ration del celeritate, le possibilitate de trovar variantes per expressiones regular (patronos; in anglese: regular expressions), e proque on non solo cerca in le entratas in ordine alphabetic, ma in le material textual complete.
Le 6 de septembre 2015 le filio de Piet Cleij, Vincent, inviava un e-mail a me e alteres, con un ligamine a Dropbox ubi esseva files del computer de Piet Cleij. Le documento le plus nove quanto al francese in iste material habeva qua data le 6 de april 2014. Dunque usque menses ante su morte, le 7 de januario 2015, Piet Cleij ha ancora travaliate al dictionario, in un periodo quando su sanitate jam non esseva optime.
Io ha usate iste documento, un file MSWord de plus que 11 megabytes. Ja in le prime paginas il es clar que iste version contine plus entratas, e super toto plus exemplos e expressiones, que le PDFs in le sito del UMI.
Ora, con le conversion technic completate, io conta 60.160 lemmas. Nos debe nonobstante considerar que in francese, multe parolas pote esser adjectivo o substantivo, in forma identic. In le dictionario istos es generalmente presentate como lemmas separate.
In addition il ha 10.162 variantes de significato, e le numero impressionante de 58.883 expressiones e exemplos!
Documentos MSWord, PDF, HTML, etc. non es usabile pro mi
interfacie de cerca, proque
internemente le motor de querer es grep
(plus specificamente:
egrep
, le version extendite). Iste typo de programmas, ja
disponibile in variantes matutin de UNIX, es designate pro operar sur
lineas de texto, e nihil altere.
Pro isto io ha aperite le documento de 11 MB in MSWord, pro salvar lo como HTML, sperante que io poterea simplificar le HTML e finalmente arrivar a lineas de texto usabile. Le grandor del file HTML resultante esseva 30.655.562 bytes. Tosto post illo, Windows 10 collabeva, e le 26 de julio 2019 un altere computer con Windows 8, post un cadita infortunate, refusava me servir. Desde alora io non ha usate MSWord, ben que forsan illo es possibile anque in successor Linux Mint, usante Wine.
Pro LibreOffice (version 6.2.5.2) le documento MSWord de 11 MB es troppo pesante. Post circa un minuto, com jam 900 megabytes de memoria residente allocate, io ha (anque hodie, de novo) terminate le processo. Le schermo ancora esseva completemente vacue. Anque files de texto presenta grande problemas. Aperir un file de quasi 7 megabytes finalmente succedeva, ma requireva le uso de 1,134 gigabytes de memoria.
Le editor de texto xed
, presente como standard in Linux Mint,
pote tractar tan files de texto, ma aperir, cercar e salvar es multo lente.
Mi salvator era le editor de texto
nano
, que es alique particular quanto
al maneamento, ma que carga, cerca, cerca&reimplacia, e salva multo
rapidemente, sin esser intimidate per grande files. Un test: 105 MB, plus
que 2 million lineas de texto: cargate in 4,5 secundas. Uso de memoria:
244 MB. (Nota: ed
tamben.)
Exemplo del codification HTML como MSWord lo salvava, ex le lemma ‘parler’:
<p class=MsoNormal style='margin-left:14.15pt'><span class=exemplo1><span lang=FR style='font-size:8.5pt;mso-bidi-font-size:10.0pt'>~ en interlingua</span></span><span lang=FR style='font-size:8.5pt;mso-bidi-font-size:10.0pt'> </span><span class=exemplo2><span style='font-size:8.5pt;mso-bidi-font-size:10.0pt'>parlar in interlingua<o:p></o:p></span></span></p>
Post mi manipulationes illo esseva reducite a:
<dd>~ en interlingua : parlar in interlingua
Le ‘bidi’ in ‘mso-bidi-font-size’ probabilemente sta pro ‘bidirectional’. Microsoft Word tene conto del possibilitate que sia presente texto in lingua arabe o hebree, que es alora presentate con litteras plus grande. 154 mille vices illo es indicate. In realitate il ha nulle tal texto oriental, le dictionario exclusivemente contine francese e interlingua.
Le numero de bytes de 30.655.562 post mi editar habeva devenite 6.791.916, o 22%.
Un altere exemplo:
<p class=Entrata0><span class=entrata><span lang=FR>abdos</span></span><span lang=FR> </span><span class=gram>s. </span>exercitios pro le musculos abdominal</p>
(Nota que le parola ‘abdos’ es marcate como francese, ma separatemente anque le spatio post le parola. Que es le relevantia? Ha il un differentia inter un spatio francese, un spatio interlingual, e un spatio in general, sin indication de lingua? Io vide illo como un exemplo del mentalitate de Microsoft, hic prolongate usque le lunatic, de ‘big is beautiful’ e ‘more is better’. Io al contrario adhere al principio KISS, ‘keep it simple, stupid’.)
Postea illo ha devenite:
<dt>abdos</dt> <dd><i>s.</i> : exercitios pro le musculos abdominalque le navigator (browser) monstra como:
Proque le complexitate del codification non esseva consistente e veridic,
multe passos de conversion e controlo esseva necesse. Io usava un combination
de cercar e substituer con expressiones regular in nano
, parve
programmas specialisate que io scribeva in C
, e correctiones
manual pro situationes restante. Le avantage de manipulationes relativemente
parve, passo a passo, es que le errores ancora pote esser corrigite, que in
caso de discoperta tarde non plus serea possibile.
Le resultato final de tote mi manipulationes del codices (sin toccar le contento, salvo in le caso de obvie errores que per hasardo io videva) es consultabile hic. Un avantage de iste presentation es que on vide un pagina complete, con lemmas, explicationes e exemplos in contexto. Un disavantage es on non pote distinguer inter un cerca de tote le texto, e cercar solo le lemmas, como es possibile in le interfacie. Un altere disavantage es que le dictionario complete prende 6,8 megabytes de datos, que es bastante grande pro un sol pagina web, e pote causar un deceleration.
Le dictionario complete es structurate como un definition list, un
lista
de definitiones, ergo es inter le elementos HTML <dl>
e </dl>
. Intra isto es le lemmas o entratas. Cata entrata
es inter tags HTML <dt>
e </dt>
.
Le entrata es le parola o expression francese que va esser translatate o
explicate.
Le prime explication, o definition in terminos del tags HTML, seque
post un spatio e le tag <dd>
, in le mesme linea.
(Spatios e lineas es irrelevante in HTML, ma relevante in le file de texto
pro le interfacie de cerca, que sera postea derivate de iste file HTML. Le
ration es que egrep
cerca sempre per linea de texto.)
Le definition inter <dd>
e </dd>
(le end tag </dd>
pote esser omittite in HTML4,
que io usa) es structurate assi:
Quasi sempre il ha un indication del categoria grammatical del parola
o combination de parolas, e.g. v. verbo, sub. substantivo,
adj. adjectivo, adv. adverbio, v. verbo, prép.
preposition, num. numeral, conj. conjunction, interj.
interjection.
Iste indicationes es abbreviate, sequite per un puncto, in francese (hinc
le accento super le é de préposition), e italic = cursive,
isto es, in HTML inter <i>
e </i>
.
Sovente il ha un o plus themas, campos de studio, disciplinas, manieras de uso, etc. como (bot.) botanic, (cul.) culinari, (astron.) astronomic, (math.) mathematic, (anat.) anatomic, (zool.) zoologic, (sport) sportive, (jur.) juridic, (fig.) figurate, (ling.) linguistic. Iste indicationes es italic, inter parentheses, sequite per un puncto si il se tracta de un abbreviation, e in francese.
A vices un clarification in francese es addite, que explica o limita le situation, le signification partial, le uso, etc. Isto es non-cursive, e inter parentheses. Exemplos: (rendre sourd) e (frapper de stupeur).
Si il ha plus que un variante de signification, illos es numerate,
le sequentes in un linea precedite non per le codice HTML
<dt>
, ma per <dd>
. Un exemplo,
como vidite in le navigator:
<dt>abasourdir</dt> <dd>1. <i>v.</i> (rendre sourd) : assurdar, render surde <dd>2. <i>v.</i> <i>(fig.)</i> (frapper de stupeur) : consternar, disconcertar
Como vos vide in le exemplo in alto, ubi le francese fini e le interlingua comencia, il ha le indication " : ", spatio, duo punctos, spatio. Iste idea io ha de Paul Denisowski, e iste indication non esseva presente originalmente in le material de Piet Cleij.
Post le sol significato, o cata un de plure significatos numerate, pote sequer expressiones e exemplos que usa le lemma. Il ha multissime de istos, cosa que face tote le dictionarios de Piet Cleij particularmente utile e usabile.
Del file HTML pote esser derivate un file de texto, apte pro uso in
mi interfacie de cerca.
Pro isto io ha scribite un programma simplice in C
. Le codice
fonte es hic. Le programma face le
sequente (vide frhtmtxt.c
):
Le HTML que precede <dl>
, e que seque
</dl>
, es removite, como es iste tags
mesme;
Lineas vacue es removite. In le HTML, illos es sin signification, ma presente pro plus facilemente vider ubi comencia un lemma, in un situation de controlo visual.
Lo que es inter <dt>
e </dt>
es salvate in un tampon (buffer), pro uso sequente.
Le tags es removite, e le lemma e traduction es ponite in le linea, con un extra comma e spatio in le caso que le traduction es numerate (1.), pro esser consistente con 2., 3. etc., si presente.
Lineas que comencia con <dd>
es precedite per
le lemma, un comma e un spatio. Assi le resultato de un cerca sera
ancora comprensibile, si le linea con le lemma non es seligite.
Un mesura special es necesse pro vocales que es sublineate pro indicar un accentuation que devia del regulas basic. Qui in un navigator (browser) cerca ‘oceano’, trova anque ‘oceano’. Le navigator sape que le sublineation del littera ‘e’ debe esser ignorate in le cerca.
Sed egrep
, usate per le interfacie per realisar le
cerca, non sape de isto. Toto es texto pro egrep
, e on
poterea solo trovar le parola per includer le codification,
assi. Claro illo non es acceptabile. Le
solution es includer in le linea, e le parola calve, e le parola
con vocal sublineate: oceano (oceano).
Le function RepeatWordsWithUnderlining
, realisate
in le file fonte repundrl.c
, face isto. (Previemente
iste function esseva parte del programma extrwkia
pro
le dictionarios nederlandese. Ora separate.)
ed
tambenNota addite le 3 de julio 2021:
Non solo le editor de texto nano
pote ben
manear files de texto de multe
megabytes, anque ed
. Iste programma es multo
vetule, era ja disveloppate in augusto de 1969, como un del
prime componentes de UNIX! Le autor era
Ken Thompson.
Malgrado su etate, ed
es hodie bastante moderne pro poter
manear multe scripturas, gratias a Unicode e UTF8. Quando io adressava
un linea in mi file de annotationes musical, ponente le nomine grec
Φασουλάκη post le symbolo ‘/’ pro introducer un
expression regular, ed
lo trovava e monstrava. Ma le commando
l
pro listar rendeva le nomine como:
\316\246\316\261\317\203\316\277\317\205\316\273\316\254\316\272\316\267
,
que es le codification UTF-8 del litteras, con le duo bytes de cata littera
in representation octal. Inambigue, ma non multe practic. Ma le commando
alternative n
monstra le numero del linea, con le texto
in greco normal e legibile. Iste software de 52 annos ancora es bon!