Le 20 e
Quanto al dictionarios nederlandese, le material pro mi interfacie io ha derivate del publicationes in Wikia. Illo ha evenite in plure passos:
fetch
In Wikia il ha le dictionarios nederlandese-interlingua e interlingua-nederlandese, compilate per Piet Cleij (27-05-1927 – 07-01-2015).
Io usava le programma
fetch
, parte de FreeBSD, que es le
systema de operation de mi servitor virtual, albergate per
Tilaa.nl.
Io exequeva fetch
pro cata littera del dictionarios:
a,
b,
c, etc. etc.
Illo resultava in files que contine le codice HTML de cata pagina.
extrwkia
In le linguage de programmation C io mesme scribeva le programma
extrwkia
, non multo elegante ma effective, que extrahe
del HTML le information essential del dictionarios, in un forma que
es plus facile a cercar per egrep
e a presentar per
cgi-grep.cgi
.
Le principio es que il ha lineas, que cata un contine le parola del entrata, possibilemente extra information como le categoria grammatical, pois un spatio, duo punctos e un spatio (‘ : ’), sequite per traductiones. Le idea pro isto io obteneva del exemplo de Paul Denisowski.
iconv
Le HTML in le Wikias es in
Unicode,
in le codification UTF-8. Originalmente io lo anque usava pro mi
interfacie. Pro isto il debe haber in le HTML del interfacie un
header:
<meta http-equiv="Content-Type"
content="text/html; charset=utf-8">
e le invocation interne de egrep
debe esser
ponite in le contexto LC_CTYPE="nl_NL.UTF-8"
.
Plus tarde totevia, le 3 de novembre 2015, io includeva in le interfacie le IED (Interlingua-English Dictionary). Iste es codificate, non in UTF-8 ma ISO-8859-1, un codification que es bastante ric pro le anglese, nederlandese e interlingua.
Ergo, pro attinger un codification uniforme, aut io deberea converter le file del IED a UTF-8, aut le files del dictionarios nederlandese a ISO-8859-1. Io faceva le ultime, assi:
iconv -c -f UTF8 -t ISO-8859-1 ianl.htm > ianl-8859-1.htm iconv -c -f UTF8 -t ISO-8859-1 nlia.htm > nlia-8859-1.htm
(Addition del 18 de januario 2020: intertanto le codification de tote de files pro le interfacie es UTF-8. Le differentia de performantia con “Alsi majusculas” es perceptibile, ma non problematic. Le dictionario de Sexton&Gopsill ha tote le lemmas in majusculas. Le litteras special pro esperanto non es in le codification ISO-8859-1.)
Le interfacie io ha scribite mesme in C, basate a programmas similar
que io scribeva in le passato. Le nomine es cgi-grep.cgi
.
Le programma realisa le communication inter le schermo que vide le
usator, e le programma egrep
que face le ver action de
cercar, usante le expressiones regular.
Le dictionarios de Piet Cleij es publicate in Wikia con un licentia CC-BY-SA: “Creative Commons Attribution-Share Alike License 3.0 (Unported).”
Pro complir le elemento Share Alike (compartir equalmente) io comparti hic le resultatos del extraction, e le programmas in C que io scribeva, anque con un licentia del typo Creative Commons Attribution-ShareAlike 4.0 International.
Le material del dictionarios, le files,
se trova hic, inter
alteres ianl.htm
(7.508.063 bytes) e nlia.htm
(13.243.692 bytes).
E hic
es le codice fonte del programma de extraction, extrwkia.c
,
e hic del interfacie
de usator, cgi-grep.c
.
Il ha anque cgitools.h
e cgitools.c
(sub licentia CC-BY-SA) con functiones auxiliar
anque usate pro plus vetule programmas del typo CGI que io scribeva
(sin licentia CC-BY-SA!), como
analecta,
numeros prime,
umlautes,
horizonte visual,
numero de controlo,
colores,
monstra characteres
de Unicode e
paginas aleatori.