Material e software del interfacie

Le 20 e

Extraction del material

Quanto al dictionarios nederlandese, le material pro mi interfacie io ha derivate del publicationes in Wikia. Illo ha evenite in plure passos:

Colliger: fetch

In Wikia il ha le dictionarios nederlandese-interlingua e interlingua-nederlandese, compilate per Piet Cleij (27-05-1927 – 07-01-2015).

Io usava le programma fetch, parte de FreeBSD, que es le systema de operation de mi servitor virtual, albergate per Tilaa.nl. Io exequeva fetch pro cata littera del dictionarios: a, b, c, etc. etc.

Illo resultava in files que contine le codice HTML de cata pagina.

Extraher: extrwkia

In le linguage de programmation C io mesme scribeva le programma extrwkia, non multo elegante ma effective, que extrahe del HTML le information essential del dictionarios, in un forma que es plus facile a cercar per egrep e a presentar per cgi-grep.cgi.

Le principio es que il ha lineas, que cata un contine le parola del entrata, possibilemente extra information como le categoria grammatical, pois un spatio, duo punctos e un spatio (‘ : ’), sequite per traductiones. Le idea pro isto io obteneva del exemplo de Paul Denisowski.

Converter: iconv

Le HTML in le Wikias es in Unicode, in le codification UTF-8. Originalmente io lo anque usava pro mi interfacie. Pro isto il debe haber in le HTML del interfacie un header:
<meta http-equiv="Content-Type"
   content="text/html; charset=utf-8">

e le invocation interne de egrep debe esser ponite in le contexto LC_CTYPE="nl_NL.UTF-8".

Plus tarde totevia, le 3 de novembre 2015, io includeva in le interfacie le IED (Interlingua-English Dictionary). Iste es codificate, non in UTF-8 ma ISO-8859-1, un codification que es bastante ric pro le anglese, nederlandese e interlingua.

Ergo, pro attinger un codification uniforme, aut io deberea converter le file del IED a UTF-8, aut le files del dictionarios nederlandese a ISO-8859-1. Io faceva le ultime, assi:

iconv -c -f UTF8 -t ISO-8859-1 ianl.htm > ianl-8859-1.htm
iconv -c -f UTF8 -t ISO-8859-1 nlia.htm > nlia-8859-1.htm

(Addition del 18 de januario 2020: intertanto le codification de tote de files pro le interfacie es UTF-8. Le differentia de performantia con “Alsi majusculas” es perceptibile, ma non problematic. Le dictionario de Sexton&Gopsill ha tote le lemmas in majusculas. Le litteras special pro esperanto non es in le codification ISO-8859-1.)

Cercar e interfacie del usator

Le interfacie io ha scribite mesme in C, basate a programmas similar que io scribeva in le passato. Le nomine es cgi-grep.cgi. Le programma realisa le communication inter le schermo que vide le usator, e le programma egrep que face le ver action de cercar, usante le expressiones regular.

Derectos de autor

Le dictionarios de Piet Cleij es publicate in Wikia con un licentia CC-BY-SA: “Creative Commons Attribution-Share Alike License 3.0 (Unported).

Pro complir le elemento Share Alike (compartir equalmente) io comparti hic le resultatos del extraction, e le programmas in C que io scribeva, anque con un licentia del typo Creative Commons License Creative Commons Attribution-ShareAlike 4.0 International.

Material del dictionarios

Le material del dictionarios, le files, se trova hic, inter alteres ianl.htm (7.508.063 bytes) e nlia.htm (13.243.692 bytes).

Software

E hic es le codice fonte del programma de extraction, extrwkia.c, e hic del interfacie de usator, cgi-grep.c.

Il ha anque cgitools.h e cgitools.c (sub licentia CC-BY-SA) con functiones auxiliar anque usate pro plus vetule programmas del typo CGI que io scribeva (sin licentia CC-BY-SA!), como analecta, numeros prime, umlautes, horizonte visual, numero de controlo, colores, monstra characteres de Unicode e paginas aleatori.