« Goélette Cardabela/Références » : différence entre les versions

Contenu supprimé Contenu ajouté
Ligne 1 264 :
{{Boîte déroulante fin}}
 
==== Quellle documentation peut-on extraire de ces fichiers obtenus avec wget ? ====
On peut extraire les liens et obtenir une page ''Index'' très complète. Cependant ce système ne permet pas de préciser directement les pages ni les Licences associées, pour cela il faut automatiser la lecture des pages d'images et compléter les noms des auteurs et les licences.
; Projet à l'étude : Les commandes ci-après sont à inclure dans un fichier shell bash pour l'exécution automatique. On pourra ensuite essayer de créer un équivalent pour Windows 10.
# Transformer le fichier ArticleUn.1 en fichier html avec les commandes cat et sed :<br />'''<pre>cat ArticleUn.1 | sed -e "s/\"\/wiki\//\"https:\/\/fr.wikibooks.org\/wiki\//g" > ArticleUn.html</pre>''' Signifie : Remplacer de façon récursive (option g) la chaîne de caractères ''« "/wiki/ »'' par la chaîne''<nowiki>« "https://fr:wikibooks.org/wiki/ »</nowiki>'' et la''pousser'' copierle résultat dans un nouveau fichier ArticleUn.strhtml
# ''Vérifier avec le navigateur internet que ce fichier html a bien été correctement modifié et s'affiche correctement.''
# Extraire toutes les chaînes de caractères avec mkd option -p et les'' pousser'' dans un nouveau fichier AtrticleUn.str<br />'''<pre>mkd -p '**' ArticleUn.html ArticleUn.str</pre>'''
# Sélectionner les lignes qui contiennent les liens d'images, avec la commande ''grep'', et les ''pousser'' dans un nouveau fichier ArticleUn.img<br />'''<pre>cat ArticleUn.str | grep -n -i -e fichier: -e file: -e image: > ArticleUn.img</pre>'''Signifie : Sélectionner les lignes contenant ''fichier:'' ou ''file:'' ou ''image:'' avec -i : sans distinction majuscules/minuscules et avec -n : numéroter les lignes.<br />Code ArticleUn.img résultant : ligne 42 de ArticleUn.<br /><syntaxhighlight lang="html">42:<div class="center"><div class="thumb tnone"><div class="thumbinner" style="width:502px;"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="image"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/500px-Gabriel_Garcia_Marquez_-_Fresque.jpg" width="500" height="375" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/750px-Gabriel_Garcia_Marquez_-_Fresque.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/1000px-Gabriel_Garcia_Marquez_-_Fresque.jpg 2x" data-file-width="1280" data-file-height="960" /></a> <div class="thumbcaption"><div class="magnify"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="internal" title="Agrandir"></a></div>Gabriel Garcia Marquez - Fresque de Pohline Blast</div></div></div></div></syntaxhighlight>
# Couper les chaînes avec la commande ''awk'' avec comme séparateur le retour chariot '\n'<br />Nonbre de champs du fichier ArticleUn.img avec le séparateur de champ "=" : '''cat ArticleUn.img | awk -F"=" '{print NF}'''' ⇒ 20 champs.<br />'''cat ArticleUn.img | awk -F"=" '{for (i=1;i<=NF;i++) print $i "\n"}' | grep https | sed "s/\"/%/g"''' ⇒ donne les deux fois le lienliens vers la page de l'image, sur deux lignes.<br /><pre>https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg<br />https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg<pre /><br />
<syntaxhighlight lang="html">42:<div class="center"><div class="thumb tnone"><div class="thumbinner" style="width:502px;"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="image"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/500px-Gabriel_Garcia_Marquez_-_Fresque.jpg" width="500" height="375" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/750px-Gabriel_Garcia_Marquez_-_Fresque.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/1000px-Gabriel_Garcia_Marquez_-_Fresque.jpg 2x" data-file-width="1280" data-file-height="960" /></a> <div class="thumbcaption"><div class="magnify"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="internal" title="Agrandir"></a></div>Gabriel Garcia Marquez - Fresque de Pohline Blast</div></div></div></div></syntaxhighlight>
# Couper les chaînes avec la commande ''awk'' avec comme séparateur le retour chariot '\n'<br />Nonbre de champs du fichier ArticleUn.img avec le séparateur de champ "=" : '''cat ArticleUn.img | awk -F"=" '{print NF}'''' ⇒ 20 champs.<br />'''cat ArticleUn.img | awk -F"=" '{for (i=1;i<=NF;i++) print $i "\n"}' | grep https | sed "s/\"/%/g"''' ⇒ donne deux fois le lien vers la page de l'image, sur deux lignes.
# -
# Extraire les liens d'images et les compléter pour éditer les pages de ces l'images.