« Goélette Cardabela/Références » : différence entre les versions

Contenu supprimé Contenu ajouté
Ligne 1 266 :
==== Quellle documentation peut-on extraire de ces fichiers obtenus avec wget ? ====
On peut extraire les liens et obtenir une page ''Index'' très complète. Cependant ce système ne permet pas de préciser directement les pages ni les Licences associées, pour cela il faut automatiser la lecture des pages d'images et compléter les noms des auteurs et les licences.
===== {{75}}Extraire les liens des images de la page ArticleUn ( Étude en cours) =====
; Projet à l'étude : Les commandes ci-après sont à inclure dans un fichier shell bash pour l'exécution automatique. On pourra ensuite essayer de créer un équivalent pour Windows 10.
# Transformer le fichier ArticleUn.1 en fichier html avec les commandes cat et sed :<br />'''<pre>cat ArticleUn.1 | sed -e "s/\"\/wiki\//\"https:\/\/fr.wikibooks.org\/wiki\//g" > ArticleUn.html</pre>''' Signifie : Remplacer de façon récursive (option g) la chaîne de caractères ''« "/wiki/ »'' par la chaîne''<nowiki>« "https://fr:wikibooks.org/wiki/ »</nowiki>'' et ''pousser'' le résultat dans un nouveau fichier ArticleUn.html
# ''Vérifier avec le navigateur internet que ce fichier html a bien été correctement modifié et s'affiche correctement.''
# Extraire toutes les chaînes de caractères avec mkd option -p et les'' pousser'' dans un nouveau fichier AtrticleUn.str<br />'''<pre>mkd -p '**' ArticleUn.html ArticleUn.str</pre>'''
# Sélectionner les lignes qui contiennent les liens d'images, avec la commande ''grep'', et les ''pousser'' dans un nouveau fichier ArticleUn.img<br />'''<pre>cat ArticleUn.str | grep -n -i -e fichier: -e file: -e image: > ArticleUn.img</pre>'''Signifie : Sélectionner les lignes contenant ''fichier:'' ou ''file:'' ou ''image:'' avec -i : sans distinction majuscules/minuscules et avec -n : numéroter les lignes.<br />Code ArticleUn.img résultant : ligne 42 de ArticleUn.<br /><syntaxhighlight lang="html">42:<div class="center"><div class="thumb tnone"><div class="thumbinner" style="width:502px;"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="image"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/500px-Gabriel_Garcia_Marquez_-_Fresque.jpg" width="500" height="375" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/750px-Gabriel_Garcia_Marquez_-_Fresque.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/1000px-Gabriel_Garcia_Marquez_-_Fresque.jpg 2x" data-file-width="1280" data-file-height="960" /></a> <div class="thumbcaption"><div class="magnify"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="internal" title="Agrandir"></a></div>Gabriel Garcia Marquez - Fresque de Pohline Blast</div></div></div></div></syntaxhighlight>
# Couper les chaînes avec la commande ''awk'' avec comme séparateur le retour chariot '\n' ("\n" double le retour chariot)<br />Nonbre de champs du fichier ArticleUn.img avec le séparateur de champ "=" : '''cat ArticleUn.img | awk -F"=" '{print NF}'''' ⇒ 20 champs.<br />'''cat ArticleUn.img | awk -F"=" '{for (i=1;i<=NF;i++) print $i "\n"}' | grep https | sed "s/\"/%/g" | cut -d'%' -f2 > ArticleUn.lnk'''<br />⇒ donne '''un champ $0''' contenant les '''deux liens''' de ArticleUn.img vers la page de l'image sur wikibooks, sur deux lignes. : <br />'''ArticleUn.lnk :'''<prebr />{{cadre|couleur fond=#EEE|https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg<br />https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg<pre /><br />}}
#:; ÉditerCouper etle sélectionnerdoublon le: nom des'''cat auteursArticleUn.lnk et| lessed licences'N;s/\nh/%h/g;P;D;' | cut -d'%' -f1 > associées.<br /> essayez avecArticleUn.lnk3''' :<br /><pre>https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg</pre>
# -
<!-- test
# Extraire les liens d'images et les compléter pour éditer les pages de ces l'images.
: Concaténer les deux lignes : cat ArticleUn.lnk | sed 'N;s/\nh/ h/g;P;D;' > ArticleUn.lnk2
# Éditer et sélectionner le nom des auteurs et les licences associées.<br /> essayez avec : https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg
: Séparer les deux liens pour n'en faire qu'un : cat ArticleUn.lnk2 |sed "s/ /%/" | cut -d'%' -f1 > ArticleUn.lnk3
# Construire le fichier ''Annexe'' de la'' Version imprimable''.
: Essayer : cat ArticleUn.lnk | sed 'N;s/\nh/%h/g;P;D;' | cut -d'%' -f1 > ArticleUn.lnk3
# -
-->
 
===== {{0}}Éditer les pages d'images et construire la section Images de l'''Annexe'' ( Projet ) =====
# Éliminer les lignes ''en doublon'' des fichiers .lnk de la'' Version imprimable''.
# Éditer les pages des images sur wikilivres puis sélectionner et copier le nom des auteurs et les licences associées.<br /> essayez avec : https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg
 
#===== {{0}} Construire le fichier complet ''Annexe'' de la'' Version imprimable''. ( Projet ) =====
La gestion automatique des numéros de pages est un problème insoluble avec les ''Versions imprimables''.
 
Suggestion pour les numéros de pages : éditer la version finale avec ''wget'' en limitant le nombre de caractères imprimés par ligne. ... ?
 
----