« Utilisateur:Goelette Cardabela/Sandbox/Annexion et indexation des wiki-livres/Référencement automatique » : différence entre les versions

Contenu supprimé Contenu ajouté
Ligne 340 :
 
===== {{75}}Extraire les liens des images de la page ArticleUn ( Étude en cours) =====
Les commandes ci-après sont à inclure dans un fichier shell bash pour l'exécution automatique. On pourra ensuite essayer de créer un équivalent pour Windows 10.
# Transformer le fichier ArticleUn.1 en fichier html avec les commandes cat et sed :<br />'''<pre>cat ArticleUn | sed -e "s/\"\/wiki\//\"https:\/\/fr.wikibooks.org\/wiki\//g" > ArticleUn.html</pre>''' Signifie : Remplacer de façon récursive (option g) la chaîne de caractères ''« "/wiki/ »'' par la chaîne''<nowiki>« "https://fr:wikibooks.org/wiki/ »</nowiki>'' et ''pousser'' le résultat dans un nouveau fichier ArticleUn.html
# ''Vérifier avec le navigateur internet que ce fichier html a bien été correctement modifié et s'affiche correctement.''
# Extraire toutes les chaînes de caractères avec mkd option -p et les copier dans un nouveau fichier AtrticleUn.str<br />'''<pre>mkd -p '**' ArticleUn.html ArticleUn.str</pre>'''
# Sélectionner les lignes qui contiennent les liens d'images, avec la commande ''grep'', et les ''pousser'' dans un nouveau fichier ArticleUn.img<br />'''<pre>cat ArticleUn.str | grep -n -i -e fichier: -e file: -e image: > ArticleUn.img</pre>'''Signifie : Sélectionner les lignes contenant ''fichier:'' ou ''file:'' ou ''image:'' avec -i : sans distinction majuscules/minuscules et avec -n : numéroter les lignes.<br />Code ArticleUn.img résultant : ligne 42 de ArticleUn.<br />'''<syntaxhighlight lang="html">42:<div class="center"><div class="thumb tnone"><div class="thumbinner" style="width:502px;"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="image"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/500px-Gabriel_Garcia_Marquez_-_Fresque.jpg" width="500" height="375" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/750px-Gabriel_Garcia_Marquez_-_Fresque.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Gabriel_Garcia_Marquez_-_Fresque.jpg/1000px-Gabriel_Garcia_Marquez_-_Fresque.jpg 2x" data-file-width="1280" data-file-height="960" /></a> <div class="thumbcaption"><div class="magnify"><a href="https://fr.wikibooks.org/wiki/Fichier:Gabriel_Garcia_Marquez_-_Fresque.jpg" class="internal" title="Agrandir"></a></div>Gabriel Garcia Marquez - Fresque de Pohline Blast</div></div></div></div></syntaxhighlight>'''
# Couper les chaînes avec la commande ''awk'' et comme séparateur le retour chariot '\n' ("\n" double le ''new-line'')<br />Nonbre de champs du fichier ArticleUn.img avec le séparateur de champ "=" : '''cat ArticleUn.img | awk -F"=" '{print NF}'''' ⇒ 20 champs.