Voici le script que j'ai rédigé pour la création du tableau à 4 colonnes.
Le script reste à tester. Je ne l'ai pas encore fait car l'expression régulière que je dois chercher comporte un caractère spéciale qui nécessite l'encodage ISO9 (Turc) et, pour l'instant, je ne
sais pas modifier l'encodage de la console.
#!/bin/bash
#récupération du nom du fichier html qui contiendra le tableau.
echo "Donner le nom du fichier html à créer: ";
read tablo;
#création du titre de la page html.
echo "<html><head><title>tableau de liens</title></head><body><table border=1>" > $tablo;
#1re en-tête du tableau.
echo "<th>Sens 1 (feu)</th>" >> $tablo;
#ligne suivante (liste des colonnes).
echo "<tr><td>URL</td><td>CONTENU</td><td>DUMP LYNX</td><td>CONTEXTE</td></tr>" >> $tablo;
#récupération de l'expression régulière à chercher dans les données textuelles.
echo "Donner l'expression à chercher dans les fichiers: ";
read motif;
#récupération du premier fichier .txt
echo "Donner le premier fichier contenant les URLS: ";
read fic1
#On énumère les lignes du fic1, qui correspondent chacun à un URL.
i=1
for nom in `cat $fic1`
{
#téléchargement de l'URL: on créé une page aspirée correspondante, pour chaque ligne (i) du fichier.
wget -O ../PAGES-ASPIREES/turc1/$i.html $nom
#on extrait le contenu textuel de chaque page aspirée et on dirige le résultat vers un nouveau fichier situé dans le dossier DUMP.
lynx -dump -nolist $i > ../DUMP/turc1/$i.txt $nom;
#à l'intérieur des données textuelles collectées on extrait les lignes où figure le motif cherché.
#le résultat de la commande sera dirigé vers un nouveau fichier .txt créé dans le dossier CONTEXTES.
egrep -i "$motif" ../DUMP/turc1.$i.txt > ../CONTEXTES/turc1/$i.txt $nom
#on répète la tâche pour chaque ligne du fichier.
#chaque ligne du tableau comporte quatres cellules avec des liens hypertextes, dirigeant respectivement vers l'URL, la page aspirée,
#le texte dump et le contexte.
echo "<tr><td><a href=\"$nom\">URL$i</a></td><td><a href=\"../PAGES-ASPIREES/turc1/$i.html\">Page aspirée</a></td><td>\
<a href=\"../DUMP/turc1/$i.txt\">Dump lynx</a></td><td><a href=\"../CONTEXTES/turc1/$i.txt\">Contexte \"feu\"</a></td></tr>" >> $tablo;
#on passe à la ligne suivante du fichier, tâche à répéter jusqu'à l'épuisement de toutes les lignes.
let "i+=1" ;
}
echo "<th>Sens 2 (fièvre)</th>" >> $tablo;
echo "<tr><td>URL</td><td>CONTENU</td><td>DUMP LYNX</td><td>CONTEXTE</td></tr>" >> $tablo;
#récupération du 2e fichier .txt
echo "Donner le 2e fichier contenant les URLS: ";
read fic2;
i=1
for nom in `cat $fic2`
{
wget -O ../PAGES-ASPIREES/turc2/$i.html $nom
lynx -dump -nolist $i > ../DUMP/turc2/$i.txt $nom;
egrep -i "$motif" ../DUMP/turc2/$i.txt > ../CONTEXTES/turc2/$i.txt $nom;
echo "<tr><td><a href=\"$nom\">URL$i</a></td><td><a href=\"../PAGES-ASPIREES/turc2/$i.html\">Page aspirée</a></td><td>\
<a href=\"../DUMP/turc2/$i.txt\">Dump lynx</a></td><td><a href=\"../CONTEXTES/turc2/$i.txt\">Contexte \"feu\"</a></td></tr>" >> $tablo;
let "i+=1" ;
}
#récupération du 3e fichier .txt
echo "Donner le 3e fichier contenant les URLS: ";
read fic3;
echo "<th>Sens 3 (tir)</th>" >> $tablo;
echo "<tr><td>URL</td><td>CONTENU</td><td>DUMP LYNX</td><td>CONTEXTE</td></tr>" >> $tablo;
i=1
for nom in `cat $fic3`
{
wget -O ../PAGES-ASPIREES/turc3/$i.html $nom
lynx -dump -nolist $i > ../DUMP/turc3/$i.txt $nom;
egrep -i "$motif" ../DUMP/turc3/$i.txt > ../CONTEXTES/turc3/$i.txt $nom;
echo "<tr><td><a href=\"$nom\">URL$i</a></td><td><a href=\"../PAGES-ASPIREES/turc3/$i.html\">Page aspirée</a></td><td>\
<a href=\"../DUMP/turc3/$i.txt\">Dump lynx</a></td><td><a href=\"../CONTEXTES/turc3/$i.txt\">Contexte \"feu\"</a></td></tr>" >> $tablo;
let "i+=1" ;
}
#fin du fichier html, on ferme les balises.
echo "</table></body></html>" >> $tablo;
J'espère que ça marchera!