|
||
---|---|---|
.idea | ||
old | ||
.env.dist | ||
.gitignore | ||
0_list_archives.js | ||
1_download_archives.js | ||
README.md | ||
docker-node.sh | ||
package-lock.json | ||
package.json | ||
parse.bash | ||
parsed_to_csv.js |
README.md
Récupération logs sur OVH archive
- Préparer les clés d'api avec https://eu.api.ovh.com/createApp/ (si on utilise l'europe) et introduire ces clés dans un fichier .env (copier .env.dist).
- exécuter
node 0_list_archives.js
pour récuperer tous les liens d'accès dans un fichier (archive.txt, dans .env.dist); - executer
node 1_dowload_archives.js
pour télécharger
⚠️ ce script n'est pas parfait. Des fichiers corrompus sont téléchargés... Du coup, il faut les télécharger avec d'autre outils (wget ?). Voir ci-dessous.
Une amélioration pourrait être d'écrire un script bash pour tout télécharger, sans async...
- exécuter
bash parse.bash
pour isoler. Il faut modifier l'id du parcours à l'intérieur du fichier - exécuter
node parsed_to_csv.js
pour transformer en csv - dans le csv, il faut encore supprimer certains parcours non concernés.
Etat: des fichiers sont corrompus au téléchargement
pour les récupérer:
# on exécute et on prend les logs dans un fichier
node 2_parse.js 2&> parsing
# on récupère seulement les fichier en erreur
grep error parsing > parsing_error
# et juste le fichier
awk '{ print $5 }' parsing_error > file_in_error
# on cherche la ligne dans le fichier archives.txt
while read CMD; do
grep $CMD data/archives.txt >> archive_line
done < file_in_error
# on a donc les url de téléchargement
while read L; do wget $(echo $L | jq -r .url); done < archive_line