Add another method to prepare the import tables

2024-09-17 15:37:16 +02:00
parent 9c90e5ac07
commit db52c72d22
2 changed files with 112 additions and 16 deletions
--- a/README.md
+++ b/README.md
@@ -1,12 +1,12 @@
 CHILL - Reprise de données
 ==========================

-Ce dépôt contient un script d'import qui s'applique à un canevas excel présenté au client. Le client remplit le fichier excel, puis le script insère les données dans la base de donnée. 
+Ce dépôt contient un script d'import qui s'applique à un canevas excel présenté au client. Le client remplit le fichier excel, puis le script insère les données dans la base de donnée.

-L'opération est semi-automatique et réduit considérablement le temps dédié à l'import en structurant le format des données en entrée. Par contre il y a toujours une série de manipulations, pour préparer et insérer les données correctement. 
+L'opération est semi-automatique et réduit considérablement le temps dédié à l'import en structurant le format des données en entrée. Par contre il y a toujours une série de manipulations, pour préparer et insérer les données correctement.

 Ces manipulations sont décrites ici.
- 
+
 Le client a rempli le canevas. Une relecture du fichier est toujours nécessaire afin de repérer les éventuelles irrégularités.

 ## 1. Préparer les fichiers csv
@@ -14,18 +14,18 @@ Le client a rempli le canevas. Une relecture du fichier est toujours nécessaire
 Le fichier se compose de plusieurs feuilles, chacune doit être sauvée au format csv.

 Pour préparer les fichiers on va:
- nettoyer le fichier pour ne laisser en étiquette que les noms de colonnes en anglais.
- ajouter une colonne de contôle en fin de ligne, par sécurité. Par exemple une colonne 'endcol' qui contient pour chaque cellule 'endrow'.
- ajouter les doublequote lors de la sauvegarde du csv, 
+- nettoyer le fichier pour ne laisser en étiquette que les noms de colonnes en anglais. Il faut donc supprimer les 4 premières lignes de chaque fichier + la 6ème ligne.
+(- ajouter une colonne de contôle en fin de ligne, par sécurité. Par exemple une colonne 'endcol' qui contient pour chaque cellule 'endrow'.)
+- ajouter les doublequote lors de la sauvegarde du csv,
 - enlever tous les line breaks et caractères spéciaux.

 ```bash
 # Exemple de remplacements exécutés sur les fichiers csv pour un import spécifique :
-$ sed -e :1 -e '$q' -e "/$CR\$/b" -e 'N;s/\n//;b1' < file.2.csv > file.3.csv 
+$ sed -e :1 -e '$q' -e "/$CR\$/b" -e 'N;s/\n//;b1' < file.2.csv > file.3.csv
 $ sed -e 's#"end"#"end"\n#g' < file.3.csv > file.4.csv

-# Exemple pour un autre import:  
-$ cat file2.csv | sed -e 'N; s#_x000D_##g; s#\n##g; s/$CR//g' | tr "\n" " " > file3.csv 
+# Exemple pour un autre import:
+$ cat file2.csv | sed -e 'N; s#_x000D_##g; s#\n##g; s/$CR//g' | tr "\n" " " > file3.csv
 $ sed -e 's#"endcol"#"endcol"\n#g; s#"endrow"#"endrow"\n#g' < file3.csv > file4.csv
 $ sed -e 's#^,##g; s#^ ##g' < file4.csv > file5.csv
 ```
@@ -38,14 +38,14 @@ On va insérer chaque feuille csv comme table à part entière d'un nouveau sch
 - import.choix_periodes
 - import.periodes

-Pour réaliser cet import, on peut utiliser des outils tels que `pgfutter`, mais celui-ci peut s'avérer capricieux selon le fichier. 
+Pour réaliser cet import, on peut utiliser des outils tels que `pgfutter`, mais celui-ci peut s'avérer capricieux selon le fichier.
 La meilleure méthode pour moi est de réaliser cette étape en local avec phpstorm, puis d'exporter le schéma `import` avec pg_dump avant de le transférer sur le serveur.

 ### 2.a Manipulations dans phpstorm

 - S'il n'existe pas, créer le schéma `import`; s'il existe, s'assurer qu'il ne contient pas de tables ni de données.
 #### Importer le csv dans la db
- ouvre le fichier csv > passe en onglet text > edit as table > set options: 
+- ouvre le fichier csv > passe en onglet text > edit as table > set options:
  - cocher 'first row is header'
  - 'null value text': undefined (pas de champs null dans la table, mais un texte vide)
  - then > open table
@@ -56,14 +56,31 @@ La meilleure méthode pour moi est de réaliser cette étape en local avec phpst
  - then > import
 #### Exporter en sql
 - créer un fichier `<client>-data.sql` vide
- depuis chaque table du schéma `import`: 
+- depuis chaque table du schéma `import`:
  - copier le DDL de la table dans le fichier (s'assurer d'ajouter le préfixe `import.` sur chaque requête)
-  - export data > extractor: SQL-insert-multirow > copy to clipboard 
+  - export data > extractor: SQL-insert-multirow > copy to clipboard
 - coller les données dans `<client>-data.sql`

+### 2.b Avec des fonctions Postgresql
+
+On peut aussi utiliser la fonction `\copy` de psql pour charger un fichier csv dans les tables temporaires du schéma "import".
+
+Tout d'abord, les tables du schéma "import" doivent être préparées avec le script `prepare-import.sql`.
+
+Puis on importe les 4 fichiers csv.
+
+```bash
+psql chill-import
+chill-import=# \copy "import".choix_personnes FROM 'choix_personnes.csv' DELIMITER ',' CSV HEADER
+chill-import=# \copy "import".personnes FROM 'personnes.csv' DELIMITER ',' CSV HEADER
+chill-import=# \copy "import".choix_periodes FROM 'choix_periodes.csv' DELIMITER ',' CSV HEADER
+chill-import=# \copy "import".periodes FROM 'periodes.csv' DELIMITER ',' CSV HEADER
+```
+
+
 ## 3. Import du schéma 'import' sur le serveur (safran)

- transférer le fichier `<client>-data.sql` sur le serveur (avec scp): 
+- transférer le fichier `<client>-data.sql` sur le serveur (avec scp):
 ```bash
 $ scp cyclo-data.sql debian@safran:~/data/tmp/
 ```
@@ -91,7 +108,7 @@ cycloprod=# \i '/home/debian/data/tmp/cyclo-data.sql'
 -- vérifier que le schéma import est en place
 cycloprod=# \dt import.*
              List of relations
- Schema |      Name       | Type  |  Owner   
+ Schema |      Name       | Type  |  Owner
 --------+-----------------+-------+----------
 import | choix_periodes  | table | postgres
 import | choix_personnes | table | postgres
@@ -100,7 +117,7 @@ cycloprod=# \dt import.*
 (4 rows)
 ```

-## 4. Exécution du script de migration 
+## 4. Exécution du script de migration

 Se fait dans la console postgresql, en tant que user postgres, en étant connecté à la base de donnée cible.