Numérisation des registres : Différence entre versions

De WikiGenWeb
Aller à : navigation, rechercher
(Page créée avec « D'après une idée lancée par Loic Chagnoux - avril 2005 Quelles sont les avantages à la numérisation des registres généalogiques ? *rapporter à la maison plus d... »)
 
m (mise en page)
Ligne 6 : Ligne 6 :
 
*permettre le dépouillement gratuit à distance
 
*permettre le dépouillement gratuit à distance
 
Le cas des Archives Départementales de la Mayenne reste une exception    et il paraît lourd de créer un serveur pour héberger les    numérisations.  
 
Le cas des Archives Départementales de la Mayenne reste une exception    et il paraît lourd de créer un serveur pour héberger les    numérisations.  
;Proposition : diffuser en P2P les fichiers de numérisation    des registres http://fr.wikipedia.org/wiki/P2p     L'intérêt d'une telle pratique est de diffuser, sans    dépense, des numérisations.  
+
;Proposition : diffuser en P2P les fichiers de numérisation    des registres http://fr.wikipedia.org/wiki/P2p  
 +
 
 +
L'intérêt d'une telle pratique est de diffuser, sans    dépense, des numérisations.  
 +
 
 
==Comment ca fonctionne ? ==
 
==Comment ca fonctionne ? ==
 
Considérons un numérisateur = un généalogiste qui    numérise les registres.  Si on suppose un numérisateur par commune (sans doute le cas général),    les fichiers à télécharger sont uniquement sur son PC.    Il est aussi possible de disséminer sur plusieurs PC pour avoir par exemple    un accès plus rapide ou des sauvegardes.
 
Considérons un numérisateur = un généalogiste qui    numérise les registres.  Si on suppose un numérisateur par commune (sans doute le cas général),    les fichiers à télécharger sont uniquement sur son PC.    Il est aussi possible de disséminer sur plusieurs PC pour avoir par exemple    un accès plus rapide ou des sauvegardes.
 +
 
Un fichier de même contenu peut avoir plusieurs noms différents    en P2P, les serveur le reconnaissent comme unique et télécharge    avec les différentes sources.  Ensuite, il suffit de mettre sur nos sites des listes de liens e2k:// ou torrent    qui permettront de ne pas se faire intoxiquer par de faux fichiers.
 
Un fichier de même contenu peut avoir plusieurs noms différents    en P2P, les serveur le reconnaissent comme unique et télécharge    avec les différentes sources.  Ensuite, il suffit de mettre sur nos sites des listes de liens e2k:// ou torrent    qui permettront de ne pas se faire intoxiquer par de faux fichiers.
 +
 
==Méthode de compression des fichiers ==
 
==Méthode de compression des fichiers ==
;7-ZIP libre répandu. Pas trop compliqué. http://www.7-zip.org/fr/  (installation en anglais et choisir la langue une fois lancé). (format    de compression le plus répandu est ZIP)
+
;7-ZIP: libre répandu. Pas trop compliqué. http://www.7-zip.org/fr/  (installation en anglais et choisir la langue une fois lancé). (format    de compression le plus répandu est ZIP)
 
;TAR.GZ : standard libre répandu. Est utilisé sans même    le savoir.
 
;TAR.GZ : standard libre répandu. Est utilisé sans même    le savoir.
;RAR : efficace pour récupérer les fichiers même si l'intégralité    du fichier n'est pas encore transmise (qui est le principal défaut de    zip).    Problème : le logiciel encodeur est censé payer des royalties.   
+
;RAR : efficace pour récupérer les fichiers même si l'intégralité    du fichier n'est pas encore transmise (qui est le principal défaut de    zip).    Problème : le logiciel encodeur est censé payer des royalties.  
 +
   
 
Autres formats de compression moins utilisés : formats propriétaires    (ARJ, CAB, LZH, 7Z), formats anciens ( Z ancien, BZ2 récent), formats    spécialisés (DEB, RPM, MP3, JPG, ...)
 
Autres formats de compression moins utilisés : formats propriétaires    (ARJ, CAB, LZH, 7Z), formats anciens ( Z ancien, BZ2 récent), formats    spécialisés (DEB, RPM, MP3, JPG, ...)
;Pourquoi compresser : En fait, le programme de compression sert essentiellement    à créer un fichier archive réunissant un ensemble de fichiers    de clichés généralement en format compressé JPG.    Le gain de taille apporté par la compression est faible. L'avantage de    la compression est essentiellement dans la gestion, puisqu'ainsi on télécharge    un registre ou un ensemble de registres, et non pas une liste de pages.
+
 
 +
;Pourquoi compresser : En fait, le programme de compression sert essentiellement    à créer un fichier archive réunissant un ensemble de fichiers    de clichés généralement en format compressé JPG.    Le gain de taille apporté par la compression est faible.  
 +
 
 +
L'avantage de    la compression est essentiellement dans la gestion, puisqu'ainsi on télécharge    un registre ou un ensemble de registres, et non pas une liste de pages.
 +
 
 
==Nomenclature (nom des fichiers) ==
 
==Nomenclature (nom des fichiers) ==
 
INSEE_Début-Fin_Type_Source_Numérisateur_Certificateur.rar  
 
INSEE_Début-Fin_Type_Source_Numérisateur_Certificateur.rar  
 
<br />INSEE_début-fin_type_source_initiales_verificateur.rar  
 
<br />INSEE_début-fin_type_source_initiales_verificateur.rar  
 
<br />Exemple : registres BMS 1617-1668 de Beaumont du Gâtinais photographié    en mairie par Loïc Chagnoux, et certifié par Registres45 : 77027_1617-1668_BMS_AC_LCh_Reg45.rar  <br />Il me semble important de les regrouper par registres pour éviter d'avoir    une myriade de petits fichiers.
 
<br />Exemple : registres BMS 1617-1668 de Beaumont du Gâtinais photographié    en mairie par Loïc Chagnoux, et certifié par Registres45 : 77027_1617-1668_BMS_AC_LCh_Reg45.rar  <br />Il me semble important de les regrouper par registres pour éviter d'avoir    une myriade de petits fichiers.
 +
 
Pays  INSEE  début-fin  type  source  initiales du numérisateur  verification
 
Pays  INSEE  début-fin  type  source  initiales du numérisateur  verification
 
En P2P, quand on est contre le partage et qu'on veut mettre des batons dans    les roues, il suffit de créer de faux fichiers avec des noms trompeurs    (actuellement utilisé contre le téléchargement de films).  Rappelons que ces partages généalogiques sont légaux !
 
En P2P, quand on est contre le partage et qu'on veut mettre des batons dans    les roues, il suffit de créer de faux fichiers avec des noms trompeurs    (actuellement utilisé contre le téléchargement de films).  Rappelons que ces partages généalogiques sont légaux !
 +
 
La certification sert à valider l'origine du fichier. Si vous voyez    dans un fichier "certifié Registres18", vous allez voir sur    registres18 si c'est vrai. Ca peut suffire comme certification.
 
La certification sert à valider l'origine du fichier. Si vous voyez    dans un fichier "certifié Registres18", vous allez voir sur    registres18 si c'est vrai. Ca peut suffire comme certification.
 +
 
Mettre les commentaires (pages ou années manquantes) et quelques sites    recommandés dans un fichier d'accompagnement .txt qui présente    l'initiative à la source du fichier.
 
Mettre les commentaires (pages ou années manquantes) et quelques sites    recommandés dans un fichier d'accompagnement .txt qui présente    l'initiative à la source du fichier.
 +
 
==Avantage par rapport à une base nationale==  
 
==Avantage par rapport à une base nationale==  
 
Les possibilité du P2P sont immenses et nous garde à l'écart    des centralisations parfois sclérosantes. Un peu de normalisation devrait    suffire.
 
Les possibilité du P2P sont immenses et nous garde à l'écart    des centralisations parfois sclérosantes. Un peu de normalisation devrait    suffire.
Une base nationale comme Généactes était super du temps    de l'html, mais en 10minutes, avec une simple macro php (rélisée    en 30 mn), il est possible de récupérer intégralement un    dépouillement généactes sous le format xls.   Des généalogistes échaudés par une récupération    de leur travail sans leur accord et à des fins marchandes refusent une    telle possibilité et préfèrent un petit chez soi qu'un    grand chez les autres. De plus la masse d'actes numérisés est    en augmentation rapide, et cela oblige à étudier des méthodes    adaptées à cette masse.
+
 
 +
Une base nationale comme Généactes était super du temps    de l'html, mais en 10minutes, avec une simple macro php (rélisée    en 30 mn), il est possible de récupérer intégralement un    dépouillement généactes sous le format xls.  
 +
 
 +
Des généalogistes échaudés par une récupération    de leur travail sans leur accord et à des fins marchandes refusent une    telle possibilité et préfèrent un petit chez soi qu'un    grand chez les autres. De plus la masse d'actes numérisés est    en augmentation rapide, et cela oblige à étudier des méthodes    adaptées à cette masse.
 +
 
 
;Exemple de système imparfait : http://vullin.free.fr/r18/suryenvaux/index.php    qui permet au visteur de consulter librement (quand on autorise les pop-up),    et rend irréaliste une aspiration du site (au moins deux mois pour ressortir    le fichier xls).
 
;Exemple de système imparfait : http://vullin.free.fr/r18/suryenvaux/index.php    qui permet au visteur de consulter librement (quand on autorise les pop-up),    et rend irréaliste une aspiration du site (au moins deux mois pour ressortir    le fichier xls).
 +
 
Pour ordre de grandeur, Marne-Archives + Registres18, c'est plus de 1 000 000    d'actes en accès libre réalisées en 2 années. La    marne a fait 480'000 actes en un an.! En matière d'efficacité,    c'est stupéfiant.  
 
Pour ordre de grandeur, Marne-Archives + Registres18, c'est plus de 1 000 000    d'actes en accès libre réalisées en 2 années. La    marne a fait 480'000 actes en un an.! En matière d'efficacité,    c'est stupéfiant.  
 
Il parait difficile de centraliser les actions sur 36'000 communes autrement    qu'en décentralisant la gestion.
 
Il parait difficile de centraliser les actions sur 36'000 communes autrement    qu'en décentralisant la gestion.
 
==Objections ==
 
==Objections ==
 
Il est difficile d'utiliser le P2P : Non, c'est facile, il suffit de lancer    un programme.    Oui, c'est difficile, il vaut mieux avoir un firewall bien configuré.    Sous linux il faut avoir certains packages à jour, il faut avoir une    liste de serveurs server.met utilisable.
 
Il est difficile d'utiliser le P2P : Non, c'est facile, il suffit de lancer    un programme.    Oui, c'est difficile, il vaut mieux avoir un firewall bien configuré.    Sous linux il faut avoir certains packages à jour, il faut avoir une    liste de serveurs server.met utilisable.
Il faut que le PC où se trouve les fichiers à télécharger    soit connecté sur le réseau en quasi permanence.  Oui mais en fait l'index des fichiers est distribués. A tout moment on    peut donc savoir ce qu'il y a et où.   Ensuite quand l'on veut vraiment télécharger le fichier, il faut    alors laisser son PC allumer suffisamment longtemps pour que le serveur du fichier    le soit aussi. C'est pour cela que le p2p actuel est long. Il faut que les 2    machines soient allumées longtemps.    Il est vrai que cela peut se faire uniquement pour ceux qui sont en connexion    illimitées.  Mais l'objectif n'est pas d'offrir un service universel mais de mettre pour    ceux qui le souhaitent et le peuvent, gratuitement à disposition des    fichiers d'une façon simple.
+
 
Il y a un problème d'espace!    En effet il est très rare de voir "M tout le monde" laisser    son micro ouvert en permanence et le laisser ouvert aux entrées extérieures    même avec un micro dédié à cet usage.    Ensuite il y aurait le problème de la bande passante qui chez certains    FAI est limitée donc attention aux surcoûts.    L'espace n'est plus un problème en P2P. Les PC peuvent être éteints,    le téléchargement ira chercher des petits morceaux chez tous les    gens qui téléchargent quand ils seront en ligne.   Pas besoin d'hébergeur pour du P2P. Les photos de très bonne qualité    pèse entre 300 et 600ko par page. Au delà, c'est inutile. Une    commune comme de 1500habitants fera 7Go pour les BMS 1601-1900.
+
Il faut que le PC où se trouve les fichiers à télécharger    soit connecté sur le réseau en quasi permanence.  Oui mais en fait l'index des fichiers est distribués. A tout moment on    peut donc savoir ce qu'il y a et où.  
 +
 
 +
Ensuite quand l'on veut vraiment télécharger le fichier, il faut    alors laisser son PC allumer suffisamment longtemps pour que le serveur du fichier    le soit aussi. C'est pour cela que le p2p actuel est long. Il faut que les 2    machines soient allumées longtemps.    Il est vrai que cela peut se faire uniquement pour ceux qui sont en connexion    illimitées.  Mais l'objectif n'est pas d'offrir un service universel mais de mettre pour    ceux qui le souhaitent et le peuvent, gratuitement à disposition des    fichiers d'une façon simple.
 +
 
 +
Il y a un problème d'espace!    En effet il est très rare de voir "M tout le monde" laisser    son micro ouvert en permanence et le laisser ouvert aux entrées extérieures    même avec un micro dédié à cet usage.    Ensuite il y aurait le problème de la bande passante qui chez certains    FAI est limitée donc attention aux surcoûts.    L'espace n'est plus un problème en P2P. Les PC peuvent être éteints,    le téléchargement ira chercher des petits morceaux chez tous les    gens qui téléchargent quand ils seront en ligne.  
 +
 
 +
Pas besoin d'hébergeur pour du P2P. Les photos de très bonne qualité    pèse entre 300 et 600ko par page. Au delà, c'est inutile. Une    commune comme de 1500habitants fera 7Go pour les BMS 1601-1900.

Version du 4 avril 2011 à 19:21

D'après une idée lancée par Loic Chagnoux - avril 2005 Quelles sont les avantages à la numérisation des registres généalogiques  ?

  • rapporter à la maison plus d'informations que je ne peux en utiliser sur place
  • éviter de consulter les registres de nombreuses fois
  • donner aux autres une copie d'un acte
  • permettre le dépouillement gratuit à distance

Le cas des Archives Départementales de la Mayenne reste une exception et il paraît lourd de créer un serveur pour héberger les numérisations.

Proposition 
diffuser en P2P les fichiers de numérisation des registres http://fr.wikipedia.org/wiki/P2p

L'intérêt d'une telle pratique est de diffuser, sans dépense, des numérisations.

Comment ca fonctionne ?

Considérons un numérisateur = un généalogiste qui numérise les registres. Si on suppose un numérisateur par commune (sans doute le cas général), les fichiers à télécharger sont uniquement sur son PC. Il est aussi possible de disséminer sur plusieurs PC pour avoir par exemple un accès plus rapide ou des sauvegardes.

Un fichier de même contenu peut avoir plusieurs noms différents en P2P, les serveur le reconnaissent comme unique et télécharge avec les différentes sources. Ensuite, il suffit de mettre sur nos sites des listes de liens e2k:// ou torrent qui permettront de ne pas se faire intoxiquer par de faux fichiers.

Méthode de compression des fichiers

7-ZIP
libre répandu. Pas trop compliqué. http://www.7-zip.org/fr/ (installation en anglais et choisir la langue une fois lancé). (format de compression le plus répandu est ZIP)
TAR.GZ 
standard libre répandu. Est utilisé sans même le savoir.
RAR 
efficace pour récupérer les fichiers même si l'intégralité du fichier n'est pas encore transmise (qui est le principal défaut de zip). Problème : le logiciel encodeur est censé payer des royalties.

Autres formats de compression moins utilisés : formats propriétaires (ARJ, CAB, LZH, 7Z), formats anciens ( Z ancien, BZ2 récent), formats spécialisés (DEB, RPM, MP3, JPG, ...)

Pourquoi compresser 
En fait, le programme de compression sert essentiellement à créer un fichier archive réunissant un ensemble de fichiers de clichés généralement en format compressé JPG. Le gain de taille apporté par la compression est faible.

L'avantage de la compression est essentiellement dans la gestion, puisqu'ainsi on télécharge un registre ou un ensemble de registres, et non pas une liste de pages.

Nomenclature (nom des fichiers)

INSEE_Début-Fin_Type_Source_Numérisateur_Certificateur.rar
INSEE_début-fin_type_source_initiales_verificateur.rar
Exemple : registres BMS 1617-1668 de Beaumont du Gâtinais photographié en mairie par Loïc Chagnoux, et certifié par Registres45 : 77027_1617-1668_BMS_AC_LCh_Reg45.rar
Il me semble important de les regrouper par registres pour éviter d'avoir une myriade de petits fichiers.

Pays INSEE début-fin type source initiales du numérisateur verification En P2P, quand on est contre le partage et qu'on veut mettre des batons dans les roues, il suffit de créer de faux fichiers avec des noms trompeurs (actuellement utilisé contre le téléchargement de films). Rappelons que ces partages généalogiques sont légaux !

La certification sert à valider l'origine du fichier. Si vous voyez dans un fichier "certifié Registres18", vous allez voir sur registres18 si c'est vrai. Ca peut suffire comme certification.

Mettre les commentaires (pages ou années manquantes) et quelques sites recommandés dans un fichier d'accompagnement .txt qui présente l'initiative à la source du fichier.

Avantage par rapport à une base nationale

Les possibilité du P2P sont immenses et nous garde à l'écart des centralisations parfois sclérosantes. Un peu de normalisation devrait suffire.

Une base nationale comme Généactes était super du temps de l'html, mais en 10minutes, avec une simple macro php (rélisée en 30 mn), il est possible de récupérer intégralement un dépouillement généactes sous le format xls.

Des généalogistes échaudés par une récupération de leur travail sans leur accord et à des fins marchandes refusent une telle possibilité et préfèrent un petit chez soi qu'un grand chez les autres. De plus la masse d'actes numérisés est en augmentation rapide, et cela oblige à étudier des méthodes adaptées à cette masse.

Exemple de système imparfait 
http://vullin.free.fr/r18/suryenvaux/index.php qui permet au visteur de consulter librement (quand on autorise les pop-up), et rend irréaliste une aspiration du site (au moins deux mois pour ressortir le fichier xls).

Pour ordre de grandeur, Marne-Archives + Registres18, c'est plus de 1 000 000 d'actes en accès libre réalisées en 2 années. La marne a fait 480'000 actes en un an.! En matière d'efficacité, c'est stupéfiant. Il parait difficile de centraliser les actions sur 36'000 communes autrement qu'en décentralisant la gestion.

Objections

Il est difficile d'utiliser le P2P : Non, c'est facile, il suffit de lancer un programme. Oui, c'est difficile, il vaut mieux avoir un firewall bien configuré. Sous linux il faut avoir certains packages à jour, il faut avoir une liste de serveurs server.met utilisable.

Il faut que le PC où se trouve les fichiers à télécharger soit connecté sur le réseau en quasi permanence. Oui mais en fait l'index des fichiers est distribués. A tout moment on peut donc savoir ce qu'il y a et où.

Ensuite quand l'on veut vraiment télécharger le fichier, il faut alors laisser son PC allumer suffisamment longtemps pour que le serveur du fichier le soit aussi. C'est pour cela que le p2p actuel est long. Il faut que les 2 machines soient allumées longtemps. Il est vrai que cela peut se faire uniquement pour ceux qui sont en connexion illimitées. Mais l'objectif n'est pas d'offrir un service universel mais de mettre pour ceux qui le souhaitent et le peuvent, gratuitement à disposition des fichiers d'une façon simple.

Il y a un problème d'espace! En effet il est très rare de voir "M tout le monde" laisser son micro ouvert en permanence et le laisser ouvert aux entrées extérieures même avec un micro dédié à cet usage. Ensuite il y aurait le problème de la bande passante qui chez certains FAI est limitée donc attention aux surcoûts. L'espace n'est plus un problème en P2P. Les PC peuvent être éteints, le téléchargement ira chercher des petits morceaux chez tous les gens qui téléchargent quand ils seront en ligne.

Pas besoin d'hébergeur pour du P2P. Les photos de très bonne qualité pèse entre 300 et 600ko par page. Au delà, c'est inutile. Une commune comme de 1500habitants fera 7Go pour les BMS 1601-1900.