mercredi 3 juillet 2013

L'archivage électronique : versement, conservation et durabilité au service de l'accès

Après plusieurs mois d'études et d'expérimentations, qui seront très certainement rendues publiques prochainement, je souhaitais faire un petit retour sur certains éléments relatifs à la conception d'une solution d'archivage électronique.
Ce billet se découpera en 4 parties : versement, conservation, durabilité et accès.
Il abordera comment nous voyions une solution d'archivage électronique durable et efficace, en mettant en parallèle les concepts archivistiques avec les moyens technologiques pour parvenir à y répondre. Si l'approche est par nature technique (votre serviteur est un informaticien), elle tente de répondre aux besoins exprimés par les archivistes.

 

Versement

S'agissant du versement, à l'instar des versements dans des cartons des archives papiers, le versement des archives numériques s'effectueront par lot. Le format global du versement est vérifié (nombre de fichiers, empreintes associées, contrat de versement, ...), tout comme pour le papier il est vérifié (nature du versement, dimensions et nombres, contrat associé au versement). Mais là va s'arrêter la comparaison. 
Cette première partie des traitements à réception recouvre les concepts développés dans la norme NF Z 44-022 qui sera prochainement publiée.

En effet, pour les archives numériques, l'informatique va permettre d'aller plus loin, au niveau unitaire de chaque document, les métadonnées étant non plus au niveau d'un versement, mais par document (avec des points communs bien sûr qui ne seront pas dupliqués).
Je ne détaillerais pas l'ensemble des opérations, mais une fois que le contrat de versement est validé, que les documents fournis le sont aussi (nombre et empreinte a minima), l'informatique suppose d'aller plus loin :
  • Sécurité des objets numériques fournis : antivirus, macro, ...
  • Vérification des formats unitaires : sont-ils conformes au contrat (le versement prévoie des fichiers Word, pas des tableurs Excel, ...), doivent-ils faire l'objet d'une première transformation (par exemple Word vers PDF/A) ?
  • Extraction de métadonnées techniques (format, taille, empreinte et horodatage, ...)
  • Potentiellement la recherche de doublons (fichier déjà versé auparavant)
  • Extraction le cas échéant de métadonnées descriptives (auteur, mots clefs, voire extraction du texte pour des besoins de recherches plein-texte, ...)
  • Extraction des plans de classement (potentiellement plusieurs pour répondre aux besoins métiers - potentiellement multiples - et aux plans de classement des archivistes - en général 1 seul -)
  • Vérification de conformité (techniques, métiers, archivistiques) du versement
  • Préparation des formats finaux de versement internes (AIP en OAIS), comprenant :
    • Document numérique original
    • Document numérique adapté à la conservation
    • Document numérique adapté à la consultation
    • Document numérique original anonymisé et ses versions de conservation et de consultation
    • Métadonnées descriptives, incluant le ou les plans de classement
    • Métadonnées archivistiques
    • Métadonnées techniques
Une fois l'AIP préparé, il peut alors être versé dans un container dédié à la conservation. Un point important à noter, les métadonnées (descriptives, archivistiques et techniques) sont elles aussi ainsi sécurisées. Elles feront aussi l'objet d'une copie dans un système de base de données, afin de permettre les requêtes sur celles-ci.
Ce n'est qu'une fois toutes ces opérations effectuées (la liste présentée est non exhaustive, et doit pouvoir être adaptable à chaque contrat, sur un modèle programmé), le service versant et d'autres partenaires associés par contrat sont alors prévenus de la validation du versement.
A noter que ce processus peut être de totalement automatisé à totalement manuel, avec toutes les subtilités possibles au milieu, et ce pour permettre de traiter tout aussi bien les versements réguliers et récurrents (donc très normés) et les autres plus épisodiques voire même "non structurés".

Conservation

La conservation, tout comme pour le papier, suppose d'utiliser des entrepôts fiables et sécurisés. En informatique, la sécurité s'effectue à différents niveaux :
  • la duplication : elle assure que si une copie est détruite accidentellement, une autre demeure toujours. 
    • Compte tenu du nombre potentiel d'objets numériques à stocker (plusieurs centaines de milliards), il est impossible (à ce jour) d'envisager un système basé sur une sauvegarde classique (en raison des délais induits quotidiennement). Aussi une réplication des données numériques est indispensable.
    • Mais la réplication ne doit pas être physique (ou en tout cas pas uniquement) car elle entraîne un risque trop important de propagation d'erreurs (humaines ou techniques).
    • La solution d'archivage doit pouvoir contrôler cette réplication (si elle ne la fait pas elle-même).
    • Pour des raisons de risques induits, au moins 3 sites distincts sont nécessaires. En effet, en cas de sinistre d'un site, la reconstruction de celui-ci sera très longue (en raison de la volumétrie). En conséquence, durant cette reconstruction, tout incident, même mineur, sur le second site pourrait entraîner une perte définitive des données. En conséquence, 3 sites sont nécessaires pour assurer non pas le Plan de Reprise d'Activité (2 sites suffisent) mais le Plan de Continuité d'Activité (ce que la sauvegarde couvre usuellement).
    • Enfin, afin d'éviter tous risques de propagation d'un incident technique (comme un virus), au moins deux technologies différentes doivent être utilisées, dont si possible au moins une asynchrone.
  • la fiabilité : elle assure que la copie est conforme et stable.
    • En priorité, une empreinte au niveau de la brique d'archivage permet de s'assurer que le fichier rendu par le stockage est conforme par un nouveau calcul de l'empreinte.
    • Il peut s'agir d'une empreinte au niveau du stockage, ou de tout autre moyen nativement utilisé par le stockage. En général, cette vérification ne s'effectue pas au niveau du fichier mais du média. Ainsi les supports disques utilisent par exemple le RAID 5, les bandes une piste de contrôle, les blu-ray des bits de contrôle.
    • L'offre de stockage a la responsabilité du média. Elle doit assurer le changement de support dans le temps, que ce soit pour des raisons de fiabilité du support ou pour des raisons d'obsolescence d'une technologie.
    • Cependant, la solution d'archivage doit aussi pouvoir piloter un changement majeur d'offres de stockage (lecture depuis l'ancienne offre, écriture dans la nouvelle, puis destruction dans l'ancienne). A ce titre, la solution d'archivage se doit de pouvoir avoir de multiples offres de stockage de manière concurrentes. Elle le doit aussi pour permettre le cas échéant des niveaux de qualité de service différents (voir Accès).
  • la sécurité des accès : elle assure que les données ne seront accédées que par ceux qui ont le droit d'en connaître.
    • Ce point est à traiter a priori à 3 endroits : 
      • Côté authentification et habilitation de l'utilisateur final : sur la base de ses droits, seuls les données valides seront disponibles, modulo le droit de demander des dérogations.
      • Côté solution d'archivage : seule la solution doit pouvoir accéder à l'offre de stockage, puisqu'elle est garante des droits d'accès (en direct ou en indirect selon le mode opératoire).
      • Côté offre de stockage : l'offre de stockage n'a pas à connaître l'utilisateur final, mais elle doit connaître la solution d'archivage et, selon différents moyens, protéger l'accès aux données via un encryptage des données, que seule la solution d'archivage connaît. Elle doit aussi assurer que le vol de médias ne permettra pas d'accéder aux données nativement.
    • Néanmoins, ces principes, et notamment côté stockage, sont à prendre avec toutes les précautions nécessaires car, en cas de sinistre côté solution d'archivage, il doit être possible de récupérer les archives conservées avec une méthode propre et efficace. L'une des conditions est l'assurance de disposer des clefs de cryptage dans un endroit sécurisé pour permettre l'accès en mode PRA (Plan de Reprise d'Activité).
La conservation fait donc intervenir deux acteurs, l'offre de stockage (au sens de la NF Z 42-020) et la solution d'archivage électronique (au sens de la NF Z 42-013).

Durabilité

La conservation toute seule ne suffit pas. Il fait aussi intégrer les principes de préservation, et ce à tous les niveaux.
  • Au niveau des documents
    • Il s'agit ici du plus évident, à savoir la capacité à maintenir un format intelligible de la donnée numérique. Ce format évoluera dans le temps, en aucun cas le PDF/A ne sera LA solution. D'une part parce qu'elle ne couvre pas les formats non documentaires, mais aussi parce que ce format dans 10 ou 20 ans sera à son tour obsolète.
    • Les métadonnées techniques permettront de déterminer les données numériques à convertir (via l'information de format notamment).
    • Ces opérations sont sensibles et demandent d'être validées dans un premier temps sur un jeu de tests, avant d'être généralisées. De plus, même avec la généralisation, des contrôles par échantillonnage seront nécessaires.
    • C'est pour cette raison qu'il faudra conserver la version N-1 en plus de la version N, a minima, ceci afin de parer à des défauts de conversion détectés tardivement. La version 1 sera elle conservée pour des raisons "légales" (l'original), lorsque cela est nécessaire.
  • Au niveau des médias
    • Le changement des supports, soit pour des raisons de stabilités du support, soit pour des raisons d'obsolescence technologique, doit être intégré dans la solution. 
    • A priori, ceci devrait être à la charge de l'offre de stockage. 
    • Cependant, dans des cas complexes, notamment de changement majeur de technologie, la solution d'archivage devra prendre le contrôle des opérations.
  • Au niveau des composants de l'application
    • Au même titre que les archives elles-mêmes, les composants de l'application (composants matériels et logiciels) doivent pouvoir évoluer eux-aussi. 
    • Par exemple les modules de transcodification de formats (Word à PDF/A par exemple) doivent pouvoir évoluer au rythme des évolutions technologiques. 
    • Mais ce point doit être généralisé à l'ensemble des composants. 
    • Pour arriver à cette capacité, un modèle de couplage faible est impératif, interdisant de fait l'usage de solution propriétaire. En effet, une solution non ouverte impliquerait une adhérence trop forte à un composant, relevant le risque d'obsolescence à un niveau inacceptable.
    • Les modules applicatifs à codes ouverts ("Open Source") permettent de mitiger ce risque, en offrant d'une par une capacité d'adaptation aisée dans le temps, mais également la capacité de maintenir un module même en cas de défaut des concepteurs initiaux. A l'inverse, un code propriétaire exclue toute possibilité d'adaptation (hormis via les propriétaires) et présente un risque si cette souche venait à disparaitre.
  • Au niveau des contrats d'archivage
    • Un contrat doit pouvoir évoluer, tant pour les versements que pour les accès, mais également pour les opérations liées à la pérennisation.
    • La solution doit donc permettre cette évolution dans le temps, en fonction des besoins et contraintes du moment.

Accès

Toutes ces étapes ont un objectif commun : permettre l'accès, à qui a droit d'en connaître, aux archives. Une archive n'a de valeur que si elle peut être accédée et exploitée.

La qualité des processus de versements assurent la qualité des objets numériques initiaux mais surtout des métadonnées associées. Les métadonnées sont au cœur de la qualité des archives. Sans celles-ci, les objets numériques ne seraient que des trains de bits sans intérêts. Le versement assure ainsi la compréhension des archives conservées.

La conservation, avec la durabilité, des objets numériques doit permettre un accès à des données fiables et intelligibles (lisibles). 
Mais une solution d'archivage devrait aussi rendre facile l'accès aux données numériques, par le jeu de formats adaptés à la consultation (via la réduction des images, des formats adaptés à la transmission en mode flux - streaming -, des formats lisibles dans un navigateur). 
Elle doit aussi permettre d'avoir des vues différentes selon les droits d'en connaître (anonymisé et complète par exemple), ceci afin d'une part de répondre aux exigences de la loi, mais aussi aux besoins métiers.
Elle doit permettre de proposer des niveaux de service différents selon les contrats associés. Ainsi pour des archives dont l'accès rapide est justifié, celles-ci pourront bénéficier d'offres de stockage rapide (et donc chères), tout en bénéficiant aussi des offres de stockage plus lentes mais servant à la sécurité (voir duplication dans Conservation).

La sécurité est bien sûr un élément important, et le module d'accès est tout particulièrement sensible par nature. Il convient donc de permettre à la fois une interconnexion facilitée avec des applications métiers frontales, tout en assurant une sécurité d'un niveau très élevée pour éviter les fuites ou erreurs de traitements.


Enfin, compte-tenu que la croissance des données numériques est exponentielle, et qu'il est donc impossible de prévoir avec certitude et précision à l'avance les besoins dans 10 ans, il faut que la solution soit conçue selon un modèle de scalabilité horizontale, c'est à dire de croissance en fonction du besoin. D'une part cela permet de n'investir que ce dont nous avons besoin (ce qui à notre époque est une obligation), mais aussi d'autre part, cela permet de pouvoir croitre et proposer de nouveaux services au fur et à mesure que les besoins apparaissent, c'est à dire de pouvoir s'adapter à la demande.

NB : Suite aux commentaires de Janus, un nouveau billet vient compléter celui-ci.
http://archiverleternite.blogspot.com/2013/07/complement-sur-les-4-notions-de.html

2 commentaires:

  1. Cher Frédéric,
    Merci pour cette excellente synthèse, qui explicite bien les soucis de l’informaticien pour répondre aux desiderata des archivistes dans le cadre de l’archivage électronique. Quelques remarques cependant.

    Par rapport à la globalité du processus, le numérique nous oblige à penser en amont (ce que les archivistes concernés revendiquent depuis longtemps). Par conséquent je pense qu’il faut ajouter et formaliser une phase préalable, avant le versement (je suis en plein là-dedans pour déterminer par exemple quelle volumétrie et quel rythme de versement devront avoir les paquets d’information à déverser dans le SAE de nos archives historiques). Quand ce processus sera mieux normalisé, nous pourrons peut-être réduire cette phase à minima, mais pour l’instant nous devrons effectuer cette analyse à chaque fois.

    Au chapitre du versement, il est vrai que la granularité (et les métadonnées associées) est souvent au niveau du document mais parfois aussi au niveau du dossier. Par contre il serait effectivement stupide de ne pas reprendre les métadonnées au niveau du document si elles sont présentes et récupérables à moindre coût. L’opération de première transformation (mise en conformité vers des formats plus pérennes) doit s’effectuer au plus tard lors du versement mais là aussi il serait souhaitable qu’elle intervienne en amont (d’où l’importance de développer la réflexion sur la phase pré-versement).

    A propos de la conservation, j’ai apprécié ton argumentaire pour les trois sites distincts.

    Même remarque à propos de la sécurité, la distinction des trois couches authentification/archivage/stockage est très pertinente mais demandera un développement que je me réjouis de découvrir dans les publications à venir.
    Ai-je bien compris que le PRA dont tu parles est le Plan de Reprise d’Activité ?

    Sur la durabilité au niveau des médias il me semblerait judicieux d’être un peu plus précis et complet entre les offres d’archivage et les offres de stockage. C’est une précision qui aurait peut-être clarifié notre précédent débat sur le cloud.

    Pour le chapitre de l’accès rien à dire si ce n’est que la bascule entre les formats de conservation et les formats de communication pourrait ne pas être triviale dans certains cas (CAO, SIG, etc.).

    RépondreSupprimer
    Réponses
    1. Merci Janus pour tes commentaires !
      Je viens de publier un billet de plus pour essayer de t'apporter quelques précisions...
      Toujours un vrai plaisir d'échanger !

      Supprimer