vendredi 8 février 2013

L'archivage et le Cloud : bonne ou mauvaise idée ?

L'archivage et le Cloud : bonne ou mauvaise idée ?

Ce billet n'a pas pour objet de traiter de tous les aspects, loin de là ! Je n'en aurais pas la prétention... J'invite les lecteurs d'ailleurs à réagir et apporter leur propre opinion et participation à ce thème.
Références :


Le Cloud : mais qu'est-ce que c'est ?

Le Cloud recouvre de nombreux aspects, s'imbriquant les uns dans les autres (Amazon, Big Data, Open Data, ...). De l'extérieur, si on ne décrypte pas un peu, ça fait peur (l'inconnu), et donc on le rejette, ou au contraire on y fonce tête baissée sans réfléchir...

Une informatique délocalisée depuis longtemps

Jusqu'ici, rien de neuf ! Le temps des centres informatiques situés juste à côté des utilisateurs est révolu, grâce notamment au réseau de plus en plus performant. Cela permet une concentration des ressources en un point (centralisation des centres informatiques), et donc une réduction des coûts (a priori). Le principe étant :
  • moins de locaux à gérer
  • mutualisation des infrastructures
  • mutualisation des équipes pour gérer ces infrastructures
À noter que si la concentration des infrastructures, au sens large, à savoir tant les serveurs, le stockage que les "middleware" (logiciels intermédiaires entre les infrastructures matérielles et les applications métiers pures), donc si cette concentration est effective déjà bien avant le Cloud, elle ne concerne pas la responsabilité des applications frontales justement, à savoir leur spécification, leur maintient et leur évolution. Cet aspect des choses reste encore proche des utilisateurs (la MOA). Le Cloud ne remet pas en cause cette partie.

Mais alors, qu'apporte le Cloud ?

Et bien, on pousse un cran plus loin, les infrastructures délocalisées (concentrées, mutualisées) ne sont plus la propriété de l'entité juridique concernée (entreprise, direction, ...). Elles sont louées à un tiers. De l'infogérance me dira-t-on ? Oui, et encore un peu plus, car le principe est basé sur l'informatique à la demande (puissance de calcul, mémoire, stockage, ...). Bref, le rêve d'un service informatique qui croît en fonction de la demande, simplement, sans contrainte...

Bien, c'est beau, c'est bon, mangez-en ! Mais est-ce réel ?

Oui et non !
Oui, le Cloud regroupe en fait de multiples technologies tendant à simplifier la vie des services informatiques en termes d'allocation de ressources :
  • virtualisation des serveurs
  • virtualisation du stockage
  • virtualisation des réseaux
  • virtualisation des composants applicatifs
  • et autres virtualisations, automatisations, ...
Bref un joli monde virtuel, mais ne vous y trompez pas, le travail derrière est bien réel ! L'objet de ce billet n'étant pas de décrire finement le Cloud d'un point de vue informatique, je ne m'étendrais pas trop. Mais sachez qu'après quelques années de « buzz », les outils sont enfin là (ou presque) pour enfin pouvoir mettre en œuvre ce qui facilite la vie du métier. Le coût n'est pas négligeable, mais il peut en valoir la peine.
Non, le Cloud n'est pas de la magie. Il y a des contraintes, notamment normatives, d'interopérabilité et contractuelles. Puisque tout est mutualisé, on ne peut pas y faire n'importe quoi ! Les autoroutes sont mutualisées mais pourtant on ne peut pas y rouler avec des patins à roulettes (pas adaptés) ou encore vouloir utiliser un bateau (pas d'eau !). Il vous faudra donc vous y adapter, si cela a du sens et si c'est utile.
Je vous laisse apprécier : la question était « est-ce réel », la réponse courte est
  • Oui c'est du virtuel,
  • Non c'est du concrêt ;-)

Une informatique virtuelle, mais elle est où ?

Le Cloud fait immédiatement penser aux infrastructures internationales (Google, Amazon, …) qui offrent des hébergements du type « follow the Sun » (en Français, mon informatique ne s'arrête jamais, et les services d'exploitation et de support suivent la course du Soleil).
Mais ce n'est pas que ça, le Cloud peut aussi être une infrastructure localisée géographiquement. Ce n'est pas parce que vous utilisez un service Cloud que vos données sont n'importe où sur le globe. Lisez votre contrat et mettez-y les clauses de localisation si nécessaire !
Ainsi, si votre contrainte est que vos données restent sur le territoire Français, pour des raisons légales, afin de pouvoir être certain de respecter la législation française, rien n'empêche que l'infrastructure Cloud utilisée soit exclusivement située en France. La réplication de vos données, ce n'est pas de la magie, c'est un processus informatique maîtrisé par les informaticiens ! Donc il est paramétrable et contrôlable.

Une informatique à l'extérieur de mon entité physique, mais chez qui?

Le Cloud fait aussi penser immédiatement à Internet, et la peur que ses données soient accessibles par n'importe qui n'importe où !
C'est là où les notions de Cloud public (Internet) et Cloud privé (réseau d'entreprise) voient le jour. Le Cloud privé assure que vos données restent dans le giron de votre réseau d'entreprise, et ne sont donc pas sur Internet.
Et puis, il y a Cloud privé et Cloud privé : le Cloud privé chez un hébergeur qui assure la séparation des ensembles par des moyens de sécurité appropriés (mais qui peuvent vous paraître insuffisant, surtout si vous avez des données ultra confidentielles), et le Cloud privé mis en œuvre par votre propre Direction des Systèmes d'Informations, où la sécurité est maîtrisée de bout en bout, en interne.

Mais alors, le Cloud privé interne, est-ce toujours du Cloud ?

Oui d'un point de vue technologique, Non d'un point de vue philosophie commerciale ! Mais nous ne sommes pas là pour parler de commerce, n'est-ce pas ?
Il faut alors voir cette offre interne comme l'hébergement rationalisé de vos besoins informatiques. Cette rationalisation offre des capacités de réduction des coûts si chère à notre époque.

Je m'y perds, c'est brumeux, mais quels services pour moi ?

Je resterais volontairement dans un cadre « maîtrisé », à savoir le Cloud privé interne (peu importe que l'on parle d'un Cloud privé de l'état ou interne à l'organisation concernée).
Ce service permet d'assurer une distinction entre le service offert et la localisation des usagers, ceci grâce au support du réseau (pour l'état, le futur RIE, les 2 projets Cloudwatt et Numergy). Elle permet une refonte des processus métiers par la distinction entre je gère et je possède physiquement les données.
Ce service permet une croissance (à maîtriser quand même !), plus souple, plus facile en fonction des besoins. Il permet l'ajout de fonctionnalités plus facilement (dans les contraintes de l'interopérabilité tout de même). Elle permet donc une adaptabilité des outils aux besoins métiers plus rapidement et plus souplement.
Cette croissance peut être sur les calculs (besoin ponctuel de puissance de calcul plus important), sur les données (augmentation de plus de 20 % par an, voire exponentielle !), sur les interactions entre les métiers (la donnée peut être mise à disposition entre plusieurs communautés qui en ont le droit d'en connaître).
Voyez-vous où cela nous emmène doucement ?

Archivage et Cloud ?

OpenData

La mise à disposition de données publiques sur une plate-forme mutualisée en provenance de différentes entités pour des communautés qui ont le droit d'en connaître : finalement, l'OpenData (Etalab), est dans la mouvance du Cloud, adaptée à la donnée...
Mais qu'est-ce que la mise à disposition de données publiques comparativement à la mise à disposition d'archives publiques ? Pour moi, même si pour le moment une frontière existe, celle-ci est très « symbolique ». Cette différence devrait s'estomper, les archives publiques devant devenir un fournisseur de données à Etalab, par nature et par fonction. Comment ? Et pourquoi pas le Cloud de l'état ?
De plus, les connaissances, les bonnes pratiques des archivistes en tant que gestionnaire de l'information seraient plus qu'utiles pour ce volet de la diffusion des données publiques, pour leur donner du sens, un contexte, et une réutilisabilité réelle.

Cloud pour tous ?

Je vois d'ici les limitations, bien sûr ! La confidentialité, pire le secret défense ! OK, l'argument est recevable pour le très confidentiel. Mais et le reste ? Cloud ne veut pas dire non sécurisé. Cloud ne veut pas dire ouvert à tous vents !
Je vois donc plus le Cloud pour l'archivage comme un moyen et non une finalité. Je ne vois pas le Cloud comme un méta-google des archives, mais un support à une infrastructure évolutive et partagée, et non comme une ouverture à tous et n'importe comment des archives ! Je considère le Cloud sur ses aspects « mécaniques » et non « métiers ».
Ainsi, pour l'exemple, les archives départementales, si elles conserveraient leur propriété de responsabilité, elles pourraient déléguer à un tiers mutualisé la gestion matérielle (ok, virtualisée) de leurs archives. Il n'est en effet pas raisonnable de penser que chacun des départements aura les moyens d'avoir trois sites pour gérer de manière sécurisée ses archives. La mutualisation des infrastructures peut répondre au problème financier et technique, sans remettre en cause les responsabilités et le métier. Cela offre aussi des perspectives de solutions élégantes pour les données centralisées à caractère déconcentrées. Et on pourrait pousser encore plus loin le raisonnement, en dehors de la structure purement état... même si il ne faut pas ignorer les freins « politiques »...

Cloud pour quoi ?

Je suis donc, vous l'aurez compris, intéressé par le Cloud en tant que technologie, et non en tant qu'offre commerciale tout en un. Je pense que les outils sont enfin là pour offrir de nouvelles perspectives et de nouvelles solutions (avant de les remettre en cause encore dans 20 ans).
Les apports immédiatement intéressant du « Cloud » pour l'archivage, selon moi, seraient de 3 natures :
  1. Le stockage
    L'accroissement prévisionnel des volumes d'archives impose des considérations de sécurisation du stockage telles qu'il faut au moins 3 copies pour s'assurer un tant soit peu de la bonne conservation (et je ne parle pas ici de la pérennisation !).
    Une offre (privé et sécurisé) de stockage mutualisé, évolutif et sécurisé serait particulièrement intéressante, en particulier pour les entités à faibles moyens, réparties sur le territoire. Plutôt que chacun dans son coin mette en place une infrastructure coûteuse et alors que ce n'est pas son métier, ils pourraient mettre en place une solution commune, où néanmoins les responsabilités sur ces données numériques seraient clairement conservées (différence entre responsabilité et géo-localisation).
    Elle permettrait également des économies si on pense à la détection des doublons...
  2. Les métadonnées
    L'accroissement des volumes implique un accroissement également des métadonnées. Ce qu'on appelle le « Big Data », composant du « Cloud », vient répondre à ce besoin. Avec ses capacités de gérer des volumes énormes de données, structurées de manière différentes pour chacun, voilà la force du Big Data.
    Cette problématique est générale, que ce soit pour de fortes volumétries (grandes entités) que pour de fortes disparités de représentation des métadonnées (notamment en archivage courant et intermédiaire).
    Ces outils permettraient de créer des applicatifs métiers multiples, utilisant les mêmes structures de données (entrepôt de données), dans le respect du droit à en connaître bien sûr, et donc faciliterait la mise en œuvre de refonte des processus métiers, de mutualisation et de capitalisation de l'information.
    Elle offre une possibilité de mutualisation entre les 3 âges, en évitant cette rupture entre eux.
    On pourrait même pousser plus loin en démultipliant les possibilités de classement des données numériques par les utilisateurs eux-mêmes !
  3. La mutualisation des ressources de calcul
    Le stockage, les volumes de données, les mutualisations et les contextes d'usage se multipliant, les ressources de calcul mutualisées permettraient de répondre de manière plus souple aux besoins ponctuels, ceci afin que les temps de réponse soient acceptables.
    Bien sûr, on peut aussi limiter les ressources pour tel ou tel usage, afin de limiter les impacts sur les métiers dits « sensibles » (par exemple, une distinction entre les besoins métiers internes et la communication externe).
    Mais ces ressources de calcul peuvent aussi permettre la mise en œuvre de techniques innovantes venant au secours des objets numériques :
    • les conversions de format dans le temps pour assurer la pérennité
    • les recherches plein textes
    • l'extraction de métadonnées de manière automatique, la sémantisation de ces métadonnées

Cloud comme « back-office » de l'archivage

Par contre je ne crois pas aux offres tout en un, sur le Cloud. En effet, celles-ci ne prêtent pas attention aux particularités métiers associés aux informations ainsi stockées. Je reste persuadé que la partie métier, que je qualifierais de « front-office » est primordiale mais ne peut pas être mutualisée (hormis sur un plan technique d'hébergement potentiellement). Par contre, les aspects opérationnels, internes, liés à la conservation et la pérennisation, la capacité à stocker et requêter les métadonnées associées, les enrichir, cette partie-là donc, que je qualifierais de « back-office » est, elle, mutualisable, au moins sur ses composants.

Est-ce tout ? Juste un lieu de concentration des données numériques ?

Je ne le crois pas. En effet, la bureautique est un élément incontournable de notre temps numériques, ce à quoi se rajoutent les emails et autres SMS. Je pense que là aussi le Cloud peut apporter sa pierre à l'édifice, en proposant des environnements de création de contenus normalisés, classés par l'utilisateur dès la création, avec le suivi des versions et de la validation de ses données. Le Cloud, à l'image de Google Doc, mais en mieux j'espère, peut offrir des perspectives d'objectivisation de la donnée, pour les documents produits par des usagers.
L'arrivée des ordiphones (smartphones pour ceux qui ne connaissent pas le mot), des tablettes et autres supports mobiles, imposent la mise en œuvre d'outils « connectés » pour la création et la lecture de contenus. Il serait judicieux qu'à cette occasion les archivistes participent activement au sujet pour influer sur la politique générale de l'information qui en découlerait.
Qui dit connecté, conduit naturellement au Cloud en tant que support non localisé des services...
Il peut aussi, via ces futures plate-formes de création et de gestion de contenus, offrir une réponse, ou un début de réponse, à la pérennisation des données numériques. En effet, il n'est pas rare maintenant d'avoir des documents dont la structuration réelle soit uniquement de contenus (normalisés, contextualisés, ordonnés), et dont la présentation n'est réalisée qu'à la demande. Ainsi, la difficulté essentielle de la pérennisation étant la capacité à conserver l'intelligibilité du document pour plus tard, se transformera-t-elle peut être en sa capacité à le présenter sous une forme adaptée à la modernité des moyens à disposition.
Conserver un document au format PDF/A, c'est bien, mais peut-on le lire sur un ordiphone ? Dans 50 ans, le PDF/A sera-t-il toujours lisible ? Alors que si le contenu, structuré et contextualisé, est toujours disponible, il sera sans doute possible de le présenter dans une forme moderne et adaptée... A l'image des documents XML dont la séparation présentation / contenu est de plus en plus adopté.

Et l'archiviste dans tout ça ?

Un peu provocateur ? Non, l'archiviste n'a pas construit de ses mains les bâtiments ni les systèmes d'aération et de contrôle du taux de l'humidité pour les archives papiers. L'informaticien vient ici se substituer sur la mission du stockage et du service, mais il ne viendra jamais se substituer aux fonctions premières de l'archiviste, ou mieux du gestionnaire de l'information. L'archiviste doit participer à la gouvernance de l'information, à sa caractérisation en amont, il est une MOA privilégiée de ces systèmes de maintien de la connaissance et de l'accessibilité de l'information.

L'archiviste doit donner une autre perspective à ses compétences, au service de ses clients, et peut être même arrêter de parler d'archives mais plutôt de données, mieux, d'information, le tout dans un contexte de management de l'information, et non uniquement de patrimoine historique.

Bien sûr, encore une fois, je n'ai pas traité de tous les aspects du Cloud et de l'Archivage. C'est une approche à la fois théorique et pragmatique que je propose, considérer les outils non comme une finalité, mais pour ce qu'ils sont, des moyens...

Ajout : étant cohérent avec moi-même, et même parfois d'accord avec ce que j'écris, je souligne bien sûr que le Cloud ne peut pas être LA solution pour l'éternité, tout comme l'ADN ne l'est pas plus... Il s'agit là juste d'un moyen, d'un support technologique facilitateur de fonctionnalités et d'apports pour les archivistes et leurs usagers ! Je suis certain que si je m'exprime dans 10 ans, 20 ans sur ce sujet, j'aurais encore évolué et je proposerais encore d'autres solutions...
Qui sait, l'archivage quantique sera peut être mon dada dans 20 ans ? Tant qu'on n'ouvrira pas la boîte, l'archive sera à la fois morte et vivante, donc tout va bien ;-)

2 commentaires:

  1. Je vous invite à lire le blog suivant qui poursuit sur une approche archivistique cette fois...

    http://archivesonline.wordpress.com/2013/02/08/le-records-management-et-le-cloud/

    Merci Loudes pour ton analyse !

    RépondreSupprimer
  2. Merci pour ce post tout à fait explicite qui m'a permis de comprendre ce sujet qui me paraissait bien "barbare" au premier abord ...

    RépondreSupprimer