L'archivage et le Cloud : bonne ou mauvaise idée ?
Ce billet n'a pas pour objet de traiter de tous les aspects, loin de là ! Je n'en aurais pas la prétention... J'invite les lecteurs d'ailleurs à réagir et apporter leur propre opinion et participation à ce thème.Références :
- http://www.lemagit.fr/technologie/datacenter-technologie/cloud-grid-computing/2013/01/28/cloud-le-gouvernement-encore-en-phase-devaluation/
- http://www.etalab.gouv.fr/
- http://www.gouvernement.fr/gouvernement/des-missions-operationnelles-au-service-de-la-modernisation-de-l-etat
- http://cluster010.ovh.net/~koubi/spip.php?article719
Le Cloud : mais qu'est-ce que c'est ?
Le Cloud recouvre de nombreux aspects, s'imbriquant les uns dans
les autres (Amazon, Big Data, Open Data, ...). De l'extérieur, si on
ne décrypte pas un peu, ça fait peur (l'inconnu), et donc on le
rejette, ou au contraire on y fonce tête baissée sans réfléchir...
Une informatique délocalisée depuis longtemps
Jusqu'ici, rien de neuf ! Le temps des centres informatiques
situés juste à côté des utilisateurs est révolu, grâce
notamment au réseau de plus en plus performant. Cela permet une
concentration des ressources en un point (centralisation des centres
informatiques), et donc une réduction des coûts (a priori). Le
principe étant :
- moins de locaux à gérer
- mutualisation des infrastructures
- mutualisation des équipes pour gérer ces infrastructures
À noter que si la concentration des infrastructures, au sens
large, à savoir tant les serveurs, le stockage que les "middleware"
(logiciels intermédiaires entre les infrastructures matérielles et
les applications métiers pures), donc si cette concentration est
effective déjà bien avant le Cloud, elle ne concerne pas la
responsabilité des applications frontales justement, à savoir leur
spécification, leur maintient et leur évolution. Cet aspect des
choses reste encore proche des utilisateurs (la MOA). Le Cloud ne
remet pas en cause cette partie.
Mais alors, qu'apporte le Cloud ?
Et bien, on pousse un cran plus loin, les infrastructures
délocalisées (concentrées, mutualisées) ne sont plus la propriété
de l'entité juridique concernée (entreprise, direction, ...). Elles
sont louées à un tiers. De l'infogérance me dira-t-on ? Oui, et
encore un peu plus, car le principe est basé sur l'informatique à
la demande (puissance de calcul, mémoire, stockage, ...). Bref, le
rêve d'un service informatique qui croît en fonction de la demande,
simplement, sans contrainte...
Bien, c'est beau, c'est bon, mangez-en ! Mais est-ce réel ?
Oui et non !
Oui, le Cloud regroupe en fait de multiples technologies tendant à
simplifier la vie des services informatiques en termes d'allocation
de ressources :
- virtualisation des serveurs
- virtualisation du stockage
- virtualisation des réseaux
- virtualisation des composants applicatifs
- et autres virtualisations, automatisations, ...
Bref un joli monde virtuel, mais ne vous y trompez pas, le travail
derrière est bien réel ! L'objet de ce billet n'étant pas de
décrire finement le Cloud d'un point de vue informatique, je ne
m'étendrais pas trop. Mais sachez qu'après quelques années de
« buzz », les outils sont enfin là (ou presque) pour
enfin pouvoir mettre en œuvre ce qui facilite la vie du métier. Le
coût n'est pas négligeable, mais il peut en valoir la peine.
Non, le Cloud n'est pas de la magie. Il y a des contraintes,
notamment normatives, d'interopérabilité et contractuelles. Puisque
tout est mutualisé, on ne peut pas y faire n'importe quoi ! Les
autoroutes sont mutualisées mais pourtant on ne peut pas y rouler
avec des patins à roulettes (pas adaptés) ou encore vouloir
utiliser un bateau (pas d'eau !). Il vous faudra donc vous y adapter,
si cela a du sens et si c'est utile.
Je vous laisse apprécier : la question était « est-ce
réel », la réponse courte est
- Oui c'est du virtuel,
- Non c'est du concrêt ;-)
Une informatique virtuelle, mais elle est où ?
Le Cloud fait immédiatement penser aux infrastructures
internationales (Google, Amazon, …) qui offrent des hébergements
du type « follow the Sun » (en Français, mon
informatique ne s'arrête jamais, et les services d'exploitation et
de support suivent la course du Soleil).
Mais ce n'est pas que ça, le Cloud peut aussi être une
infrastructure localisée géographiquement. Ce n'est pas parce que
vous utilisez un service Cloud que vos données sont n'importe où
sur le globe. Lisez votre contrat et mettez-y les
clauses de localisation si nécessaire !
Ainsi, si votre contrainte est que vos données restent sur le
territoire Français, pour des raisons légales, afin de pouvoir être
certain de respecter la législation française, rien n'empêche que
l'infrastructure Cloud utilisée soit exclusivement située en
France. La réplication de vos données, ce n'est pas de la magie,
c'est un processus informatique maîtrisé par les informaticiens !
Donc il est paramétrable et contrôlable.
Une informatique à l'extérieur de mon entité physique, mais chez qui?
Le Cloud fait aussi penser immédiatement à Internet, et la peur
que ses données soient accessibles par n'importe qui n'importe où !
C'est là où les notions de Cloud public (Internet) et Cloud
privé (réseau d'entreprise) voient le jour. Le Cloud privé assure
que vos données restent dans le giron de votre réseau d'entreprise,
et ne sont donc pas sur Internet.
Et puis, il y a Cloud privé et Cloud privé : le Cloud privé
chez un hébergeur qui assure la séparation des ensembles par des
moyens de sécurité appropriés (mais qui peuvent vous paraître
insuffisant, surtout si vous avez des données ultra
confidentielles), et le Cloud privé mis en œuvre par votre propre
Direction des Systèmes d'Informations, où la sécurité est
maîtrisée de bout en bout, en interne.
Mais alors, le Cloud privé interne, est-ce toujours du Cloud ?
Oui d'un point de vue technologique, Non d'un point de vue
philosophie commerciale ! Mais nous ne sommes pas là pour
parler de commerce, n'est-ce pas ?
Il faut alors voir cette offre interne comme l'hébergement
rationalisé de vos besoins informatiques. Cette rationalisation
offre des capacités de réduction des coûts si chère à notre
époque.
Je m'y perds, c'est brumeux, mais quels services pour moi ?
Je resterais volontairement dans un cadre « maîtrisé »,
à savoir le Cloud privé interne (peu importe que l'on parle d'un
Cloud privé de l'état ou interne à l'organisation concernée).
Ce service permet d'assurer une distinction entre le service
offert et la localisation des usagers, ceci grâce au support du
réseau (pour l'état, le futur RIE, les 2 projets Cloudwatt et
Numergy). Elle permet une refonte des processus métiers par la
distinction entre je gère et je possède physiquement les données.
Ce service permet une croissance (à maîtriser quand même !),
plus souple, plus facile en fonction des besoins. Il permet l'ajout
de fonctionnalités plus facilement (dans les contraintes de
l'interopérabilité tout de même). Elle permet donc une
adaptabilité des outils aux besoins métiers plus rapidement et plus
souplement.
Cette croissance peut être sur les calculs (besoin ponctuel de
puissance de calcul plus important), sur les données (augmentation
de plus de 20 % par an, voire exponentielle !), sur les
interactions entre les métiers (la donnée peut être mise à
disposition entre plusieurs communautés qui en ont le droit d'en
connaître).
Voyez-vous où cela nous emmène doucement ?
Archivage et Cloud ?
OpenData
La mise à disposition de données publiques sur une plate-forme
mutualisée en provenance de différentes entités pour des
communautés qui ont le droit d'en connaître : finalement,
l'OpenData (Etalab), est dans la mouvance du Cloud, adaptée à la
donnée...
Mais qu'est-ce que la mise à disposition de données publiques
comparativement à la mise à disposition d'archives publiques ?
Pour moi, même si pour le moment une frontière existe, celle-ci est
très « symbolique ». Cette différence devrait
s'estomper, les archives publiques devant devenir un fournisseur de
données à Etalab, par nature et par fonction. Comment ? Et
pourquoi pas le Cloud de l'état ?
De plus, les connaissances, les bonnes pratiques des archivistes
en tant que gestionnaire de l'information seraient plus qu'utiles
pour ce volet de la diffusion des données publiques, pour leur
donner du sens, un contexte, et une réutilisabilité réelle.
Cloud pour tous ?
Je vois d'ici les limitations, bien sûr ! La
confidentialité, pire le secret défense ! OK, l'argument est
recevable pour le très confidentiel. Mais et le reste ? Cloud
ne veut pas dire non sécurisé. Cloud ne veut pas dire ouvert à
tous vents !
Je vois donc plus le Cloud pour l'archivage comme un moyen et non
une finalité. Je ne vois pas le Cloud comme un méta-google des
archives, mais un support à une infrastructure évolutive et
partagée, et non comme une ouverture à tous et n'importe comment
des archives ! Je considère le Cloud sur ses aspects
« mécaniques » et non « métiers ».
Ainsi, pour l'exemple, les archives départementales, si elles
conserveraient leur propriété de responsabilité, elles pourraient
déléguer à un tiers mutualisé la gestion matérielle (ok,
virtualisée) de leurs archives. Il n'est en effet pas raisonnable de
penser que chacun des départements aura les moyens d'avoir trois
sites pour gérer de manière sécurisée ses archives. La
mutualisation des infrastructures peut répondre au problème
financier et technique, sans remettre en cause les responsabilités
et le métier. Cela offre aussi des perspectives de solutions
élégantes pour les données centralisées à caractère
déconcentrées. Et on pourrait pousser encore plus loin le
raisonnement, en dehors de la structure purement état... même si il
ne faut pas ignorer les freins « politiques »...
Cloud pour quoi ?
Je suis donc, vous l'aurez compris, intéressé par le Cloud en
tant que technologie, et non en tant qu'offre commerciale tout en un.
Je pense que les outils sont enfin là pour offrir de nouvelles
perspectives et de nouvelles solutions (avant de les remettre en
cause encore dans 20 ans).
Les apports immédiatement intéressant du « Cloud »
pour l'archivage, selon moi, seraient de 3 natures :
- Le stockage
L'accroissement prévisionnel des volumes d'archives impose des considérations de sécurisation du stockage telles qu'il faut au moins 3 copies pour s'assurer un tant soit peu de la bonne conservation (et je ne parle pas ici de la pérennisation !).
Une offre (privé et sécurisé) de stockage mutualisé, évolutif et sécurisé serait particulièrement intéressante, en particulier pour les entités à faibles moyens, réparties sur le territoire. Plutôt que chacun dans son coin mette en place une infrastructure coûteuse et alors que ce n'est pas son métier, ils pourraient mettre en place une solution commune, où néanmoins les responsabilités sur ces données numériques seraient clairement conservées (différence entre responsabilité et géo-localisation).
Elle permettrait également des économies si on pense à la détection des doublons...
- Les métadonnées
L'accroissement des volumes implique un accroissement également des métadonnées. Ce qu'on appelle le « Big Data », composant du « Cloud », vient répondre à ce besoin. Avec ses capacités de gérer des volumes énormes de données, structurées de manière différentes pour chacun, voilà la force du Big Data.
Cette problématique est générale, que ce soit pour de fortes volumétries (grandes entités) que pour de fortes disparités de représentation des métadonnées (notamment en archivage courant et intermédiaire).
Ces outils permettraient de créer des applicatifs métiers multiples, utilisant les mêmes structures de données (entrepôt de données), dans le respect du droit à en connaître bien sûr, et donc faciliterait la mise en œuvre de refonte des processus métiers, de mutualisation et de capitalisation de l'information.
Elle offre une possibilité de mutualisation entre les 3 âges, en évitant cette rupture entre eux.
On pourrait même pousser plus loin en démultipliant les possibilités de classement des données numériques par les utilisateurs eux-mêmes !
- La mutualisation des ressources de calcul
Le stockage, les volumes de données, les mutualisations et les contextes d'usage se multipliant, les ressources de calcul mutualisées permettraient de répondre de manière plus souple aux besoins ponctuels, ceci afin que les temps de réponse soient acceptables.
Bien sûr, on peut aussi limiter les ressources pour tel ou tel usage, afin de limiter les impacts sur les métiers dits « sensibles » (par exemple, une distinction entre les besoins métiers internes et la communication externe).
Mais ces ressources de calcul peuvent aussi permettre la mise en œuvre de techniques innovantes venant au secours des objets numériques :
- les conversions de format dans le temps pour assurer la
pérennité
- les recherches plein textes
- l'extraction de métadonnées de manière automatique, la
sémantisation de ces métadonnées
Cloud comme « back-office » de l'archivage
Par contre je ne crois pas aux offres tout en un, sur le Cloud. En
effet, celles-ci ne prêtent pas attention aux particularités
métiers associés aux informations ainsi stockées. Je reste
persuadé que la partie métier, que je qualifierais de
« front-office » est primordiale mais ne peut pas être
mutualisée (hormis sur un plan technique d'hébergement
potentiellement). Par contre, les aspects opérationnels, internes,
liés à la conservation et la pérennisation, la capacité à
stocker et requêter les métadonnées associées, les enrichir,
cette partie-là donc, que je qualifierais de « back-office »
est, elle, mutualisable, au moins sur ses composants.
Est-ce tout ? Juste un lieu de concentration des données numériques ?
Je ne le crois pas. En effet, la bureautique est un élément
incontournable de notre temps numériques, ce à quoi se rajoutent
les emails et autres SMS. Je pense que là aussi le Cloud peut
apporter sa pierre à l'édifice, en proposant des environnements de
création de contenus normalisés, classés par l'utilisateur dès la
création, avec le suivi des versions et de la validation de ses
données. Le Cloud, à l'image de Google Doc, mais en mieux j'espère,
peut offrir des perspectives d'objectivisation de la donnée, pour
les documents produits par des usagers.
L'arrivée des ordiphones (smartphones pour ceux qui ne
connaissent pas le mot), des tablettes et autres supports mobiles,
imposent la mise en œuvre d'outils « connectés » pour
la création et la lecture de contenus. Il serait judicieux qu'à
cette occasion les archivistes participent activement au sujet pour
influer sur la politique générale de l'information qui en
découlerait.
Qui dit connecté, conduit naturellement au Cloud en tant que
support non localisé des services...
Il peut aussi, via ces futures plate-formes de création et de
gestion de contenus, offrir une réponse, ou un début de réponse, à
la pérennisation des données numériques. En effet, il n'est pas
rare maintenant d'avoir des documents dont la structuration réelle
soit uniquement de contenus (normalisés, contextualisés, ordonnés),
et dont la présentation n'est réalisée qu'à la demande. Ainsi, la
difficulté essentielle de la pérennisation étant la capacité à
conserver l'intelligibilité du document pour plus tard, se
transformera-t-elle peut être en sa capacité à le présenter sous
une forme adaptée à la modernité des moyens à disposition.
Conserver un document au format PDF/A, c'est bien, mais peut-on le
lire sur un ordiphone ? Dans 50 ans, le PDF/A sera-t-il toujours
lisible ? Alors que si le contenu, structuré et contextualisé,
est toujours disponible, il sera sans doute possible de le présenter
dans une forme moderne et adaptée... A l'image des documents XML
dont la séparation présentation / contenu est de plus en plus
adopté.
Et l'archiviste dans tout ça ?
Un peu provocateur ? Non, l'archiviste n'a pas construit de
ses mains les bâtiments ni les systèmes d'aération et de contrôle
du taux de l'humidité pour les archives papiers. L'informaticien
vient ici se substituer sur la mission du stockage et du service,
mais il ne viendra jamais se substituer aux fonctions premières de
l'archiviste, ou mieux du gestionnaire de l'information. L'archiviste
doit participer à la gouvernance de l'information, à sa
caractérisation en amont, il est une MOA privilégiée de ces
systèmes de maintien de la connaissance et de l'accessibilité de
l'information.
L'archiviste doit donner une autre perspective à ses compétences,
au service de ses clients, et peut être même arrêter de parler
d'archives mais plutôt de données, mieux, d'information, le tout
dans un contexte de management de l'information, et non uniquement de
patrimoine historique.
Bien sûr, encore une fois, je n'ai pas traité de tous les aspects du Cloud et de l'Archivage. C'est une approche à la fois théorique et pragmatique que je propose, considérer les outils non comme une finalité, mais pour ce qu'ils sont, des moyens...
Ajout : étant cohérent avec moi-même, et même parfois d'accord avec ce que j'écris, je souligne bien sûr que le Cloud ne peut pas être LA solution pour l'éternité, tout comme l'ADN ne l'est pas plus... Il s'agit là juste d'un moyen, d'un support technologique facilitateur de fonctionnalités et d'apports pour les archivistes et leurs usagers ! Je suis certain que si je m'exprime dans 10 ans, 20 ans sur ce sujet, j'aurais encore évolué et je proposerais encore d'autres solutions...
Qui sait, l'archivage quantique sera peut être mon dada dans 20 ans ? Tant qu'on n'ouvrira pas la boîte, l'archive sera à la fois morte et vivante, donc tout va bien ;-)
Je vous invite à lire le blog suivant qui poursuit sur une approche archivistique cette fois...
RépondreSupprimerhttp://archivesonline.wordpress.com/2013/02/08/le-records-management-et-le-cloud/
Merci Loudes pour ton analyse !
Merci pour ce post tout à fait explicite qui m'a permis de comprendre ce sujet qui me paraissait bien "barbare" au premier abord ...
RépondreSupprimer