Avsnitt

  • Avec Philippe Charpentier, le CTO de NetApp France, nous abordons le "contenant" des données. Contenant et contenu sont mutuellement indispensables, et ils répondent tous deux à des contraintes différentes :

    - Les data sont enfin reconnues comme des actifs informationnelles de l'entreprise, il faut donc les protéger. Quels sont les enjeux actuels liés à la sécurité et à la confidentialité de ces données collectées par toutes les entreprises ? - Peut-on et doit-on tout conserver ? L'IA semble nous dire que oui, les lois sont un peu moins d'accord. Comment arbitrer ? - Un des éléments clef d'une stratégie data est aujourd'hui la gouvernance, comment s'assurer du cycle de vie et d'utilisation des données. Quid de la traçabilité de ces actifs tant immatériels. - En 2024, sur quoi les entreprises doivent-elles porter leur attention ? Quels conseils leur donner en matière de data ?
  • IBM se lance à son tour dans le data mesh et les data products. L’entreprise l’a annoncé cette semaine, à l’occasion d’un séminaire de présentation de son offre appelée IBM Data Product Hub.

    Cette tendance, le « shift left », consiste à transférer peu à peu la responsabilité des data aux utilisateurs métiers, et l’autonomie qui va avec.

    Que vous appliquiez à la lettre les principes du data mesh ou si vous créez simplement des data products pour remplacer vos entrepôts de données centralisés, vous allez passer par la recherche et l’installation d’une plateforme de jeux de données. Amazon, SAP, Microsoft mais également des éditeurs spécialisés comme Zeena, Meta-Analysis ou Orkestra Data se sont lancés dans la course. Nous en avons déjà parlé ici.

    Signe que le sujet du data mesh devient incontournable, IBM se lance à son tour.

    Difficile de remettre en question ses habitudes de centralisation ! IBM annonce Data Product Hub, une plateforme, centralisée, pour stocker les data products.

    Les sources de données sont des entrepôts de données ou des lakehouses – 57 connecteurs sont annoncés. Les jeux de données peuvent ensuite être analysés avec Tableau, Watsonx de IBM ou encore en Python via la librairie Pandas. Le plan de développement prévoit l’incorporation d’IA générative dans les prochaines versions, fin 2024 et début 2025.

    Les consommateurs de données peuvent envoyer des requêtes, demandant à accéder aux données qui les intéressent. Les producteurs de données peuvent personnaliser les formats de génération des jeux de données, pour s’adapter aux besoins de leurs consommateurs.

    La gouvernance de l’ensemble est bien sur facilitée. Si vous utilisez le catalogue de données IBM Knowledge Catalog, le Data Product Hub pourra s’y connecter. Une intégration avec Informatica est prévue fin 2024. Les jeux de données peuvent être générés et stockés, ou pourront être virtualisés à partir de fin 2024. La génération et la mise à jour des data products sera automatisée dans la version de début 2025.

    Point très important, des data contracts et des niveaux de service peuvent être implémentés afin de gouverner les échanges de données. Un tableau de bord de suivi est même prévu. Ces contrats « lisibles par la machine » permettront dans la version de début 2025, de mettre en place un suivi automatisé de la gouvernance.

    Le Data Product Hub de IBM sera disponible en version on-premise, à l’achat ou à la location, ainsi qu’en version SaaS hébergée dans le cloud IBM, ou dans d’autres grands clouds. Une version d’essai de 60 jours sera proposée par l’éditeur. La version perpétuelle sera proposée à partir de 250 000 $, ou en location à partir de 100 000 $ par an. Le Data Product Hub est un nouveau composant ajouté à la Data Fabric de IBM.

    Préparant le futur, et la monétisation des données, IBM inclut une fonction de place de marché – on appelle également cela un Data Space. Mais dès maintenant, les consommateurs de données peuvent l’utiliser pour rechercher un jeu de données répondant à leurs besoins. Avec toutes les difficultés que l’on constate lors des tentatives de création de catalogues de données métier, on peut espérer que les catalogues de jeux de données seront adoptés, par les producteurs et les consommateurs, et seront alors correctement catalogués !

  • Saknas det avsnitt?

    Klicka här för att uppdatera flödet manuellt.

  • 5 ans de prison, si vous tentez de prévoir la décision d’un juge

    … mais comme toujours, les lignes jaunes sont contournables, pour peu que l’on prenne le temps de comprendre la loi.

    Je vous parle ici d’une disposition liée à l’utilisation de l’intelligence artificielle dans le cadre de procédures judiciaires, tentant de prédire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes d’adapter leur stratégie.

    Aux Etats-Unis, vous l’avez certainement vu dans de nombreuses séries criminelles, la technologie est utilisée pour analyser le profil de jurés, et tenter de prévoir leur positionnement, mais également pour analyser les décisions prises par chaque juge.

    Rien de bien nouveau, car les prétoires ont toujours été le berceau de rumeurs et de bruits de couloir : untel donne plutôt raison aux femmes, untel n’aime pas les hispaniques, untel est contre l’autodéfense, etc.

    Depuis toujours, les avocats ont imaginé améliorer leur stratégie, persuadés que les juges sont biaisés… tout simplement parce qu’ils sont humains. Un peu comme on commentait au lycée les professeurs qui nous étaient affectés en début d’année, les avocats commentent les juges qui leur sont affectés en début de procès.

    Mais au fait, les juges qui portent des lunettes sont-ils plus sévères que ceux qui ont une bonne vue ? Et les juges aux cheveux blancs sont-ils plus tolérants avec les jeunes majeurs ? Quand aux juges qui conduisent une peugeot, sont-ils plus sévères que ceux qui conduisent une Audi, dans les cas de violence conjugale ?

    Questions absurdes ? Peut-être. Mais si l’apprentissage machine nous apprenait le contraire. Que l’âge, la vue, la couleur des cheveux, la voiture qu’ils conduisent présentaient une corrélation avec leurs décisions. Si cela était mathématiquement prouvé, qu’est-ce que cela prouverait justement ? Que la justice est humaine, et donc biaisée. Dans ce cas, pourquoi ne pas l’analyser, et en utiliser les résultats ?

    Peut-être mais avec des limites très claires. Une loi publiée en 2019 précise en effet que les données nominatives des juges ne peuvent pas être utilisées. Il est donc interdit de prévoir la décision d’un juge en particulier dans une affaire. Mais elle ne peut empêcher la prédiction basée sur des caractéristiques, tant que celles-ci ne permettent pas de remonter à la personne, au juge.

    Alors, les juges qui se savent analysés gardent-ils le même comportement ? Où cela va-t-il les inciter modifier leurs décisions ? Les études menées depuis 2019 semblent montrer que globalement ces caractéristiques interviennent très peu dans les décisions. En revanche, les tribunaux, par le profil des affaires qu’ils jugent et leur volume, prennent clairement des sanctions différentes. Entre Bobigny et Versailles, les peines appliquées sont clairement différentes dans certains types d’affaires ?

    En viendra-t-on à préférer une justice artificielle, un algorithme qui appliquerait la loi, rien que la loi, sans aucune humanité ? Un film espagnol, Justicia Artificial, devrait d’ailleurs sortir en septembre prochain sur le sujet.

  • Plongeons dans les nuances de la gestion de la data pour le reporting financier et ESG, avec une attention particulière sur l'impact récent de l'adoption de la directive CSRD. Cette réglementation, un moment charnière pour le reporting financier et de durabilité intégré, nécessite une assurance par une tierce partie et marque une évolution significative dans la manière dont les entreprises abordent la transparence et la fiabilité de leurs données.

    Aujourd'hui, alors que les entreprises du monde entier se préparent à publier leurs premiers rapports CSRD obligatoires en 2025, l'impact du CSRD se révèle avoir une étendue bien au-delà de ceux qui sont soumis à la réglementation. Le CSRD a amorcé un virage mondial vers l'intégration assurée des rapports, les chefs d'entreprise reconnaissant la demande du marché pour des données contextuelles, transparentes et crédibles qui répondent aux attentes des parties prenantes.

    En se concentrant sur les aspects pratiques et techniques, Workiva vise à clarifier comment les entreprises peuvent utiliser la data pour non seulement respecter les normes réglementaires, mais aussi pour piloter des décisions stratégiques qui favorisent un développement durable et éthique.

  • Alors que l’évolution de l’intelligence artificielle (IA) générative se développe à une vitesse exponentielle, bouleversant tous les pans de notre société, les législateurs, en Europe comme outre-Atlantique, doivent construire à marche forcée un cadre propice à un développement éthique et responsable de la technologie.

    Ainsi, courant mars, le Parlement Européen a approuvé la législation sur l’IA générative qui garantit la sécurité et le respect des droits fondamentaux tout en encourageant l’innovation[1]. Celle-ci précise notamment que l'IA générative doit être aussi transparente que possible, en décrétant que les développeurs doivent démontrer précisément le fonctionnement du modèle et les données sur lesquelles il est entraîné. Par ailleurs, il y a quelques semaines, la CNIL publiait des recommandations quant au cadre juridique et aux bonnes pratiques pour le développement d'un système d'IA vertueux[2].

    Dans un tel contexte, et à mesure que l’IA générative et les grands modèles de langage se généralisent, l'intégration de ces technologies dans les opérations des entreprises s'accompagne de deux dilemmes éthiques importants : une utilisation transparente et responsable ainsi que des résultats fiables. Les graphes de connaissances pourraient constituer un moyen d'améliorer la transparence et la confiance exigées par la loi européenne sur l'IA.

    « L'IA générative progresse aujourd'hui à une vitesse jamais vue. Si l'on ne peut espérer que les décideurs politiques parviennent à suivre le rythme de cette innovation, l'absence d’un cadre et de normes garants d’un développement responsable de l’IA générative pourrait empêcher la société de prendre la pleine mesure du potentiel infini de cette technologie et de la mettre au service de l’intérêt général.

    Pour que ces systèmes profitent à la société dans son ensemble, inspirent confiance et répondent aux normes réglementaires clés, il est essentiel de prendre en compte l'infrastructure technologique au sens large et, surtout, les systèmes de gestion de données. Les graphes de connaissances se distinguent comme la structuration de données essentielle qui améliore les solutions d'IA générative en apportant plus de précision, de transparence et d'explicabilité.

    En effet, les graphes de connaissances permettent des interrogations, des déductions et des raisonnements sémantiques basés sur les relations. Ils jouent donc un rôle essentiel en agissant en complément de l'IA générative, en lui permettant de modéliser le raisonnement humain à plus grande échelle. Les graphes donnent un contexte plus profond aux données qui alimentent un modèle d’IA générative, ce qui permet l’explicabilité et la pertinence, pour éviter les hallucinations. De plus, grâce à la gestion fine des rôles et des droits sur les données de graphes, les organisations peuvent gérer au plus près la sécurité et la confidentialité. », analyse Nicolas Rouyer, Consultant Avant-ventes Senior chez Neo4j.

  • La semaine dernière à Paris, c’était la grand-messe de Publicis, Vivatech. N’étant pas fan de ces grands rassemblements où l’on s’autocongratule entre soi, j’ai pris l’avion pour le Sud. Après avoir traversé la méditerranée, puis le désert du Sahara, j’ai atterri à Lomé, au Togo, où se réunissaient les directeurs financiers et de contrôle de gestion de l’Afrique de l’Ouest.
    Accueillis dans les locaux de la BOAD, les participants ont bien entendu parlé d’intelligence artificielle, de données, et de comment la fonction finance en entreprise allait être impactée par ces évolutions technologiques.
    Avaient fait le déplacement les présidents français de la DFCG, l’association des directeurs financiers, et de l’AFDCC, celle des crédit managers. Les ponts entre les financiers français et leurs pairs d’Afrique de l’Ouest sont actifs, et devraient l’être encore plus dans les années à venir.
    Alors bien sûr, on a parlé de magie, de ces outils miraculeux que l’on nous promet, et de la révolution sur l’emploi qu’ils vont provoquer. Mais avec réalisme on a surtout évoqué ce qui manque à beaucoup d’entreprises africaines pour exploiter cette intelligence artificielle : des données.
    Dans des pays où la part de l’économie informelle est importante, collecter et conserver des données semble parfois vain.
    J’ai eu un échange passionnant avec le directeur financier d’un groupe de distribution. Certes, il adorerait pouvoir analyser qui achète quoi, quand, avec quoi… mais ce ne sont pas les modèles d’apprentissage qui lui font défaut, ce sont les données. Pas de remontée des lignes de tickets de caisse ; pas de carte de fidélité permettant d’identifier les clients. Il manque le basique. Difficile d’aller parler d’intelligence artificielle générative quand manquent la culture nécessaire à la collecte, à la valorisation et à la gouvernance de ces données.
    Il serait facile de pointer du doigt le retard technologique de ces pays africains. Mais c’est également la réalité de beaucoup d’entreprises françaises. En ce moment même, je travaille avec un industriel dans le domaine de la papeterie : il envisage prochainement la mise en place, enfin, d’une gestion des données de référence ; un service social tente de mettre en place une gouvernance, et se heurte à l’absence d’architecture d’entreprise et d’ontologie des termes utilisés en interne ; et une grosse PME dans l’agro-alimentaire change enfin d’ERP et envisage son premier reporting dans un outil autre que Excel.
    Alors que retenir de tout cela ? Il faut bien sur des visionnaires, des rêveurs, des innovateurs et il faut un Vivatech. Mais concrètement beaucoup d’entreprises n’en sont pas là ! Elles en sont même loin. Leur faire croire qu’elles pourront bénéficier en un claquement de doigt de ces technologies magiques, ce n’est pas leur rendre service.
    Oui, c’est moins drôle, moins « chevere » comme dit ma fille de 17 ans, mais mettre en place une culture de la donnée, des bonnes pratiques de gouvernance, et une architecture adaptée pour collecter, conserver et par la suite analyser cette donnée, est la priorité ! Ne me parlez pas de ChatGPT tant que vous n’avez pas ces fondations. Sinon, c’est comme si vous commandiez une Ferrari, alors que vous n’avez même pas passé le permis.

  • Vous avez entendu parler du data mesh ? Non ? C’est normal, le concept est encore jeune, il date de 2019. Mais je suis certain que vous en appliquez déjà certains des principes, sans même le savoir.
    Dans votre entreprise, comme dans la plupart, la tendance est clairement à la reprise du contrôle des données par les utilisateurs métier. Finalement, ce sont leurs données, ils les produisent, les saisissent, les améliorent, les rendent disponibles. N’est-il pas normal qu’ils soient responsables, et crédités, de leur qualité, de leur disponibilité, de leur conformité. Pourquoi leur retirer leurs données, pour les centraliser, hors de leur contrôle dans un data warehouse, data lake, lakehouse ou que sais-je encore ? Rendre la donnée aux métiers, permettre à chacun de partager ses données avec d’autres, dans une plateforme commune, et encadré par de bonnes pratiques de gouvernance.
    Voici quelques-uns des mots clefs qu’il faut connaitre, pour comprendre cette tendance.
    1. Le Data Product Owner
    Le “propriétaire” des données est celui qui connait la donnée, il est donc du côté des métiers. A la demande du consommateur de données, il propose un jeu de données (le data product) et s’engage sur sa disponibilité, sa qualité, sa conformité, etc.
    2. Le Data Product
    C’est un jeu de données. Un ensemble de données qui répond aux besoins d’un ou de plusieurs consommateurs de données. Il est défini, créé, puis produit et mis à jour, en fonction des besoins du consommateur et des contraintes du data product owner. Il est encadré par le data contract et mis à disposition sur la data product platform.
    3. Le Data Contract
    Le data contract est la clef de voute de l’ensemble. Il formalise, contractualise, les conditions de fourniture du data product négociées entre le métier producteur et le métier consommateur. Il définit les détails techniques, mais aussi la qualité, la disponibilité, la conformité, du data product. Souvent produit en YAML ou JSON, il est lisible par un Être humain, et par le logiciel. Des modèles standardisés sont en cours de développement.
    4. La Data Product Platform
    Autant la relation entre consommateur et producteur de données est décentralisée ; autant son hébergement et sa gestion informatique, doivent être centralisées ! Elle catalogue, référence, héberge, et met à disposition les data products, en s’assurant du respect des règles du data contract.
    5. Et enfin, le Data Product Manager
    La donnée est un produit ? Elle doit donc être construite comme telle. Et la fonction de Data Product Manager commence à apparaitre. Il comprend les données et leurs usages, aide à la préparation du data contract, et s’assure que le data product répond aux besoins exprimés.

  • Voici quelques-uns des sujets que nous abordons avec Jean-Paul Otte, Responsable des services stratégiques chez Precisely :

    - Posons nous la question de l'impact des nouveaux usages mobiles (IOT, mobiles) sur les données. Quelles nouvelles données collectons-nous ? Et quelles sont leurs particularités ?
    - Plus l'IA se développe, plus on a besoin de l'alimenter avec des données de qualité. Comment s'assurer que les données collectées sont exactes, homogènes et contextualisées ?
    - Quels outils permettent de détecter cette non-qualité de données ? Peut-on la corriger ? Comment ?

  • Voici quelques-uns des sujets que nous abordons avec Stéphane Juillard, fondateur et CEO de Orkestra Data :

    - Qu'est qu'une data platform ? Comment peut-on définir ce terme ? Différences avec un Hub, une Fabric... - Orkestra est lui-même éditeur d'une data platform. Comment vous positionnez-vous par rapport à vos concurrents ? - Vous mettez en avant une plateforme orientée métier : comment selon vous doivent se répartir les rôles entre l'informatique et les métiers en 2024 ? - Le data mesh, on en parle ? Ou c'est déjà du passé ? - Vous avez publié un guide comparatif des data plateformes donc vous vous comparez vous-même à vos concurrents. C'est un peu SAP qui publierait un comparatif des ERP... comment convaincre les lecteurs que ce travail a été fait de manière objective ?

    Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez un email à [email protected].

    Pour ne manquer aucun épisode du podcast Decideo, abonnez-vous, c'est gratuit !

  • Quel appareil pour embarquer demain l’intelligence artificielle au plus près de notre corps

    Le succès d’Apple est dû au travail de milliers de personnes, mais deux d’entre elles ont fait de Apple ce qu’il est devenu, on aime ou on déteste. Steve Jobs bien sûr, son fondateur, mais également Jonathan Ive, qui a supervisé le design des produits pendant 27 ans. Ce qui fait la différence chez Apple, c’est justement cette combinaison du design de produits physiques, et d’une offre logicielle parfaitement intégrée.

    Aujourd’hui, l’intelligence artificielle, ce sont des outils logiciels fantastiques, et qui continueront à se développer dans les prochaines années, mais utilisés à partir d’appareils physiques et d’interfaces utilisateurs datées, pour ne pas dire préhistoriques.

    Ouvrir votre navigateur pour poser une question à ChatGPT au travers d’un clavier et d’un écran… quelle tristesse ! On peut bien sûr imaginer l’adaptation des montres connectées, des casques de réalité virtuelle, ou des assistants vocaux afin qu’ils servent d’interface à ces outils. Une IA dont on dit que son impact sera plus important sur notre société que la révolution industrielle.

    Quel outil ? Quel objet ? Quelle interface ?

    Le BlackBerry, puis l’iPhone, en leurs temps, ont inventé pour nous de nouveaux usages. Le déroulement continue des pages sans fin sur les réseaux sociaux a fondamentalement changé notre manière de naviguer.

    L’IA va devoir nous apporter un support au moins aussi révolutionnaire. On parle beaucoup d’un assistant personnel, d’un dispositif nous permettant d’accéder en toutes situations, à cette IA à notre service. Un nouvel appareil qui ne serait ni un téléphone, ni un ordinateur, avec lequel nous communiquerions sans doute avec la voix, et qui serait portable, connecté, léger ; en résumé, quelque chose qui n’existe pas encore, mais qui deviendrait notre compagnon intelligent, notre deuxième cerveau dit-on parfois.

    Mais alors, qui et quand ? Bien sûr je n’ai pas la réponse définitive à ces questions.

    Mais, et c’est l’objet de cette chronique, une association annoncée il y a quelques jours mérite notre attention.

    Jony Ive, et c’est là qu’il intervient, vient d’annoncer s’associer avec Sam Altman, le patron d’OpenAI, afin de lever des fonds pour développer ce fameux assistant intelligent.

    Pour Sam Altman, c’est la bonne décision. S’il ne développe pas son propre appareil, OpenAI risque d’être cantonné à son rôle d’OEM, de fournir des intelligences artificielles à ceux qui voudront bien les intégrer. Mais il a certainement compris que le succès d’Apple vient de cette intégration. D’ailleurs même Microsoft a cherché plusieurs fois, sans grand succès, à développer ses propres matériels.

    Donc une IA sans appareil pour l’héberger, restera toujours un logiciel, à la merci des choix des fournisseurs de matériels.

    En s’associant à Jony Ive, il montre aussi qu’il a compris que le matériel doit être beau, attirant, pour que l’on ait envie de dépenser beaucoup d’argent pour se l’offrir, et pour le montrer. Le récent lancement du casque Apple Vision Pro en est encore un exemple.

    Les travaux d’Apple inquiètent très certainement Sam Altman ; l’abandon du projet de voiture Apple est une mauvaise nouvelle pour lui. Car ce sont des milliards qui auraient été dépensés sur ce projet et qui pourraient être réaffectés à d’autres projets, justement dans l’IA.

    Car si Apple est en retard en matière d’offre d’IA à grande échelle, l’entreprise dispose justement du savoir-faire et d’appareils existants, iPhone, Apple Watch, HomePod, etc.

    Le combat des chefs pourrait être demain Apple contre OpenAI. Le premier dispose du savoir-faire matériel, mais doit s’améliorer sur la partie logicielle. Le second est en avance sur le logiciel, mais totalement absent de la partie matérielle.

    Donc cette nouvelle société qui serait en cours de création, pourrait lever pas moins d’un milliard de dollars. De quoi lui permettre de développer tranquillement son assistant personnel. Une somme que Jony Ive et Sam Altman ne devraient pas avoir trop de mal à réunir. Des rumeurs courent d’ailleurs que la veuve de Steve Jobs, Laurene Powell Jobs, figurerait parmi les investisseurs. Avec ce nouveau de financement, les enjeux sont importants. Jony Ive et Laurene Powell Jobs se retrouveraient en concurrence directe avec Apple. Les conseils d’administration vont être tendus !

    Il manque d’ailleurs une partie importante à l’association Altman – Ive : la fabrication du matériel. Maitriser comme Apple le fait, la totalité de la production est un atout énorme. ARM, le fabricant de micro-processeurs serait d’ailleurs en discussion avec les fondateurs.

    Si vous voulez avoir une idée de ce que pourrait être demain un dispositif de ce type, jetez un œil au AI Pin développé par la société Humane. Une broche que l’on porte sur sa poitrine et avec laquelle on interagit par la voix et par le geste.

    Et puis pour terminer, rêvons un peu… Et si Apple, Jonathan Ive et Sam Altman, décidaient finalement de travailler ensemble. Les modèles de OpenAI, le design de Jony Ive, et la puissance de Apple. C’est un trio gagnant !

  • Cécile Petitgand est l'auteur du livre : Données personnelles, reprenons le pouvoir - réflexions sur la gouvernance citoyenne à l'ère du numérique, publié aux Editions Hermann.

    Avec elle, nous nous interrogeons sur la relation parfois ambigüe que nous entretenons avec nos données personnelles.

    Est-on en train de perdre ou au contraire pouvons-nous reprendre le contrôle de nos données personnelles ? Le grand public commence-t-il à avoir conscience de la valeur de ses données personnelles ? Ces dernières années, a-t-on progressé ou regressé dans ce domaine ? Et les nouvelles générations, quelle est leur attitude vis à vis des données personnelles ? Les gouvernements montrent-ils l'exemple en protégeant et en exploitant correctement les données qu'ils collectent sur leurs citoyens ?
  • L’administration américaine va nommer ses premiers CAIO (Chief Artificial Intelligence Officer) et former ses comités de gouvernance

    Suite à l’Executive Order signé par Joe Biden le 30 octobre 2023, l’administration américaine a publié un Mémorandum destiné à l’ensemble des agences et départements de l’administration américaine.

    Dans ce document, Shalanda D. Young, précise que les administrations concernées devront nommer d’ici le 28 mai 2024, un Chief Artificial Intelligence Officer (CAIO), dont le document définit le profil, ainsi que former un comité de gouvernance de l’IA.

    Les principales responsabilités du CAIO seront les suivantes

    - coordonner l'utilisation de l'IA dans l’agence gouvernementale ;

    - promouvoir l'innovation liée à l'IA ;

    - gérer les risques liés à l'utilisation de l'IA.

    Le mémorandum précise que la personne choisie pour occuper cette fonction peut être le directeur des systèmes d’information, ou le directeur du data office ; mais il peut également s’agir d’un recrutement extérieur. La description de poste (en pages 6 et 7 du document) permet de détailler les trois points indiqués ci-dessus et l’ensemble des tâches qui leur sont connectées, dont :

    Un travail de coordination avec l’ensemble des départements et agences de l’administration y compris dans le domaine des ressources humaines afin de prendre en compte l’impact sur les métiers actuels et le besoin de formation ; Promotion de l’égalité et de l’inclusion dans les processus de décision ; Identification et cartographie des risques, en particulier en matière de sécurité et de respect des droits ; Établissement de procédures de contrôle afin de vérifier la conformité des systèmes d’IA utilisés avec les lois et règlements américains ;

    - Le document prévoit que pour réaliser ces tâches, le CAIO doit avoir une position hiérarchique suffisamment élevée pour d’une part échanger avec les directions des autres agences, et d’autre part vérifier la conformité des systèmes d’IA implémentés dans les directions de sa propre agence.

    En parallèle, le document demande à chaque agence de mettre en place un comité de gouvernance de l’intelligence artificielle. Il peut s’agir d’un comité existant (par exemple de gouvernance des données) dont les compétences seront élargies à l’IA.

    Devront participer à ce comité au moins les départements suivants : « informatique, cybersécurité, données, vie privée, droits civils et libertés civiles, équité, statistiques, capital humain, achats, budget, affaires juridiques, gestion de l'agence, expérience client, évaluation des programmes, et responsables de la mise en œuvre de l'IA au sein du ou des bureaux de programme de l'agence. Les agences devraient également envisager d'inclure des représentants de leur bureau de l'inspecteur général respectif »

    Après cette avancée en matière d’organisation et de ressources, comment les autres pays vont-ils s’organiser ? Quand verra-t-on dans l’administration française, canadienne, suisse ou belge la nomination de CAIOs et de comités de gouvernance de l’IA ?

  • Les prompts sont des données : va-t-il falloir les cataloguer ?

    Selon une enquête de l’Associated Press, déjà 70 % des rédacteurs utilisent l’IA générative pour produire du contenu. Les données sont omniprésentes dans la démarche : dans l’alimentation des modèles, dans les prompts et dans les contenus produits.

    Si j’écris demain un article à l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander à ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a déjà été établi par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriété sur ses propres créations. L’IA n’a pas de personnalité juridique. C’est l’Humain qui a piloté l’IA qui est reconnu comme auteur de ses créations.
    Mais demain, le journaliste, le scénariste, mais également le programmeur, le rédacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront à les produire. Pourrait-on aller jusqu’à déposer et protéger un prompt, tout comme on protège un livre, un logiciel ou un scénario ? Peut-être est-ce une idée à creuser. Juristes spécialistes de la propriété intellectuelle, je vous lance la perche !
    En tous cas, ces prompts, ce sont également des données. Et il faut les collecter, les stocker, et donc peut-être les protéger, afin de faire le lien entre le prompt et le contenu qu’il a produit.
    En entreprise, la réplicabilité et l’explicabilité sont des sujets importants. Si je lance deux fois la même requête sur une même base de données, je dois obtenir le même résultat. Sinon, j’ai un problème. Êtes-vous certain que le même prompt lancé dans le même outil d’IA générative, produira le même contenu ?
    Je ne crois pas, et c’est un vrai problème.
    Si j’utilise l’IA générative pour transformer une question en langage naturel en requête SQL, la même question donnera-t-elle toujours la même réponse ? Si non, ça sent le crépage de chignon en réunion du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des résultats différents en fonction de l’heure de la journée, de la météo ou de l’âge du capitaine.

    Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilité de leur cycle de vie, le lien entre le prompt et son résultat, etc. Des tas de métadonnées qu’il va falloir organiser.

    Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera :
    - L’historisation des prompts utilisés, et de leurs métadonnées ;
    - La traçabilité, le lineage, qui a mené du prompt au résultat. Quel modèle a été utilisé, quelle version, quelles données d’entrainement, etc..

    Cet outil permettra également de vérifier les droits d’accès, la conformité des données utilisées, et produites. Et il assurera la piste d’audit nécessaire pour qu’en cas de besoin, le service conformité ou audit interne, voir une autorité extérieure, puissent remonter l’historique.

    Vous voyez que le sujet de la gouvernance de l’IA, et des données qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisé ChatGPT pour rédiger 10 lignes sur la révolution russe !

    Si vous envisagez une utilisation sérieuse, et en production, de l’intelligence artificielle, vous devrez passer par les étapes que je viens de décrire. Et si vous cherchez une idée de business à créer dans le domaine du logiciel, regardez du côté d’une plate-forme de traçabilité des usages de l’IA en entreprise… il y a tout un marché !

  • Cette semaine, Decideo a rencontré Jean-Guillaume Pelletier, associé de Mindmatcher, pour parler de la cartographie des métiers du numérique, à laquelle il a collaboré, pour le compte de GEN - Grande Ecole du Numérique. - Vous avez aidé la Grande Ecole du Numérique, créée en 2015 par le gouvernement, à cartographier les métiers du numérique. Quel a été votre apport et votre rôle dans l'établissement de cette cartographie ? - Quelles ont été les technologies utilisées ? Et les données sur lesquelles vous vous êtes appuyé ? - Comment avez-vous évité les biais ? - On parle de signaux faibles lorsqu'il s'agit d'anticiper des tendances... depuis au moins 20 ans. Qu'y a-t-il de nouveau dans ce domaine ? - La limite de l'IA, comme elle s'appuie sur des données du passé, c'est qu'elle est incapable de prévoir l'imprévisible. Comment avez-vous procédé ? - Est-ce que ce travail peut être reproduit dans les entreprises ? Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez un email à [email protected].

  • SAP et le data mesh

    Depuis que le concept de data mesh a émergé en 2019, la réponse des grands éditeurs de solutions centralisées était attendue. SAP n’étant clairement pas un ardent défenseur de la décentralisation, il était légitime pour ses clients de se demander comment l’editeur allait aborder le sujet.

    Lancé en 2019, formalisé en 2022 dans le livre éponyme, le concept de data mesh a convaincu un certain nombre d’entreprises comme Suez, Le bon coin, Paypal, Eurotunnel, etc. Certains ne le nomment pas, et en choisissent les principes qu’ils souhaitent appliquer. Mais tous font un pas vers la décentralisation de la responsabilité des données vers les domaines métiers, et la migration de data warehouses centralisés vers des data products, décentralisés fonctionnellement et centralisés techniquement.

    Centraliser les données ou les jeux de données ?

    La réponse de SAP est apparue récemment, elle s’appelle SAP Datasphere. Soit pour ne pas avoir à payer de royalties, soit pour ne pas avouer qu’il n’est pas l’inventeur du concept, SAP n’utilise quasiment pas l’expression data mesh dans sa communication. Mais l’objectif est clairement de répondre à cette évolution. Voyons ensemble comment.

    Il y a quelques années, SAP migrant vers le cloud, proposait comme solution centrale à un système décisionnel son offre SAP Data Warehouse Cloud. Evoluant sur les plans technologiques et marketing, SAP Data Warehouse Cloud est devenu SAP Datasphere. Et il y a tout juste un an, SAP a présenté SAP business data fabric, basée sur SAP Datasphere comme coeur de la conception des systèmes décisionnels pour ses clients. “i[Data Fabric est une architecture technique, qui permet de rassembler des données hétérogènes en provenance de plusieurs sources]i”, explique Wolfgang Epting, expert produit chez SAP. On est donc bien dans une architecture de centralisation des données. Mais en réalité, SAP défend que SAP Datasphere peut être utilisé pour centraliser, de manière technique uniquement, des données ou des jeux de données (data products) qui peuvent provenir de sources externes.

    Ainsi, en définissant et construisant les data products dans les domaines métier, comme le préconise le data mesh, mais en les stockant dans la SAP business data fabric, cette dernière devient une plateforme selfservice de jeux de données. Les quatre principes du data mesh sont bien respectés : les domaines, les jeux de données, la plateforme en libre-service, et la gouvernance fédéralisée.

    Il faudra cependant resister à la tentation de stocker les données unitaires dans SAP business data fabric et d’y fabriquer les jeux de données, auquel cas il n’y aurait plus de décentralisation et l’on retrouverait le trio data warehouse - data lake - data mart. Le data mesh est avant tout un changement de paradigme, une organisation différente, décentralisant la responsabilité des données dans les métiers, et modifiant la répartition des rôles entre l’informatique et les métiers. Les luttes de pouvoir pourraient se réveiller à l’occasion de cette mise en place…

    Cataloguer, la première pierre de l’édifice

    Qu’il s’agisse de gouvernance ou de data mesh, le catalogue des données est au centre du dispositif. SAP ou pas, sans catalogue de données, toute la gouvernance et la décentralisation des responsabilités vers les métiers, seront incomplètes et surtout bien compliquées à appliquer.

    SAP s’est beaucoup appuyé sur ses partenaires pour la création du catalogue des données. Collibra semble le partenaire éditeur privilégié. D’ailleurs, en terme de couverture fonctionnelle, comme de coût et de délai de mise en place, il n’est pas rare d’entender Collibra qualifié de “SAP des catalogues de données”.

    Jusqu’à ce que SAP annonce sa propre solution, SAP Datasphere Catalog. Il permet “ i[de découvrir, gérer et controler, toutes les données afin de garantir une gouvernance transverse de l’ensemble de leur cycle de vie]i”, explique Wolfgang Epting. Il s’appuie sur un graphe de connaissance, qui met en relation les données, les métadonnées, et les processus métier. Dès la version 1.0 de SAP Datasphere, publiée en janvier 2024, il est possible de rechercher en une fois des données et des jeux de données dans le catalogue.

    Dans la feuille de route publiée par SAP, la connexion entre les data products et le catalogue de données, est prévue pour le dernier trimestre 2024. Les data products pourront alors s’enrichir des métadonnées du catalogue. Le catalogue de données pourrait alors devenir un catalogue de data products. L’extraction automatique des métadonnées pour alimenter Datasphere est prévue pour le premier trimestre 2025. Une question intéressante se pose alors en ce qui concerne l’avenir de la coopétition avec Collibra, et de l’impact de SAP Datasphere Catalog sur les clients actuellement équipés de SAP et de Collibra… Devront ils cumuler les deux solutions ou SAP leur conseillera-t-il amicalement de se concentrer sur sa propre solution ?

    Vers le partage et la monétisation des données

    Autre évolution intéressante, la place de marché de jeux de données que pourrait devenir SAP Datasphere. Les différentes fonctionnalités liées à la publication de données et de jeux de données sont prévues dans le courant de 2024. Seule l’ouverture vers une place de marché publique est inscrite dans la vision mais non encore planifiée.

    Franchement, si le ramage de SAP business data fabric, et ses composants Datasphere et Catalog, se rapportent à leur plumage, cette évolution de l’offre de SAP est en ligne avec celle des bonnes pratiques, et c’est une bonne nouvelle. Reste à voir le prix, les ressources de mise en œuvre, et la complexité.

  • DBOS, la base de données au coeur d’un futur système d’exploitation

    Quand vous entendez le nom de Michael Stonebraker, et que vous avez quelques souvenirs de vos cours d’histoire du logiciel, vos neurones se réactivent.

    Michael Stonebraker est en effet le concepteur de Ingres, au début des années 70, qui donnera naissance à Sybase, à Postgres. Spécialiste des bases de données, il donnera naissance à de nombreuses entreprises dont Vertica, VoltDB, etc. et sera pendant plusieurs années le directeur technique de Informix.

    Et si vous avez perdu la mémoire de cette histoire des bases de données, où si vous ne vous y êtes jamais intéressé, je vous conseille la lecture du petit livre rouge du sujet : RedBook.io. Disponible gratuitement, la 5ème édition, qui date de 2015, vous permettra de comprendre comment et pourquoi ont été créés ces composants indispensables de notre système d’information, les bases de données.

    Mais ce n’est pas le sujet du jour. En effet, à 80 ans, Michael Stonebraker n’a pas l’intention de partir à la pêche au coeur de l’Amérique profonde, mais plutôt de se lancer dans un nouveau projet : DBOS !

    La réflexion de Michael Stonebraker part du rôle croissant de la donnée dans le système d’information. Notre économie “data driven”, nos entreprises “data driven”, notre architecture informatique bientôt “data driven”. Mais nos systèmes d’exploitation ne le sont pas encore; Linux par exemple.

    Pour Michael Stonebraker, il est temps de séparer les données du code du système d’exploitation, et réduire celui-ci à un petit noyau logiciel, exécutant quelques fonctions basiques de bas niveau. Tout le reste s’exécute dans la base de données. Cela fait maintenant trois ans qu’il travaille au MIT et à Stanford sur le sujet. Depuis une quinzaine d’années les bases de données relationnelles OLTP ont été grandement optimisées; elles pourraient donc aujourd’hui supporter l’exécution des tâches d’un système d’exploitation, explique-t-il. L’idée est donc de faire tourner l’OS dans la base de données.

    Une des fonctionnalités intéressantes est le “time travel debugger”. Il permet de remonter dans l’historique du système d’exploitation, par exemple en cas de cyber-attaque, et de revenir à la situation antérieure, instantanément.

    DBOS, qui compte pour l’instant une équipe de dix personnes, a levé 8,5 millions de dollars pour lancer ses activités. Michael Stonebraker en est un des cofondateurs, et le directeur technique. Un autre des cofondateurs est l’ancien directeur technique de Databricks. DBOS serait déjà en test dans une grande banque et une société du secteur agro-alimentaire.

    Pour en savoir plus, https://www.dbos.dev/

  • Normes ESG, reporting CSRD dans le domaine de la finance. On en parle avec notre invité cette semaine.

    - Le secteur financier est-il un émetteur d'externalités ? De quels types ?
    - Est-ce que la transformation numérique du secteur financier est un atout pour améliorer l'impact ESG ou au contraire un générateur de nouvelles externalités ?
    - Au coeur du sujet ESG, il y a la mesure, donc les données. Comment s'organise-t-on pour collecter et conserver ces nouvelles données ?
    - Comment s'assurer de leur qualité et de leur impartialité ?
    - Comment le système d'information doit-il s'adapter dans les prochaines années à ces nouvelles comptabilités ?

  • Cette semaine, une conversation passionnante avec Rachid Tighremt, fondateur de la société Layer Data, qui se spécialise dans l'accompagnement des projets de gouvernance des données.

    Nous parlons de conduite de projet, de choix d'un outil de catalogue de données, de la répartition des responsabilités entre l'informatique et les métiers. Nous abordons également un sujet novateur, celui du tableau de bord du projet de gouvernance : comment le construire, quels indicateurs doit-il contenir, etc.

  • Une place de marché pour cataloguer les data products

    Vous avez décidé de suivre la tendance ? Bravo ! C’est à dire de vous appuyer sur les utilisateurs métiers pour gérer et gouverner leurs données. Et vos propriétaires de données développent des data products, en négociation directe avec les consommateurs de ces mêmes données. Fantastique ! Selon plusieurs études, entre 50 et 70 % des entreprises seraient en train de planifier ou de déployer ce type d’architecture.

    Généralement, lorsque je présente cette nouvelle organisation à des entreprises, cela soulève deux questions : celle du catalogage des data products, et celle du stockage des données.

    Pour ce qui est du stockage, beaucoup de solutions ont émergé; on parle souvent de Snowflake ou de Databricks, mais également de Amazon Data Zone que je vous présentais la semaine dernière.

    En ce qui concerne le catalogage des données, c’est plus compliqué.

    Par définition, un catalogue de données catalogue … des données. Or là, ces données sont regroupées dans des jeux de données, ces fameux data products.

    Comment un catalogue de données peut-il évoluer vers un catalogue de jeux de données. C’est ce que propose depuis cette semaine Zeenea. Zeenea est un éditeur français, qui propose à ses clients une gestion de catalogue de données.

    Dans Zeenea, un Data Product est, je cite, “une collection de Jeux de Données de haute qualité et leurs métadonnées (propriétés, description, termes de glossaire liés, etc.), fournissant un contexte clair aux consommateurs de données”.

    L’éditeur a choisi de créer un magasin de data products. A l’image d’un site de commerce électronique, les utilisateurs de données vont pouvoir consulter une “Enterprise Data Marketplace”, dans laquelle les producteurs de données auront déposé leurs data products. Vous pouvez donc dans Zeenea cataloguer vos données, et partager vos data products.

    La solution est de plus basée sur un graphe de connaissance. Il permet aux utilisateurs de découvrir des données ou des data products, en suivant les liens. Les points essentiels tels que la gestion du cycle de vie, des politiques d’accès aux données, ou encore de la conformité des data products, sont pris en charge par la plateforme. A plus long terme, Zeenea envisage de décentraliser plus encore ses catalogues de données, en intégrant une forme de fédéralisation. Un catalogage géré par les utilisateurs, mais dans un cadre de gouvernance fédéral.

    Alors, appelez cela data mesh, ou pas, mais clairement Zeenea va dans la bonne direction. Allez, juste une remarque, Zeenea devrait intégrer la notion de data contracts dans sa plateforme. Ce contrat, signé entre le producteur et le consommateur d’un data product, est justement la partie qui manque à la théorie du data mesh.

  • Un peu comme Monsieur Jourdain faisait de la prose sans le savoir, la mode semble aujourd’hui de faire du Data Mesh sans le dire. Presque toutes les entreprises que je rencontre testent actuellement le concept de Data Product, permettant de faire négocier directement les producteurs et les consommateurs de données. Mais personne ne semble utiliser le terme de Data Mesh. Alors certes, inventé par Zhamak Dehghani en 2019, le data mesh est également devenu pour son inventeur l’occasion de promouvoir un outil informatique ad-hoc.

    Mais c’est surtout parce que le data mesh est assez contraignant, si l’on en respecte l’ensemble des principes. Les entreprises choisissent donc plutôt de s’en inspirer et de sélectionner les règles qu’elles souhaitent appliquer.

    Se pose bien entendu la question de l’architecture informatique qui va supporter ces data products. Hors de question de laisser chaque utilisateur gérer cela de son côté. Ce serait une catastrophe technique et de conformité. Mais on ne veut pas non plus revenir à une centralisation, dans un outil technique inaccessible aux utilisateurs… nous n’aurions alors pas progressé par rapport au data warehouse… Et n’oublions pas, pour compléter le tableau, que ces data products vont devoir partager la scène, pendant plusieurs années sans doute, avec les architectures centralisées actuelles. Difficile d’imaginer qu’une grande entreprise ait la maturité nécessaire pour que tous les utilisateurs prennent dès maintenant le contrôle de leurs données. Il va donc falloir gérer une transition par étape, avant d’envisager de décommissioner les systèmes centraux.

    Amazon propose d’apporter une réponse avec un nouveau produit, appelé Data Zone. Il s’agit d’un “espace”, où l’on va pouvoir conserver l’ensemble des données, qu’elles soient dans des data lakes, des data products, avec une logique de place de marché. En parallèle, Amazon lance un outil d’intelligence artificielle générative au service de la donnée. Il s’appelle Data Genie. Il va fonctionner de concert avec le catalogue de données Amazon Glue Data Catalog. Et s’appuie sur ce catalogue pour y ajouter un glossaire métier, permettant à l’IA générative de créer des descriptions automatisées, et de comprendre des requêtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rédigée par un spécialiste métier”, mais c’est une avancée intéressante. Attention cependant, les descriptions sont uniquement générées en anglais pour l’instant.

    Dans le cadre de la compréhension des requêtes envoyées par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutôt que de vectoriser l’ensemble des données pour essayer de les comprendre, Amazon Genie s’appuie là encore sur le catalogue; et c’est lui qui est vectorisé - à la clef, gain d’espace, de temps de calcul et de coût. Cela renforce la place centrale de la gouvernance des données, et de son catalogue au coeur de la plateforme data. Bien sur cela ne fonctionne que si vous utilisez l’ensemble de l’écosystème Amazon. L’éditeur nous dit que le lien peut être fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON… je n’appelle pas cela de l’intégration.

    Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventés par chaque fournisseur ? Je n’en suis pas certain, mais en plaçant le catalogue de données au centre de sa Data Zone, Amazon clairement va dans la bonne direction, celle de la gouvernance des données. Et celle d’une gouvernance appliquée à une architecture moderne, autour des data products, préservant cependant l’existant.