Avsnitt

  • Avec Philippe Charpentier, le CTO de NetApp France, nous abordons le "contenant" des donnĂ©es. Contenant et contenu sont mutuellement indispensables, et ils rĂ©pondent tous deux Ă  des contraintes diffĂ©rentes :

    - Les data sont enfin reconnues comme des actifs informationnelles de l'entreprise, il faut donc les protéger. Quels sont les enjeux actuels liés à la sécurité et à la confidentialité de ces données collectées par toutes les entreprises ? - Peut-on et doit-on tout conserver ? L'IA semble nous dire que oui, les lois sont un peu moins d'accord. Comment arbitrer ? - Un des éléments clef d'une stratégie data est aujourd'hui la gouvernance, comment s'assurer du cycle de vie et d'utilisation des données. Quid de la traçabilité de ces actifs tant immatériels. - En 2024, sur quoi les entreprises doivent-elles porter leur attention ? Quels conseils leur donner en matiÚre de data ?
  • IBM se lance Ă  son tour dans le data mesh et les data products. L’entreprise l’a annoncĂ© cette semaine, Ă  l’occasion d’un sĂ©minaire de prĂ©sentation de son offre appelĂ©e IBM Data Product Hub.

    Cette tendance, le « shift left », consiste Ă  transfĂ©rer peu Ă  peu la responsabilitĂ© des data aux utilisateurs mĂ©tiers, et l’autonomie qui va avec.

    Que vous appliquiez Ă  la lettre les principes du data mesh ou si vous crĂ©ez simplement des data products pour remplacer vos entrepĂŽts de donnĂ©es centralisĂ©s, vous allez passer par la recherche et l’installation d’une plateforme de jeux de donnĂ©es. Amazon, SAP, Microsoft mais Ă©galement des Ă©diteurs spĂ©cialisĂ©s comme Zeena, Meta-Analysis ou Orkestra Data se sont lancĂ©s dans la course. Nous en avons dĂ©jĂ  parlĂ© ici.

    Signe que le sujet du data mesh devient incontournable, IBM se lance Ă  son tour.

    Difficile de remettre en question ses habitudes de centralisation ! IBM annonce Data Product Hub, une plateforme, centralisée, pour stocker les data products.

    Les sources de donnĂ©es sont des entrepĂŽts de donnĂ©es ou des lakehouses – 57 connecteurs sont annoncĂ©s. Les jeux de donnĂ©es peuvent ensuite ĂȘtre analysĂ©s avec Tableau, Watsonx de IBM ou encore en Python via la librairie Pandas. Le plan de dĂ©veloppement prĂ©voit l’incorporation d’IA gĂ©nĂ©rative dans les prochaines versions, fin 2024 et dĂ©but 2025.

    Les consommateurs de donnĂ©es peuvent envoyer des requĂȘtes, demandant Ă  accĂ©der aux donnĂ©es qui les intĂ©ressent. Les producteurs de donnĂ©es peuvent personnaliser les formats de gĂ©nĂ©ration des jeux de donnĂ©es, pour s’adapter aux besoins de leurs consommateurs.

    La gouvernance de l’ensemble est bien sur facilitĂ©e. Si vous utilisez le catalogue de donnĂ©es IBM Knowledge Catalog, le Data Product Hub pourra s’y connecter. Une intĂ©gration avec Informatica est prĂ©vue fin 2024. Les jeux de donnĂ©es peuvent ĂȘtre gĂ©nĂ©rĂ©s et stockĂ©s, ou pourront ĂȘtre virtualisĂ©s Ă  partir de fin 2024. La gĂ©nĂ©ration et la mise Ă  jour des data products sera automatisĂ©e dans la version de dĂ©but 2025.

    Point trĂšs important, des data contracts et des niveaux de service peuvent ĂȘtre implĂ©mentĂ©s afin de gouverner les Ă©changes de donnĂ©es. Un tableau de bord de suivi est mĂȘme prĂ©vu. Ces contrats « lisibles par la machine » permettront dans la version de dĂ©but 2025, de mettre en place un suivi automatisĂ© de la gouvernance.

    Le Data Product Hub de IBM sera disponible en version on-premise, Ă  l’achat ou Ă  la location, ainsi qu’en version SaaS hĂ©bergĂ©e dans le cloud IBM, ou dans d’autres grands clouds. Une version d’essai de 60 jours sera proposĂ©e par l’éditeur. La version perpĂ©tuelle sera proposĂ©e Ă  partir de 250 000 $, ou en location Ă  partir de 100 000 $ par an. Le Data Product Hub est un nouveau composant ajoutĂ© Ă  la Data Fabric de IBM.

    PrĂ©parant le futur, et la monĂ©tisation des donnĂ©es, IBM inclut une fonction de place de marchĂ© – on appelle Ă©galement cela un Data Space. Mais dĂšs maintenant, les consommateurs de donnĂ©es peuvent l’utiliser pour rechercher un jeu de donnĂ©es rĂ©pondant Ă  leurs besoins. Avec toutes les difficultĂ©s que l’on constate lors des tentatives de crĂ©ation de catalogues de donnĂ©es mĂ©tier, on peut espĂ©rer que les catalogues de jeux de donnĂ©es seront adoptĂ©s, par les producteurs et les consommateurs, et seront alors correctement cataloguĂ©s !

  • Saknas det avsnitt?

    Klicka här för att uppdatera flödet manuellt.

  • 5 ans de prison, si vous tentez de prĂ©voir la dĂ©cision d’un juge

    
 mais comme toujours, les lignes jaunes sont contournables, pour peu que l’on prenne le temps de comprendre la loi.

    Je vous parle ici d’une disposition liĂ©e Ă  l’utilisation de l’intelligence artificielle dans le cadre de procĂ©dures judiciaires, tentant de prĂ©dire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes d’adapter leur stratĂ©gie.

    Aux Etats-Unis, vous l’avez certainement vu dans de nombreuses sĂ©ries criminelles, la technologie est utilisĂ©e pour analyser le profil de jurĂ©s, et tenter de prĂ©voir leur positionnement, mais Ă©galement pour analyser les dĂ©cisions prises par chaque juge.

    Rien de bien nouveau, car les prĂ©toires ont toujours Ă©tĂ© le berceau de rumeurs et de bruits de couloir : untel donne plutĂŽt raison aux femmes, untel n’aime pas les hispaniques, untel est contre l’autodĂ©fense, etc.

    Depuis toujours, les avocats ont imaginĂ© amĂ©liorer leur stratĂ©gie, persuadĂ©s que les juges sont biaisĂ©s
 tout simplement parce qu’ils sont humains. Un peu comme on commentait au lycĂ©e les professeurs qui nous Ă©taient affectĂ©s en dĂ©but d’annĂ©e, les avocats commentent les juges qui leur sont affectĂ©s en dĂ©but de procĂšs.

    Mais au fait, les juges qui portent des lunettes sont-ils plus sévÚres que ceux qui ont une bonne vue ? Et les juges aux cheveux blancs sont-ils plus tolérants avec les jeunes majeurs ? Quand aux juges qui conduisent une peugeot, sont-ils plus sévÚres que ceux qui conduisent une Audi, dans les cas de violence conjugale ?

    Questions absurdes ? Peut-ĂȘtre. Mais si l’apprentissage machine nous apprenait le contraire. Que l’ñge, la vue, la couleur des cheveux, la voiture qu’ils conduisent prĂ©sentaient une corrĂ©lation avec leurs dĂ©cisions. Si cela Ă©tait mathĂ©matiquement prouvĂ©, qu’est-ce que cela prouverait justement ? Que la justice est humaine, et donc biaisĂ©e. Dans ce cas, pourquoi ne pas l’analyser, et en utiliser les rĂ©sultats ?

    Peut-ĂȘtre mais avec des limites trĂšs claires. Une loi publiĂ©e en 2019 prĂ©cise en effet que les donnĂ©es nominatives des juges ne peuvent pas ĂȘtre utilisĂ©es. Il est donc interdit de prĂ©voir la dĂ©cision d’un juge en particulier dans une affaire. Mais elle ne peut empĂȘcher la prĂ©diction basĂ©e sur des caractĂ©ristiques, tant que celles-ci ne permettent pas de remonter Ă  la personne, au juge.

    Alors, les juges qui se savent analysĂ©s gardent-ils le mĂȘme comportement ? OĂč cela va-t-il les inciter modifier leurs dĂ©cisions ? Les Ă©tudes menĂ©es depuis 2019 semblent montrer que globalement ces caractĂ©ristiques interviennent trĂšs peu dans les dĂ©cisions. En revanche, les tribunaux, par le profil des affaires qu’ils jugent et leur volume, prennent clairement des sanctions diffĂ©rentes. Entre Bobigny et Versailles, les peines appliquĂ©es sont clairement diffĂ©rentes dans certains types d’affaires ?

    En viendra-t-on Ă  prĂ©fĂ©rer une justice artificielle, un algorithme qui appliquerait la loi, rien que la loi, sans aucune humanitĂ© ? Un film espagnol, Justicia Artificial, devrait d’ailleurs sortir en septembre prochain sur le sujet.

  • Plongeons dans les nuances de la gestion de la data pour le reporting financier et ESG, avec une attention particuliĂšre sur l'impact rĂ©cent de l'adoption de la directive CSRD. Cette rĂ©glementation, un moment charniĂšre pour le reporting financier et de durabilitĂ© intĂ©grĂ©, nĂ©cessite une assurance par une tierce partie et marque une Ă©volution significative dans la maniĂšre dont les entreprises abordent la transparence et la fiabilitĂ© de leurs donnĂ©es.

    Aujourd'hui, alors que les entreprises du monde entier se préparent à publier leurs premiers rapports CSRD obligatoires en 2025, l'impact du CSRD se révÚle avoir une étendue bien au-delà de ceux qui sont soumis à la réglementation. Le CSRD a amorcé un virage mondial vers l'intégration assurée des rapports, les chefs d'entreprise reconnaissant la demande du marché pour des données contextuelles, transparentes et crédibles qui répondent aux attentes des parties prenantes.

    En se concentrant sur les aspects pratiques et techniques, Workiva vise à clarifier comment les entreprises peuvent utiliser la data pour non seulement respecter les normes réglementaires, mais aussi pour piloter des décisions stratégiques qui favorisent un développement durable et éthique.

  • Alors que l’évolution de l’intelligence artificielle (IA) gĂ©nĂ©rative se dĂ©veloppe Ă  une vitesse exponentielle, bouleversant tous les pans de notre sociĂ©tĂ©, les lĂ©gislateurs, en Europe comme outre-Atlantique, doivent construire Ă  marche forcĂ©e un cadre propice Ă  un dĂ©veloppement Ă©thique et responsable de la technologie.

    Ainsi, courant mars, le Parlement EuropĂ©en a approuvĂ© la lĂ©gislation sur l’IA gĂ©nĂ©rative qui garantit la sĂ©curitĂ© et le respect des droits fondamentaux tout en encourageant l’innovation[1]. Celle-ci prĂ©cise notamment que l'IA gĂ©nĂ©rative doit ĂȘtre aussi transparente que possible, en dĂ©crĂ©tant que les dĂ©veloppeurs doivent dĂ©montrer prĂ©cisĂ©ment le fonctionnement du modĂšle et les donnĂ©es sur lesquelles il est entraĂźnĂ©. Par ailleurs, il y a quelques semaines, la CNIL publiait des recommandations quant au cadre juridique et aux bonnes pratiques pour le dĂ©veloppement d'un systĂšme d'IA vertueux[2].

    Dans un tel contexte, et Ă  mesure que l’IA gĂ©nĂ©rative et les grands modĂšles de langage se gĂ©nĂ©ralisent, l'intĂ©gration de ces technologies dans les opĂ©rations des entreprises s'accompagne de deux dilemmes Ă©thiques importants : une utilisation transparente et responsable ainsi que des rĂ©sultats fiables. Les graphes de connaissances pourraient constituer un moyen d'amĂ©liorer la transparence et la confiance exigĂ©es par la loi europĂ©enne sur l'IA.

    « L'IA gĂ©nĂ©rative progresse aujourd'hui Ă  une vitesse jamais vue. Si l'on ne peut espĂ©rer que les dĂ©cideurs politiques parviennent Ă  suivre le rythme de cette innovation, l'absence d’un cadre et de normes garants d’un dĂ©veloppement responsable de l’IA gĂ©nĂ©rative pourrait empĂȘcher la sociĂ©tĂ© de prendre la pleine mesure du potentiel infini de cette technologie et de la mettre au service de l’intĂ©rĂȘt gĂ©nĂ©ral.

    Pour que ces systÚmes profitent à la société dans son ensemble, inspirent confiance et répondent aux normes réglementaires clés, il est essentiel de prendre en compte l'infrastructure technologique au sens large et, surtout, les systÚmes de gestion de données. Les graphes de connaissances se distinguent comme la structuration de données essentielle qui améliore les solutions d'IA générative en apportant plus de précision, de transparence et d'explicabilité.

    En effet, les graphes de connaissances permettent des interrogations, des dĂ©ductions et des raisonnements sĂ©mantiques basĂ©s sur les relations. Ils jouent donc un rĂŽle essentiel en agissant en complĂ©ment de l'IA gĂ©nĂ©rative, en lui permettant de modĂ©liser le raisonnement humain Ă  plus grande Ă©chelle. Les graphes donnent un contexte plus profond aux donnĂ©es qui alimentent un modĂšle d’IA gĂ©nĂ©rative, ce qui permet l’explicabilitĂ© et la pertinence, pour Ă©viter les hallucinations. De plus, grĂące Ă  la gestion fine des rĂŽles et des droits sur les donnĂ©es de graphes, les organisations peuvent gĂ©rer au plus prĂšs la sĂ©curitĂ© et la confidentialitĂ©. », analyse Nicolas Rouyer, Consultant Avant-ventes Senior chez Neo4j.

  • La semaine derniĂšre Ă  Paris, c’était la grand-messe de Publicis, Vivatech. N’étant pas fan de ces grands rassemblements oĂč l’on s’autocongratule entre soi, j’ai pris l’avion pour le Sud. AprĂšs avoir traversĂ© la mĂ©diterranĂ©e, puis le dĂ©sert du Sahara, j’ai atterri Ă  LomĂ©, au Togo, oĂč se rĂ©unissaient les directeurs financiers et de contrĂŽle de gestion de l’Afrique de l’Ouest.
    Accueillis dans les locaux de la BOAD, les participants ont bien entendu parlĂ© d’intelligence artificielle, de donnĂ©es, et de comment la fonction finance en entreprise allait ĂȘtre impactĂ©e par ces Ă©volutions technologiques.
    Avaient fait le dĂ©placement les prĂ©sidents français de la DFCG, l’association des directeurs financiers, et de l’AFDCC, celle des crĂ©dit managers. Les ponts entre les financiers français et leurs pairs d’Afrique de l’Ouest sont actifs, et devraient l’ĂȘtre encore plus dans les annĂ©es Ă  venir.
    Alors bien sĂ»r, on a parlĂ© de magie, de ces outils miraculeux que l’on nous promet, et de la rĂ©volution sur l’emploi qu’ils vont provoquer. Mais avec rĂ©alisme on a surtout Ă©voquĂ© ce qui manque Ă  beaucoup d’entreprises africaines pour exploiter cette intelligence artificielle : des donnĂ©es.
    Dans des pays oĂč la part de l’économie informelle est importante, collecter et conserver des donnĂ©es semble parfois vain.
    J’ai eu un Ă©change passionnant avec le directeur financier d’un groupe de distribution. Certes, il adorerait pouvoir analyser qui achĂšte quoi, quand, avec quoi
 mais ce ne sont pas les modĂšles d’apprentissage qui lui font dĂ©faut, ce sont les donnĂ©es. Pas de remontĂ©e des lignes de tickets de caisse ; pas de carte de fidĂ©litĂ© permettant d’identifier les clients. Il manque le basique. Difficile d’aller parler d’intelligence artificielle gĂ©nĂ©rative quand manquent la culture nĂ©cessaire Ă  la collecte, Ă  la valorisation et Ă  la gouvernance de ces donnĂ©es.
    Il serait facile de pointer du doigt le retard technologique de ces pays africains. Mais c’est Ă©galement la rĂ©alitĂ© de beaucoup d’entreprises françaises. En ce moment mĂȘme, je travaille avec un industriel dans le domaine de la papeterie : il envisage prochainement la mise en place, enfin, d’une gestion des donnĂ©es de rĂ©fĂ©rence ; un service social tente de mettre en place une gouvernance, et se heurte Ă  l’absence d’architecture d’entreprise et d’ontologie des termes utilisĂ©s en interne ; et une grosse PME dans l’agro-alimentaire change enfin d’ERP et envisage son premier reporting dans un outil autre que Excel.
    Alors que retenir de tout cela ? Il faut bien sur des visionnaires, des rĂȘveurs, des innovateurs et il faut un Vivatech. Mais concrĂštement beaucoup d’entreprises n’en sont pas lĂ  ! Elles en sont mĂȘme loin. Leur faire croire qu’elles pourront bĂ©nĂ©ficier en un claquement de doigt de ces technologies magiques, ce n’est pas leur rendre service.
    Oui, c’est moins drĂŽle, moins « chevere » comme dit ma fille de 17 ans, mais mettre en place une culture de la donnĂ©e, des bonnes pratiques de gouvernance, et une architecture adaptĂ©e pour collecter, conserver et par la suite analyser cette donnĂ©e, est la prioritĂ© ! Ne me parlez pas de ChatGPT tant que vous n’avez pas ces fondations. Sinon, c’est comme si vous commandiez une Ferrari, alors que vous n’avez mĂȘme pas passĂ© le permis.

  • Vous avez entendu parler du data mesh ? Non ? C’est normal, le concept est encore jeune, il date de 2019. Mais je suis certain que vous en appliquez dĂ©jĂ  certains des principes, sans mĂȘme le savoir.
    Dans votre entreprise, comme dans la plupart, la tendance est clairement Ă  la reprise du contrĂŽle des donnĂ©es par les utilisateurs mĂ©tier. Finalement, ce sont leurs donnĂ©es, ils les produisent, les saisissent, les amĂ©liorent, les rendent disponibles. N’est-il pas normal qu’ils soient responsables, et crĂ©ditĂ©s, de leur qualitĂ©, de leur disponibilitĂ©, de leur conformitĂ©. Pourquoi leur retirer leurs donnĂ©es, pour les centraliser, hors de leur contrĂŽle dans un data warehouse, data lake, lakehouse ou que sais-je encore ? Rendre la donnĂ©e aux mĂ©tiers, permettre Ă  chacun de partager ses donnĂ©es avec d’autres, dans une plateforme commune, et encadrĂ© par de bonnes pratiques de gouvernance.
    Voici quelques-uns des mots clefs qu’il faut connaitre, pour comprendre cette tendance.
    1. Le Data Product Owner
    Le “propriĂ©taire” des donnĂ©es est celui qui connait la donnĂ©e, il est donc du cĂŽtĂ© des mĂ©tiers. A la demande du consommateur de donnĂ©es, il propose un jeu de donnĂ©es (le data product) et s’engage sur sa disponibilitĂ©, sa qualitĂ©, sa conformitĂ©, etc.
    2. Le Data Product
    C’est un jeu de donnĂ©es. Un ensemble de donnĂ©es qui rĂ©pond aux besoins d’un ou de plusieurs consommateurs de donnĂ©es. Il est dĂ©fini, crĂ©Ă©, puis produit et mis Ă  jour, en fonction des besoins du consommateur et des contraintes du data product owner. Il est encadrĂ© par le data contract et mis Ă  disposition sur la data product platform.
    3. Le Data Contract
    Le data contract est la clef de voute de l’ensemble. Il formalise, contractualise, les conditions de fourniture du data product nĂ©gociĂ©es entre le mĂ©tier producteur et le mĂ©tier consommateur. Il dĂ©finit les dĂ©tails techniques, mais aussi la qualitĂ©, la disponibilitĂ©, la conformitĂ©, du data product. Souvent produit en YAML ou JSON, il est lisible par un Être humain, et par le logiciel. Des modĂšles standardisĂ©s sont en cours de dĂ©veloppement.
    4. La Data Product Platform
    Autant la relation entre consommateur et producteur de donnĂ©es est dĂ©centralisĂ©e ; autant son hĂ©bergement et sa gestion informatique, doivent ĂȘtre centralisĂ©es ! Elle catalogue, rĂ©fĂ©rence, hĂ©berge, et met Ă  disposition les data products, en s’assurant du respect des rĂšgles du data contract.
    5. Et enfin, le Data Product Manager
    La donnĂ©e est un produit ? Elle doit donc ĂȘtre construite comme telle. Et la fonction de Data Product Manager commence Ă  apparaitre. Il comprend les donnĂ©es et leurs usages, aide Ă  la prĂ©paration du data contract, et s’assure que le data product rĂ©pond aux besoins exprimĂ©s.

  • Voici quelques-uns des sujets que nous abordons avec Jean-Paul Otte, Responsable des services stratĂ©giques chez Precisely :

    - Posons nous la question de l'impact des nouveaux usages mobiles (IOT, mobiles) sur les données. Quelles nouvelles données collectons-nous ? Et quelles sont leurs particularités ?
    - Plus l'IA se développe, plus on a besoin de l'alimenter avec des données de qualité. Comment s'assurer que les données collectées sont exactes, homogÚnes et contextualisées ?
    - Quels outils permettent de détecter cette non-qualité de données ? Peut-on la corriger ? Comment ?

  • Voici quelques-uns des sujets que nous abordons avec StĂ©phane Juillard, fondateur et CEO de Orkestra Data :

    - Qu'est qu'une data platform ? Comment peut-on dĂ©finir ce terme ? DiffĂ©rences avec un Hub, une Fabric... - Orkestra est lui-mĂȘme Ă©diteur d'une data platform. Comment vous positionnez-vous par rapport Ă  vos concurrents ? - Vous mettez en avant une plateforme orientĂ©e mĂ©tier : comment selon vous doivent se rĂ©partir les rĂŽles entre l'informatique et les mĂ©tiers en 2024 ? - Le data mesh, on en parle ? Ou c'est dĂ©jĂ  du passĂ© ? - Vous avez publiĂ© un guide comparatif des data plateformes donc vous vous comparez vous-mĂȘme Ă  vos concurrents. C'est un peu SAP qui publierait un comparatif des ERP... comment convaincre les lecteurs que ce travail a Ă©tĂ© fait de maniĂšre objective ?

    Si vous voulez vous aussi participer Ă  une Ă©mission du podcast Decideo, envoyez un email Ă  [email protected].

    Pour ne manquer aucun Ă©pisode du podcast Decideo, abonnez-vous, c'est gratuit !

  • Quel appareil pour embarquer demain l’intelligence artificielle au plus prĂšs de notre corps

    Le succĂšs d’Apple est dĂ» au travail de milliers de personnes, mais deux d’entre elles ont fait de Apple ce qu’il est devenu, on aime ou on dĂ©teste. Steve Jobs bien sĂ»r, son fondateur, mais Ă©galement Jonathan Ive, qui a supervisĂ© le design des produits pendant 27 ans. Ce qui fait la diffĂ©rence chez Apple, c’est justement cette combinaison du design de produits physiques, et d’une offre logicielle parfaitement intĂ©grĂ©e.

    Aujourd’hui, l’intelligence artificielle, ce sont des outils logiciels fantastiques, et qui continueront Ă  se dĂ©velopper dans les prochaines annĂ©es, mais utilisĂ©s Ă  partir d’appareils physiques et d’interfaces utilisateurs datĂ©es, pour ne pas dire prĂ©historiques.

    Ouvrir votre navigateur pour poser une question Ă  ChatGPT au travers d’un clavier et d’un Ă©cran
 quelle tristesse ! On peut bien sĂ»r imaginer l’adaptation des montres connectĂ©es, des casques de rĂ©alitĂ© virtuelle, ou des assistants vocaux afin qu’ils servent d’interface Ă  ces outils. Une IA dont on dit que son impact sera plus important sur notre sociĂ©tĂ© que la rĂ©volution industrielle.

    Quel outil ? Quel objet ? Quelle interface ?

    Le BlackBerry, puis l’iPhone, en leurs temps, ont inventĂ© pour nous de nouveaux usages. Le dĂ©roulement continue des pages sans fin sur les rĂ©seaux sociaux a fondamentalement changĂ© notre maniĂšre de naviguer.

    L’IA va devoir nous apporter un support au moins aussi rĂ©volutionnaire. On parle beaucoup d’un assistant personnel, d’un dispositif nous permettant d’accĂ©der en toutes situations, Ă  cette IA Ă  notre service. Un nouvel appareil qui ne serait ni un tĂ©lĂ©phone, ni un ordinateur, avec lequel nous communiquerions sans doute avec la voix, et qui serait portable, connectĂ©, lĂ©ger ; en rĂ©sumĂ©, quelque chose qui n’existe pas encore, mais qui deviendrait notre compagnon intelligent, notre deuxiĂšme cerveau dit-on parfois.

    Mais alors, qui et quand ? Bien sĂ»r je n’ai pas la rĂ©ponse dĂ©finitive Ă  ces questions.

    Mais, et c’est l’objet de cette chronique, une association annoncĂ©e il y a quelques jours mĂ©rite notre attention.

    Jony Ive, et c’est lĂ  qu’il intervient, vient d’annoncer s’associer avec Sam Altman, le patron d’OpenAI, afin de lever des fonds pour dĂ©velopper ce fameux assistant intelligent.

    Pour Sam Altman, c’est la bonne dĂ©cision. S’il ne dĂ©veloppe pas son propre appareil, OpenAI risque d’ĂȘtre cantonnĂ© Ă  son rĂŽle d’OEM, de fournir des intelligences artificielles Ă  ceux qui voudront bien les intĂ©grer. Mais il a certainement compris que le succĂšs d’Apple vient de cette intĂ©gration. D’ailleurs mĂȘme Microsoft a cherchĂ© plusieurs fois, sans grand succĂšs, Ă  dĂ©velopper ses propres matĂ©riels.

    Donc une IA sans appareil pour l’hĂ©berger, restera toujours un logiciel, Ă  la merci des choix des fournisseurs de matĂ©riels.

    En s’associant Ă  Jony Ive, il montre aussi qu’il a compris que le matĂ©riel doit ĂȘtre beau, attirant, pour que l’on ait envie de dĂ©penser beaucoup d’argent pour se l’offrir, et pour le montrer. Le rĂ©cent lancement du casque Apple Vision Pro en est encore un exemple.

    Les travaux d’Apple inquiĂštent trĂšs certainement Sam Altman ; l’abandon du projet de voiture Apple est une mauvaise nouvelle pour lui. Car ce sont des milliards qui auraient Ă©tĂ© dĂ©pensĂ©s sur ce projet et qui pourraient ĂȘtre rĂ©affectĂ©s Ă  d’autres projets, justement dans l’IA.

    Car si Apple est en retard en matiĂšre d’offre d’IA Ă  grande Ă©chelle, l’entreprise dispose justement du savoir-faire et d’appareils existants, iPhone, Apple Watch, HomePod, etc.

    Le combat des chefs pourrait ĂȘtre demain Apple contre OpenAI. Le premier dispose du savoir-faire matĂ©riel, mais doit s’amĂ©liorer sur la partie logicielle. Le second est en avance sur le logiciel, mais totalement absent de la partie matĂ©rielle.

    Donc cette nouvelle sociĂ©tĂ© qui serait en cours de crĂ©ation, pourrait lever pas moins d’un milliard de dollars. De quoi lui permettre de dĂ©velopper tranquillement son assistant personnel. Une somme que Jony Ive et Sam Altman ne devraient pas avoir trop de mal Ă  rĂ©unir. Des rumeurs courent d’ailleurs que la veuve de Steve Jobs, Laurene Powell Jobs, figurerait parmi les investisseurs. Avec ce nouveau de financement, les enjeux sont importants. Jony Ive et Laurene Powell Jobs se retrouveraient en concurrence directe avec Apple. Les conseils d’administration vont ĂȘtre tendus !

    Il manque d’ailleurs une partie importante Ă  l’association Altman – Ive : la fabrication du matĂ©riel. Maitriser comme Apple le fait, la totalitĂ© de la production est un atout Ă©norme. ARM, le fabricant de micro-processeurs serait d’ailleurs en discussion avec les fondateurs.

    Si vous voulez avoir une idĂ©e de ce que pourrait ĂȘtre demain un dispositif de ce type, jetez un Ɠil au AI Pin dĂ©veloppĂ© par la sociĂ©tĂ© Humane. Une broche que l’on porte sur sa poitrine et avec laquelle on interagit par la voix et par le geste.

    Et puis pour terminer, rĂȘvons un peu
 Et si Apple, Jonathan Ive et Sam Altman, dĂ©cidaient finalement de travailler ensemble. Les modĂšles de OpenAI, le design de Jony Ive, et la puissance de Apple. C’est un trio gagnant !

  • CĂ©cile Petitgand est l'auteur du livre : DonnĂ©es personnelles, reprenons le pouvoir - rĂ©flexions sur la gouvernance citoyenne Ă  l'Ăšre du numĂ©rique, publiĂ© aux Editions Hermann.

    Avec elle, nous nous interrogeons sur la relation parfois ambigĂŒe que nous entretenons avec nos donnĂ©es personnelles.

    Est-on en train de perdre ou au contraire pouvons-nous reprendre le contrÎle de nos données personnelles ? Le grand public commence-t-il à avoir conscience de la valeur de ses données personnelles ? Ces derniÚres années, a-t-on progressé ou regressé dans ce domaine ? Et les nouvelles générations, quelle est leur attitude vis à vis des données personnelles ? Les gouvernements montrent-ils l'exemple en protégeant et en exploitant correctement les données qu'ils collectent sur leurs citoyens ?
  • L’administration amĂ©ricaine va nommer ses premiers CAIO (Chief Artificial Intelligence Officer) et former ses comitĂ©s de gouvernance

    Suite Ă  l’Executive Order signĂ© par Joe Biden le 30 octobre 2023, l’administration amĂ©ricaine a publiĂ© un MĂ©morandum destinĂ© Ă  l’ensemble des agences et dĂ©partements de l’administration amĂ©ricaine.

    Dans ce document, Shalanda D. Young, prĂ©cise que les administrations concernĂ©es devront nommer d’ici le 28 mai 2024, un Chief Artificial Intelligence Officer (CAIO), dont le document dĂ©finit le profil, ainsi que former un comitĂ© de gouvernance de l’IA.

    Les principales responsabilités du CAIO seront les suivantes

    - coordonner l'utilisation de l'IA dans l’agence gouvernementale ;

    - promouvoir l'innovation liée à l'IA ;

    - gérer les risques liés à l'utilisation de l'IA.

    Le mĂ©morandum prĂ©cise que la personne choisie pour occuper cette fonction peut ĂȘtre le directeur des systĂšmes d’information, ou le directeur du data office ; mais il peut Ă©galement s’agir d’un recrutement extĂ©rieur. La description de poste (en pages 6 et 7 du document) permet de dĂ©tailler les trois points indiquĂ©s ci-dessus et l’ensemble des tĂąches qui leur sont connectĂ©es, dont :

    Un travail de coordination avec l’ensemble des dĂ©partements et agences de l’administration y compris dans le domaine des ressources humaines afin de prendre en compte l’impact sur les mĂ©tiers actuels et le besoin de formation ; Promotion de l’égalitĂ© et de l’inclusion dans les processus de dĂ©cision ; Identification et cartographie des risques, en particulier en matiĂšre de sĂ©curitĂ© et de respect des droits ; Établissement de procĂ©dures de contrĂŽle afin de vĂ©rifier la conformitĂ© des systĂšmes d’IA utilisĂ©s avec les lois et rĂšglements amĂ©ricains ;

    - Le document prĂ©voit que pour rĂ©aliser ces tĂąches, le CAIO doit avoir une position hiĂ©rarchique suffisamment Ă©levĂ©e pour d’une part Ă©changer avec les directions des autres agences, et d’autre part vĂ©rifier la conformitĂ© des systĂšmes d’IA implĂ©mentĂ©s dans les directions de sa propre agence.

    En parallĂšle, le document demande Ă  chaque agence de mettre en place un comitĂ© de gouvernance de l’intelligence artificielle. Il peut s’agir d’un comitĂ© existant (par exemple de gouvernance des donnĂ©es) dont les compĂ©tences seront Ă©largies Ă  l’IA.

    Devront participer Ă  ce comitĂ© au moins les dĂ©partements suivants : « informatique, cybersĂ©curitĂ©, donnĂ©es, vie privĂ©e, droits civils et libertĂ©s civiles, Ă©quitĂ©, statistiques, capital humain, achats, budget, affaires juridiques, gestion de l'agence, expĂ©rience client, Ă©valuation des programmes, et responsables de la mise en Ɠuvre de l'IA au sein du ou des bureaux de programme de l'agence. Les agences devraient Ă©galement envisager d'inclure des reprĂ©sentants de leur bureau de l'inspecteur gĂ©nĂ©ral respectif »

    AprĂšs cette avancĂ©e en matiĂšre d’organisation et de ressources, comment les autres pays vont-ils s’organiser ? Quand verra-t-on dans l’administration française, canadienne, suisse ou belge la nomination de CAIOs et de comitĂ©s de gouvernance de l’IA ?

  • Les prompts sont des donnĂ©es : va-t-il falloir les cataloguer ?

    Selon une enquĂȘte de l’Associated Press, dĂ©jĂ  70 % des rĂ©dacteurs utilisent l’IA gĂ©nĂ©rative pour produire du contenu. Les donnĂ©es sont omniprĂ©sentes dans la dĂ©marche : dans l’alimentation des modĂšles, dans les prompts et dans les contenus produits.

    Si j’écris demain un article Ă  l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander Ă  ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a dĂ©jĂ  Ă©tĂ© Ă©tabli par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriĂ©tĂ© sur ses propres crĂ©ations. L’IA n’a pas de personnalitĂ© juridique. C’est l’Humain qui a pilotĂ© l’IA qui est reconnu comme auteur de ses crĂ©ations.
    Mais demain, le journaliste, le scĂ©nariste, mais Ă©galement le programmeur, le rĂ©dacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront Ă  les produire. Pourrait-on aller jusqu’à dĂ©poser et protĂ©ger un prompt, tout comme on protĂšge un livre, un logiciel ou un scĂ©nario ? Peut-ĂȘtre est-ce une idĂ©e Ă  creuser. Juristes spĂ©cialistes de la propriĂ©tĂ© intellectuelle, je vous lance la perche !
    En tous cas, ces prompts, ce sont Ă©galement des donnĂ©es. Et il faut les collecter, les stocker, et donc peut-ĂȘtre les protĂ©ger, afin de faire le lien entre le prompt et le contenu qu’il a produit.
    En entreprise, la rĂ©plicabilitĂ© et l’explicabilitĂ© sont des sujets importants. Si je lance deux fois la mĂȘme requĂȘte sur une mĂȘme base de donnĂ©es, je dois obtenir le mĂȘme rĂ©sultat. Sinon, j’ai un problĂšme. Êtes-vous certain que le mĂȘme prompt lancĂ© dans le mĂȘme outil d’IA gĂ©nĂ©rative, produira le mĂȘme contenu ?
    Je ne crois pas, et c’est un vrai problùme.
    Si j’utilise l’IA gĂ©nĂ©rative pour transformer une question en langage naturel en requĂȘte SQL, la mĂȘme question donnera-t-elle toujours la mĂȘme rĂ©ponse ? Si non, ça sent le crĂ©page de chignon en rĂ©union du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des rĂ©sultats diffĂ©rents en fonction de l’heure de la journĂ©e, de la mĂ©tĂ©o ou de l’ñge du capitaine.

    Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilitĂ© de leur cycle de vie, le lien entre le prompt et son rĂ©sultat, etc. Des tas de mĂ©tadonnĂ©es qu’il va falloir organiser.

    Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera :
    - L’historisation des prompts utilisĂ©s, et de leurs mĂ©tadonnĂ©es ;
    - La traçabilitĂ©, le lineage, qui a menĂ© du prompt au rĂ©sultat. Quel modĂšle a Ă©tĂ© utilisĂ©, quelle version, quelles donnĂ©es d’entrainement, etc..

    Cet outil permettra Ă©galement de vĂ©rifier les droits d’accĂšs, la conformitĂ© des donnĂ©es utilisĂ©es, et produites. Et il assurera la piste d’audit nĂ©cessaire pour qu’en cas de besoin, le service conformitĂ© ou audit interne, voir une autoritĂ© extĂ©rieure, puissent remonter l’historique.

    Vous voyez que le sujet de la gouvernance de l’IA, et des donnĂ©es qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisĂ© ChatGPT pour rĂ©diger 10 lignes sur la rĂ©volution russe !

    Si vous envisagez une utilisation sĂ©rieuse, et en production, de l’intelligence artificielle, vous devrez passer par les Ă©tapes que je viens de dĂ©crire. Et si vous cherchez une idĂ©e de business Ă  crĂ©er dans le domaine du logiciel, regardez du cĂŽtĂ© d’une plate-forme de traçabilitĂ© des usages de l’IA en entreprise
 il y a tout un marchĂ© !

  • Cette semaine, Decideo a rencontrĂ© Jean-Guillaume Pelletier, associĂ© de Mindmatcher, pour parler de la cartographie des mĂ©tiers du numĂ©rique, Ă  laquelle il a collaborĂ©, pour le compte de GEN - Grande Ecole du NumĂ©rique. - Vous avez aidĂ© la Grande Ecole du NumĂ©rique, crĂ©Ă©e en 2015 par le gouvernement, Ă  cartographier les mĂ©tiers du numĂ©rique. Quel a Ă©tĂ© votre apport et votre rĂŽle dans l'Ă©tablissement de cette cartographie ? - Quelles ont Ă©tĂ© les technologies utilisĂ©es ? Et les donnĂ©es sur lesquelles vous vous ĂȘtes appuyĂ© ? - Comment avez-vous Ă©vitĂ© les biais ? - On parle de signaux faibles lorsqu'il s'agit d'anticiper des tendances... depuis au moins 20 ans. Qu'y a-t-il de nouveau dans ce domaine ? - La limite de l'IA, comme elle s'appuie sur des donnĂ©es du passĂ©, c'est qu'elle est incapable de prĂ©voir l'imprĂ©visible. Comment avez-vous procĂ©dĂ© ? - Est-ce que ce travail peut ĂȘtre reproduit dans les entreprises ? Si vous voulez vous aussi participer Ă  une Ă©mission du podcast Decideo, envoyez un email Ă  [email protected].

  • SAP et le data mesh

    Depuis que le concept de data mesh a Ă©mergĂ© en 2019, la rĂ©ponse des grands Ă©diteurs de solutions centralisĂ©es Ă©tait attendue. SAP n’étant clairement pas un ardent dĂ©fenseur de la dĂ©centralisation, il Ă©tait lĂ©gitime pour ses clients de se demander comment l’editeur allait aborder le sujet.

    LancĂ© en 2019, formalisĂ© en 2022 dans le livre Ă©ponyme, le concept de data mesh a convaincu un certain nombre d’entreprises comme Suez, Le bon coin, Paypal, Eurotunnel, etc. Certains ne le nomment pas, et en choisissent les principes qu’ils souhaitent appliquer. Mais tous font un pas vers la dĂ©centralisation de la responsabilitĂ© des donnĂ©es vers les domaines mĂ©tiers, et la migration de data warehouses centralisĂ©s vers des data products, dĂ©centralisĂ©s fonctionnellement et centralisĂ©s techniquement.

    Centraliser les données ou les jeux de données ?

    La rĂ©ponse de SAP est apparue rĂ©cemment, elle s’appelle SAP Datasphere. Soit pour ne pas avoir Ă  payer de royalties, soit pour ne pas avouer qu’il n’est pas l’inventeur du concept, SAP n’utilise quasiment pas l’expression data mesh dans sa communication. Mais l’objectif est clairement de rĂ©pondre Ă  cette Ă©volution. Voyons ensemble comment.

    Il y a quelques annĂ©es, SAP migrant vers le cloud, proposait comme solution centrale Ă  un systĂšme dĂ©cisionnel son offre SAP Data Warehouse Cloud. Evoluant sur les plans technologiques et marketing, SAP Data Warehouse Cloud est devenu SAP Datasphere. Et il y a tout juste un an, SAP a prĂ©sentĂ© SAP business data fabric, basĂ©e sur SAP Datasphere comme coeur de la conception des systĂšmes dĂ©cisionnels pour ses clients. “i[Data Fabric est une architecture technique, qui permet de rassembler des donnĂ©es hĂ©tĂ©rogĂšnes en provenance de plusieurs sources]i”, explique Wolfgang Epting, expert produit chez SAP. On est donc bien dans une architecture de centralisation des donnĂ©es. Mais en rĂ©alitĂ©, SAP dĂ©fend que SAP Datasphere peut ĂȘtre utilisĂ© pour centraliser, de maniĂšre technique uniquement, des donnĂ©es ou des jeux de donnĂ©es (data products) qui peuvent provenir de sources externes.

    Ainsi, en définissant et construisant les data products dans les domaines métier, comme le préconise le data mesh, mais en les stockant dans la SAP business data fabric, cette derniÚre devient une plateforme selfservice de jeux de données. Les quatre principes du data mesh sont bien respectés : les domaines, les jeux de données, la plateforme en libre-service, et la gouvernance fédéralisée.

    Il faudra cependant resister Ă  la tentation de stocker les donnĂ©es unitaires dans SAP business data fabric et d’y fabriquer les jeux de donnĂ©es, auquel cas il n’y aurait plus de dĂ©centralisation et l’on retrouverait le trio data warehouse - data lake - data mart. Le data mesh est avant tout un changement de paradigme, une organisation diffĂ©rente, dĂ©centralisant la responsabilitĂ© des donnĂ©es dans les mĂ©tiers, et modifiant la rĂ©partition des rĂŽles entre l’informatique et les mĂ©tiers. Les luttes de pouvoir pourraient se rĂ©veiller Ă  l’occasion de cette mise en place


    Cataloguer, la premiĂšre pierre de l’édifice

    Qu’il s’agisse de gouvernance ou de data mesh, le catalogue des donnĂ©es est au centre du dispositif. SAP ou pas, sans catalogue de donnĂ©es, toute la gouvernance et la dĂ©centralisation des responsabilitĂ©s vers les mĂ©tiers, seront incomplĂštes et surtout bien compliquĂ©es Ă  appliquer.

    SAP s’est beaucoup appuyĂ© sur ses partenaires pour la crĂ©ation du catalogue des donnĂ©es. Collibra semble le partenaire Ă©diteur privilĂ©giĂ©. D’ailleurs, en terme de couverture fonctionnelle, comme de coĂ»t et de dĂ©lai de mise en place, il n’est pas rare d’entender Collibra qualifiĂ© de “SAP des catalogues de donnĂ©es”.

    Jusqu’à ce que SAP annonce sa propre solution, SAP Datasphere Catalog. Il permet “ i[de dĂ©couvrir, gĂ©rer et controler, toutes les donnĂ©es afin de garantir une gouvernance transverse de l’ensemble de leur cycle de vie]i”, explique Wolfgang Epting. Il s’appuie sur un graphe de connaissance, qui met en relation les donnĂ©es, les mĂ©tadonnĂ©es, et les processus mĂ©tier. DĂšs la version 1.0 de SAP Datasphere, publiĂ©e en janvier 2024, il est possible de rechercher en une fois des donnĂ©es et des jeux de donnĂ©es dans le catalogue.

    Dans la feuille de route publiĂ©e par SAP, la connexion entre les data products et le catalogue de donnĂ©es, est prĂ©vue pour le dernier trimestre 2024. Les data products pourront alors s’enrichir des mĂ©tadonnĂ©es du catalogue. Le catalogue de donnĂ©es pourrait alors devenir un catalogue de data products. L’extraction automatique des mĂ©tadonnĂ©es pour alimenter Datasphere est prĂ©vue pour le premier trimestre 2025. Une question intĂ©ressante se pose alors en ce qui concerne l’avenir de la coopĂ©tition avec Collibra, et de l’impact de SAP Datasphere Catalog sur les clients actuellement Ă©quipĂ©s de SAP et de Collibra
 Devront ils cumuler les deux solutions ou SAP leur conseillera-t-il amicalement de se concentrer sur sa propre solution ?

    Vers le partage et la monétisation des données

    Autre Ă©volution intĂ©ressante, la place de marchĂ© de jeux de donnĂ©es que pourrait devenir SAP Datasphere. Les diffĂ©rentes fonctionnalitĂ©s liĂ©es Ă  la publication de donnĂ©es et de jeux de donnĂ©es sont prĂ©vues dans le courant de 2024. Seule l’ouverture vers une place de marchĂ© publique est inscrite dans la vision mais non encore planifiĂ©e.

    Franchement, si le ramage de SAP business data fabric, et ses composants Datasphere et Catalog, se rapportent Ă  leur plumage, cette Ă©volution de l’offre de SAP est en ligne avec celle des bonnes pratiques, et c’est une bonne nouvelle. Reste Ă  voir le prix, les ressources de mise en Ɠuvre, et la complexitĂ©.

  • DBOS, la base de donnĂ©es au coeur d’un futur systĂšme d’exploitation

    Quand vous entendez le nom de Michael Stonebraker, et que vous avez quelques souvenirs de vos cours d’histoire du logiciel, vos neurones se rĂ©activent.

    Michael Stonebraker est en effet le concepteur de Ingres, au début des années 70, qui donnera naissance à Sybase, à Postgres. Spécialiste des bases de données, il donnera naissance à de nombreuses entreprises dont Vertica, VoltDB, etc. et sera pendant plusieurs années le directeur technique de Informix.

    Et si vous avez perdu la mĂ©moire de cette histoire des bases de donnĂ©es, oĂč si vous ne vous y ĂȘtes jamais intĂ©ressĂ©, je vous conseille la lecture du petit livre rouge du sujet : RedBook.io. Disponible gratuitement, la 5Ăšme Ă©dition, qui date de 2015, vous permettra de comprendre comment et pourquoi ont Ă©tĂ© crĂ©Ă©s ces composants indispensables de notre systĂšme d’information, les bases de donnĂ©es.

    Mais ce n’est pas le sujet du jour. En effet, Ă  80 ans, Michael Stonebraker n’a pas l’intention de partir Ă  la pĂȘche au coeur de l’AmĂ©rique profonde, mais plutĂŽt de se lancer dans un nouveau projet : DBOS !

    La rĂ©flexion de Michael Stonebraker part du rĂŽle croissant de la donnĂ©e dans le systĂšme d’information. Notre Ă©conomie “data driven”, nos entreprises “data driven”, notre architecture informatique bientĂŽt “data driven”. Mais nos systĂšmes d’exploitation ne le sont pas encore; Linux par exemple.

    Pour Michael Stonebraker, il est temps de sĂ©parer les donnĂ©es du code du systĂšme d’exploitation, et rĂ©duire celui-ci Ă  un petit noyau logiciel, exĂ©cutant quelques fonctions basiques de bas niveau. Tout le reste s’exĂ©cute dans la base de donnĂ©es. Cela fait maintenant trois ans qu’il travaille au MIT et Ă  Stanford sur le sujet. Depuis une quinzaine d’annĂ©es les bases de donnĂ©es relationnelles OLTP ont Ă©tĂ© grandement optimisĂ©es; elles pourraient donc aujourd’hui supporter l’exĂ©cution des tĂąches d’un systĂšme d’exploitation, explique-t-il. L’idĂ©e est donc de faire tourner l’OS dans la base de donnĂ©es.

    Une des fonctionnalitĂ©s intĂ©ressantes est le “time travel debugger”. Il permet de remonter dans l’historique du systĂšme d’exploitation, par exemple en cas de cyber-attaque, et de revenir Ă  la situation antĂ©rieure, instantanĂ©ment.

    DBOS, qui compte pour l’instant une Ă©quipe de dix personnes, a levĂ© 8,5 millions de dollars pour lancer ses activitĂ©s. Michael Stonebraker en est un des cofondateurs, et le directeur technique. Un autre des cofondateurs est l’ancien directeur technique de Databricks. DBOS serait dĂ©jĂ  en test dans une grande banque et une sociĂ©tĂ© du secteur agro-alimentaire.

    Pour en savoir plus, https://www.dbos.dev/

  • Normes ESG, reporting CSRD dans le domaine de la finance. On en parle avec notre invitĂ© cette semaine.

    - Le secteur financier est-il un émetteur d'externalités ? De quels types ?
    - Est-ce que la transformation numérique du secteur financier est un atout pour améliorer l'impact ESG ou au contraire un générateur de nouvelles externalités ?
    - Au coeur du sujet ESG, il y a la mesure, donc les données. Comment s'organise-t-on pour collecter et conserver ces nouvelles données ?
    - Comment s'assurer de leur qualité et de leur impartialité ?
    - Comment le systÚme d'information doit-il s'adapter dans les prochaines années à ces nouvelles comptabilités ?

  • Cette semaine, une conversation passionnante avec Rachid Tighremt, fondateur de la sociĂ©tĂ© Layer Data, qui se spĂ©cialise dans l'accompagnement des projets de gouvernance des donnĂ©es.

    Nous parlons de conduite de projet, de choix d'un outil de catalogue de données, de la répartition des responsabilités entre l'informatique et les métiers. Nous abordons également un sujet novateur, celui du tableau de bord du projet de gouvernance : comment le construire, quels indicateurs doit-il contenir, etc.

  • Une place de marchĂ© pour cataloguer les data products

    Vous avez dĂ©cidĂ© de suivre la tendance ? Bravo ! C’est Ă  dire de vous appuyer sur les utilisateurs mĂ©tiers pour gĂ©rer et gouverner leurs donnĂ©es. Et vos propriĂ©taires de donnĂ©es dĂ©veloppent des data products, en nĂ©gociation directe avec les consommateurs de ces mĂȘmes donnĂ©es. Fantastique ! Selon plusieurs Ă©tudes, entre 50 et 70 % des entreprises seraient en train de planifier ou de dĂ©ployer ce type d’architecture.

    Généralement, lorsque je présente cette nouvelle organisation à des entreprises, cela soulÚve deux questions : celle du catalogage des data products, et celle du stockage des données.

    Pour ce qui est du stockage, beaucoup de solutions ont émergé; on parle souvent de Snowflake ou de Databricks, mais également de Amazon Data Zone que je vous présentais la semaine derniÚre.

    En ce qui concerne le catalogage des donnĂ©es, c’est plus compliquĂ©.

    Par définition, un catalogue de données catalogue 
 des données. Or là, ces données sont regroupées dans des jeux de données, ces fameux data products.

    Comment un catalogue de donnĂ©es peut-il Ă©voluer vers un catalogue de jeux de donnĂ©es. C’est ce que propose depuis cette semaine Zeenea. Zeenea est un Ă©diteur français, qui propose Ă  ses clients une gestion de catalogue de donnĂ©es.

    Dans Zeenea, un Data Product est, je cite, “une collection de Jeux de DonnĂ©es de haute qualitĂ© et leurs mĂ©tadonnĂ©es (propriĂ©tĂ©s, description, termes de glossaire liĂ©s, etc.), fournissant un contexte clair aux consommateurs de donnĂ©es”.

    L’éditeur a choisi de crĂ©er un magasin de data products. A l’image d’un site de commerce Ă©lectronique, les utilisateurs de donnĂ©es vont pouvoir consulter une “Enterprise Data Marketplace”, dans laquelle les producteurs de donnĂ©es auront dĂ©posĂ© leurs data products. Vous pouvez donc dans Zeenea cataloguer vos donnĂ©es, et partager vos data products.

    La solution est de plus basĂ©e sur un graphe de connaissance. Il permet aux utilisateurs de dĂ©couvrir des donnĂ©es ou des data products, en suivant les liens. Les points essentiels tels que la gestion du cycle de vie, des politiques d’accĂšs aux donnĂ©es, ou encore de la conformitĂ© des data products, sont pris en charge par la plateforme. A plus long terme, Zeenea envisage de dĂ©centraliser plus encore ses catalogues de donnĂ©es, en intĂ©grant une forme de fĂ©dĂ©ralisation. Un catalogage gĂ©rĂ© par les utilisateurs, mais dans un cadre de gouvernance fĂ©dĂ©ral.

    Alors, appelez cela data mesh, ou pas, mais clairement Zeenea va dans la bonne direction. Allez, juste une remarque, Zeenea devrait intĂ©grer la notion de data contracts dans sa plateforme. Ce contrat, signĂ© entre le producteur et le consommateur d’un data product, est justement la partie qui manque Ă  la thĂ©orie du data mesh.

  • Un peu comme Monsieur Jourdain faisait de la prose sans le savoir, la mode semble aujourd’hui de faire du Data Mesh sans le dire. Presque toutes les entreprises que je rencontre testent actuellement le concept de Data Product, permettant de faire nĂ©gocier directement les producteurs et les consommateurs de donnĂ©es. Mais personne ne semble utiliser le terme de Data Mesh. Alors certes, inventĂ© par Zhamak Dehghani en 2019, le data mesh est Ă©galement devenu pour son inventeur l’occasion de promouvoir un outil informatique ad-hoc.

    Mais c’est surtout parce que le data mesh est assez contraignant, si l’on en respecte l’ensemble des principes. Les entreprises choisissent donc plutĂŽt de s’en inspirer et de sĂ©lectionner les rĂšgles qu’elles souhaitent appliquer.

    Se pose bien entendu la question de l’architecture informatique qui va supporter ces data products. Hors de question de laisser chaque utilisateur gĂ©rer cela de son cĂŽtĂ©. Ce serait une catastrophe technique et de conformitĂ©. Mais on ne veut pas non plus revenir Ă  une centralisation, dans un outil technique inaccessible aux utilisateurs
 nous n’aurions alors pas progressĂ© par rapport au data warehouse
 Et n’oublions pas, pour complĂ©ter le tableau, que ces data products vont devoir partager la scĂšne, pendant plusieurs annĂ©es sans doute, avec les architectures centralisĂ©es actuelles. Difficile d’imaginer qu’une grande entreprise ait la maturitĂ© nĂ©cessaire pour que tous les utilisateurs prennent dĂšs maintenant le contrĂŽle de leurs donnĂ©es. Il va donc falloir gĂ©rer une transition par Ă©tape, avant d’envisager de dĂ©commissioner les systĂšmes centraux.

    Amazon propose d’apporter une rĂ©ponse avec un nouveau produit, appelĂ© Data Zone. Il s’agit d’un “espace”, oĂč l’on va pouvoir conserver l’ensemble des donnĂ©es, qu’elles soient dans des data lakes, des data products, avec une logique de place de marchĂ©. En parallĂšle, Amazon lance un outil d’intelligence artificielle gĂ©nĂ©rative au service de la donnĂ©e. Il s’appelle Data Genie. Il va fonctionner de concert avec le catalogue de donnĂ©es Amazon Glue Data Catalog. Et s’appuie sur ce catalogue pour y ajouter un glossaire mĂ©tier, permettant Ă  l’IA gĂ©nĂ©rative de crĂ©er des descriptions automatisĂ©es, et de comprendre des requĂȘtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rĂ©digĂ©e par un spĂ©cialiste mĂ©tier”, mais c’est une avancĂ©e intĂ©ressante. Attention cependant, les descriptions sont uniquement gĂ©nĂ©rĂ©es en anglais pour l’instant.

    Dans le cadre de la comprĂ©hension des requĂȘtes envoyĂ©es par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutĂŽt que de vectoriser l’ensemble des donnĂ©es pour essayer de les comprendre, Amazon Genie s’appuie lĂ  encore sur le catalogue; et c’est lui qui est vectorisĂ© - Ă  la clef, gain d’espace, de temps de calcul et de coĂ»t. Cela renforce la place centrale de la gouvernance des donnĂ©es, et de son catalogue au coeur de la plateforme data. Bien sur cela ne fonctionne que si vous utilisez l’ensemble de l’écosystĂšme Amazon. L’éditeur nous dit que le lien peut ĂȘtre fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON
 je n’appelle pas cela de l’intĂ©gration.

    Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventĂ©s par chaque fournisseur ? Je n’en suis pas certain, mais en plaçant le catalogue de donnĂ©es au centre de sa Data Zone, Amazon clairement va dans la bonne direction, celle de la gouvernance des donnĂ©es. Et celle d’une gouvernance appliquĂ©e Ă  une architecture moderne, autour des data products, prĂ©servant cependant l’existant.