social – Smals Research

🎂 ChatGPT a 1 an 🎂

Joachim Ganseman — Fri, 01 Dec 2023 06:41:54 +0000

Dit artikel is ook te lezen in het Nederlands.

Cet article a été traduit du néerlandais. Les liens peuvent pointer vers des sources en néerlandais.

Le 30 novembre 2022, ChatGPT a été révélé au monde entier. Le chatbot polyvalent, qui peut traiter de presque tous les sujets, a immédiatement conquis un large public. Les générateurs d’images, tels que DALL-E et Stable Diffusion, sont venus s’ajouter à cela et, aujourd’hui, la situation est claire : L’IA générative a de beaux jours devant elle. Nous avons nous-mêmes commencé à l’utiliser immédiatement, et nous avons écrit un article sur nos premières découvertes 10 jours après le lancement.

1 an plus tard, l’impact de ChatGPT peut être qualifié de transformateur. L’écosystème autour de l’IA générative est en plein essor. Ce qui relevait du domaine des rêveries irréalistes il y a 3 ans est soudain devenu réalisable et est en production aujourd’hui. D’innombrables start-ups voient le jour : le compteur du site web There’s an AI for that a depuis dépassé les 10 000, le mois de mars 2023 comptant à lui seul 1209 nouvelles entreprises d’IA. À titre de comparaison, pour l’ensemble de l’année 2021, il n’y a que 288 start-ups dans la même base de données.

L’impact et la célérité avec lesquels tout évolue suscitent également de la nervosité. L’enseignement, par exemple, doit s’adapter dans la précipitation à une nouvelle réalité. L’étudiant moyen a désormais facilement accès à une technologie qui lui permet de rédiger une dissertation entière en quelques secondes – et lorsque South Park y consacre un épisode, on sait que le phénomène prospère. Plus proche de nous, de nombreuses universités ont publié des lignes directrices ou des conseils sur son utilisation (par ex. Louvain, Gand, Anvers). Celles-ci sont bien pensées et pourraient bien inspirer des lignes directrices similaires dans les entreprises et les gouvernements.

L’on observe également de nombreuses expérimentations dans des contextes professionnels. “Aucune idée, mais demande à ChatGPT” est devenu une déclaration typique lorsqu’il y a un besoin de nouveaux inputs. Un sondage réalisé par Nature a fait ressortir qu’un grand nombre de scientifiques avaient déjà exploré la technologie dans un cadre professionnel. Dans le monde universitaire, l’on se demande si le fait de soumettre d’épais dossiers de subvention a un sens, si la rédaction de ceux-ci est automatisable. Nul doute que des observations similaires émergent également dans d’autres secteurs.

DALL-E 2 est un générateur d’images à partir d’une description textuelle.

Petite rétrospective

OpenAI mène toujours la danse, et son propre blog donne un bon aperçu des développements de l’année écoulée. Une timeline avec quelques moments clés :

17 janvier 2023 : Microsoft lance le service Azure OpenAI, rendant les technologies OpenAI disponibles sur Azure,
1 février 2023 : Le service d’abonnement ChatGPT Plus offre un accès prioritaire à ChatGPT (hautement sursollicité) pour 20 $/mois,
1 mars 2023 : ChatGPT devient disponible via API,
14 mars 2023 : Lancement de GPT-4 pour les utilisateurs de ChatGPT Plus,
23 mars 2023 : Lancement des premiers plugins,
13 juin 2023 : Une version mise à jour de ChatGPT peut configurer et exécuter des appels vers des fonctions externes,
20 juillet 2023 : Avec “custom instructions“, ChatGPT peut être configuré pour toujours prendre en compte certains éléments,
22 août 2023 : L’API Finetuning permet d’affiner l’output de ChatGPT,
28 août 2023 : Lancement de ChatGPT Enterprise,
25 septembre 2023 : Les utilisateurs peuvent utiliser la voix et les images dans les conversations,
19 octobre 2023 : ChatGPT peut générer des images avec DALL-E 3,
6 novembre 2023 : Introduction des GPT qui permettent aux amateurs de construire un ChatGPT personnalisé qui fouille des documents spécifiques, et des Assistants API destinée aux programmeurs pour réaliser une action similaire.

Ce dernier pas n’est pas reçu par tous avec enthousiasme : de nombreuses start-ups dans l’écosystème de l’IA générative viennent de construire le cœur de leur activité autour du concept de Retrieval-Augmented Generation (RAG), et OpenAI leur fait directement concurrence avec ses GPT personnalisés. (De mauvaises langues prétendent que cela aurait joué un rôle dans le conflit du CEO deux semaines plus tard, mais ces rumeurs n’ont pas encore été prouvées).

Retrieval-Augmented Generation (RAG), avec langchain comme bibliothèque la plus populaire pour les développeurs, est devenu au cours de l’année écoulée le moyen de faire en sorte que les Large Language Models s’accrochent à des informations spécifiques, internes ou récentes. L’idée découle du fait que, pendant ce temps, le prompt – c’est-à-dire la commande que l’on donne au modèle de langue – peut être si long qu’il y a de la place pour ajouter des pages entières d’informations supplémentaires. En enrichissant le prompt avec, par exemple, les résultats d’une recherche ou les dernières nouvelles, un chatbot peut encore formuler des réponses basées sur des informations récentes ou du contenu provenant de bases de données spécifiques, sans que le modèle de langue sous-jacent n’ait besoin d’être entraîné sur ces bases.

Microsoft s’est empressé de concrétiser cette idée. Avec Bing Chat, elle a lancé une nouvelle interface de recherche conversationnelle, qui utilise les résultats de Bing Search pour ses réponses. L’avantage est que cette interface peut afficher de manière transparente les citations de sources ou les références. Cependant, il convient de garder à l’esprit que cela ne garantit pas l’exactitude des réponses : les résultats de la recherche peuvent toujours ne pas être pertinents, et les résumés incorrects ou incomplets. Entre-temps, le produit fut un succès, et Microsoft a décidé de mettre le paquet : entre-temps, Bing Chat a été rebaptisé Microsoft CoPilot, a été intégré au navigateur Edge, et est également disponible dans Windows 11 et Microsoft 365 (anciennement Office). Pour pouvoir exploiter cette fonctionnalité, il faut donner l’autorisation dans l’application de partager des documents ouverts ou des contenus de pages web avec le service CoPilot.

Aujourd’hui, Microsoft CoPilot est intégré dans le navigateur Edge et peut fournir des réponses aux questions sur des pages web ouvertes.

Microsoft fait également figure de précurseur en matière d’images : Le Bing Image Creator offre un accès gratuit au générateur DALL-E 3 (pour l’instant), et ses résultats sont intégrés de manière transparente dans le nouveau Microsoft Designer.

Google a eu moins de succès avec son équivalent Bard. Le lancement a mal tourné lorsque Bard a répondu par un fait erroné (une hallucination), ce qui a fait chuter le cours de l’action de Google. Par rapport à OpenAI et Microsoft, Google semble moins préoccupé par l’intégration et l’expérience utilisateur, et se concentre plutôt sur le fond théorique et l’approfondissement des possibilités technologiques.

Meta, bien sûr, ne veut pas être en reste et joue la carte du logiciel quasi open-source avec ses propres modèles de langue Llama, en mettant l’accent sur le terme “quasi”. La société semble se concentrer principalement sur les développeurs individuels, pour lesquels Meta souhaite faciliter la réutilisation ou le réentraînement de leurs modèles de langue, comme l’a fait Stanford avec sa variante Alpaca, entre autres. La société vise également le déploiement sur du matériel standard, grâce à la bibliothèque llama.cpp, qui permet de quantifier un modèle : arrondir intelligemment les paramètres d’un modèle entraîné pour réduire l’empreinte mémoire, au prix d’une perte de précision faible mais acceptable. Une quantification de 32 bits à 8 bits fait qu’un modèle de 13 milliards de paramètres nécessite non pas 52 Go mais seulement 13 Go de mémoire vive. Il s’intègre donc parfaitement dans la mémoire des cartes graphiques actuelles dotées de 16 ou 24 Go de vRAM. Des outils intuitifs permettant d’héberger des modèles quantifiés sur votre propre ordinateur sont GPT4All , MLC, ollama ou LMStudio.

Plusieurs entreprises plus petites sont également dans la course, développant leurs propres modèles de langue qui pourraient servir de backend pour des services de type ChatGPT ou des applications RAG. Il convient de mentionner Anthropic, créée par d’anciens employés d’OpenAI, qui met particulièrement l’accent sur la transparence et la sécurité avec ses modèles Claude. De son côté, l’européenne Mistral a démarré sur les chapeaux de roues. Avec d’anciens employés de Meta à sa tête, elle exploite un modèle véritablement open-source et est donc principalement en concurrence avec Meta. Pour la zone linguistique néerlandaise, des projets sont en cours pour développer, par l’intermédiaire de l’organisation de recherche TNO, un GPT-NL indépendant qui devrait également constituer une alternative aux grands acteurs américains, en mettant l’accent sur le respect des lois européennes.

Petite prospective

Bon nombre d’entreprises doivent encore s’atteler à l’adaptation de leurs propres modèles d’entreprise à l’essor de l’IA. Nous n’en sommes toutefois qu’aux premiers stades d’une période de forte croissance pour l’IA, et il est difficile de prévoir ce que les prochaines années nous réservent. Rester à l’affût des évolutions est une première étape. The Batch de DeepLearning.AI est une newsletter excellente qui suit l’évolution de la situation et qui fournit chaque semaine un résumé concis des événements clés de l’industrie. Ceux qui cherchent à élargir et à approfondir leurs connaissances trouveront également une solide offre de cours sur le même site web, comme celui-ci : Generative AI for Everyone. Microsoft propose un cours Generative AI for Beginners (IA générative pour les débutants) destiné aux développeurs. Le site finlandais Elements Of AI propose l’un des cours gratuits les plus accessibles au grand public, et il en existe bien d’autres.

Aujourd’hui déjà, les chefs d’entreprise et les dirigeants sont confrontés à tous ces nouveaux développements dans les entreprises ou dans l’administration, et veulent formuler une réponse – ou au moins élaborer un code de conduite. Le moniteur de gestion du Knowledge Centre Data and Society rassemble des exemples nationaux et internationaux qui peuvent servir d’inspiration à ceux qui ne veulent pas réinventer l’eau chaude. Le AI Standards Hub du Royaume-Uni rassemble des publications pertinentes sur les normes industrielles liées à l’IA. À un niveau international plus abstrait, l’OCDE, entre autres, exerce un monitoring actif. L’évolution rapide du terrain ne facilite certainement pas le travail législatif. Au niveau européen, le IA Act annoncé est reporté. Cela n’a pas empêché Stanford d’évaluer déjà les principaux acteurs existants sur la base du projet de texte qui nous est soumis.

En attendant, rien n’empêche une entreprise ou un gouvernement de se lancer et d’expérimenter la technologie. Toutefois, il est crucial de rester prudent et de ne pas pas perdre le sens commun. ChatGPT n’est pas une solution miracle. Aucun mécanisme de sécurité ne peut garantir qu’un modèle de langue n’aura pas d’hallucinations ou ne présentera pas des textes complètement inventés comme des faits. Bien que les datasets d’entraînement de nombreux modèles de langue soient secrets, nous savons qu’ils sont si volumineux qu’il est impossible d’y effectuer une sélection et un filtrage précis. Les LLM sont aujourd’hui des boîtes noires ; il est impossible de retracer l’origine d’un choix de mots particulier dans une réponse. Il est donc impossible, en toute logique, de créer des applications critiques aveuglément sur la base de ces systèmes. De toute évidence, ce serait une mauvaise idée de faire traiter des données médicales, sans aucune supervision, par un modèle de langue partiellement formé sur des textes piochés au hasard sur le net par des théoriciens du complot, des antivax, des influenceurs d’Instagram, des homéopathes et d’autres charlatans.

Illustration générée par Microsoft Image Creator (DALL-E 3) sur la base du prompt : “An AI is helping a programmer solve a difficult problem in the IDE. Focus on the computer screen containing flawed code. We only see the back of the people.”

En parlant de charlatans, on voit régulièrement apparaître des prophètes de malheur qui, pour attirer l’attention, font des déclarations de plus en plus grotesques, allant jusqu’à prédire l’extinction de I’Humanité. (L’inverse existe aussi : ceux qui croient que l’utopie est proche). La disproportion de ces déclarations témoigne d’un manque de connaissances et d’un manque de contact avec la réalité. Après tout, malgré tous les progrès réalisés, nous sommes encore bien loin des robots capables de repasser vos vêtements. Des affirmations farfelues détournent la discussion des problèmes qui se posent aujourd’hui dans le monde réel : les abus tels que les “deepfakes“, l’élargissement de la fracture numérique, le manque de possibilités de contester les décisions automatiques, l’utilisation de données sans autorisation ni mention de la source, … autant de questions qui requièrent une attention soutenue et pour lesquelles l’Europe joue un rôle actif de pionnier. Ces éléments ne doivent pas être des facteurs bloquants, puisque même en gardant la tête sur les épaules, ce ne sont pas les opportunités qui manquent.

Dans un récent éditorial, Bill Gates a été acclamé pour sa vision de l’évolution dans un avenir proche. Selon cette vision, les chatbots évolueront en “agents“, c’est-à-dire qu’ils disposeront d’une autonomie (limitée) pour prendre des mesures, éventuellement supervisées. Là où les co-Pilots font encore partie d’une application, ceux-ci deviendront également plus génériques, avec l’intention que les futurs agents puissent fonctionner à travers les applications, comme les assistants personnels. En effet, il reste encore beaucoup de travail à accomplir pour y parvenir : des protocoles qui permettent aux applications de mieux communiquer entre elles, des moyens d’échanger des données en toute sécurité tout en préservant la vie privée, …

Enfin, la dépendance à l’égard de modèles énormes et non transparents (GPT-3, GPT-4) avec un service en cloud externe reste une pilule difficile à avaler lorsque des données internes ou sensibles sont susceptibles d’être traitées. Il est impossible de prévoir quelles données un utilisateur typique pourrait communiquer à un chatbot, et avec les plugins de type CoPilot, il est souvent difficile de retrouver les données que le plugin lit et transmet en arrière-plan. Toutefois, le RGPD impose des exigences strictes et concrètes. Tout le monde ne considère pas qu’une promesse ou même un accord contractuel stipulant que les données reçues ne seront pas stockées ou réutilisées soit suffisant pour avoir soudainement une confiance aveugle.

L’alternative logique consiste à déployer localement des modèles plus petits. Cependant, la qualité de leur output est par conséquent plus faible, ce qui est décevant si les attentes élevées créées par ChatGPT sont le point de référence. Les modèles plus petits ne disposent pas du multilinguisme fluide de ChatGPT et travaillent avec des prompts beaucoup plus compacts, ce qui complique l’élaboration d’applications RAG. Une recherche diligente et multidirectionnelle est en cours pour combler cette lacune. On voit des innovations permettant d’affiner (spécialiser) des modèles plus petits pour une tâche spécifique, de façon efficace et avec moins de données. Le concept de distillation – compression d’un modèle – semble également prometteur. Il semble également préférable de s’entraîner sur peu de données correctes mais de qualité, plutôt que sur un grand nombre de données désordonnées et potentiellement erronées. En outre, pour toute application, il reste à trouver les bons équilibres en termes de choix de modèle, l’ingénierie du prompt, le réglage fin et le RAG.

Le terrain de jeu est bel et bien ouvert, l’innovation ne manque pas, et nous pouvons certainement nous attendre à de nouvelles améliorations dans un avenir proche. Une année des plus intéressantes nous attend sans aucun doute !

______________________

Cette contribution a été soumise par Joachim Ganseman, consultant IT chez Smals Research. Elle a été rédigée en son nom propre et ne prend pas position au nom de Smals.

🎂 1 jaar ChatGPT 🎂

Joachim Ganseman — Wed, 29 Nov 2023 08:02:17 +0000

Cet article est aussi disponible en français.

Op 30 november 2022 werd ChatGPT op de wereld losgelaten. De algemene chatbot die kan meepraten over vrijwel alles, brak onmiddellijk door bij een breed publiek. Generatoren voor afbeeldingen, zoals DALL-E en Stable Diffusion, deden daar nog een hele schep bovenop en ondertussen is het wel duidelijk: Generative AI is here to stay. Zelf gingen we er ook direct mee aan de slag, en schreven 10 dagen na de lancering al een artikel over onze eerste bevindingen .

1 jaar later mag de impact van ChatGPT gerust transformatief genoemd worden. Het ecosysteem rond generatieve AI boomt. Wat 3 jaar geleden nog tot het domein van de onrealistische dromen behoorde, werd plots haalbaar en staat vandaag in productie. Talloze start-ups zien het licht: de teller op de website There’s an AI for that is ondertussen de 10.000 gepasseerd, met maart 2023 alleen al goed voor 1209 nieuwe AI-bedrijfjes. Ter vergelijking, voor het volledige jaar 2021 staan er maar 288 start-ups in diezelfde database.

De impact en de snelheid waarmee alles evolueert zorgt ook voor zenuwachtigheid. Zo moet het onderwijs zich in zeven haasten aanpassen aan een nieuwe realiteit. De gemiddelde scholier heeft nu vlot toegang tot technologie die binnen enkele seconden een heel essay kan schrijven – en als South Park er een episode aan wijdt, weet je dat het leeft. Dichter bij huis hebben veel universiteiten ondertussen richtlijnen of adviezen opgesteld over het gebruik ervan (vb. Leuven, Gent, Antwerpen). Die zijn goed doordacht en mogen gerust inspiratiebron zijn voor gelijkaardige richtlijnen bij bedrijven en overheden.

Ook in professionele contexten wordt volop geëxperimenteerd. “Geen idee, maar vraag het eens aan chatGPT” is een typische uitspraak geworden als er nood is aan frisse nieuwe input. Een rondvraag van Nature toonde dat nogal wat wetenschappers de technologie al verkend hebben voor hun werkgerelateerde verplichtingen. In academia wordt luidop de vraag gesteld of het indienen van vuistdikke subsidiedossiers überhaupt nog veel zin heeft, als het schrijven ervan voor automatisering vatbaar is. Gelijkaardige bemerkingen worden ongetwijfeld ook in andere sectoren gemaakt.

DALL-E 2 is een generator die afbeeldingen genereert uit een tekstuele beschrijving.

Een terugblik

OpenAI blijft de dans leiden, en hun eigen blog geeft een goed beeld van de ontwikkelingen van het afgelopen jaar. Een tijdslijn met enkele sleutelmomenten:

17 januari 2023: Microsoft lanceert de Azure OpenAI service, waarmee de OpenAI technologieën beschikbaar worden op Azure,
1 februari 2023: Abonnementsdienst ChatGPT Plus biedt voor $20/maand prioritaire toegang tot het (sterk overbevraagde) ChatGPT,
1 maart 2023: ChatGPT wordt beschikbaar via API,
14 maart 2023: Lancering van GPT-4 voor ChatGPT Plus gebruikers,
23 maart 2023: De eerste plugins worden gelanceerd,
13 juni 2023: Een updated ChatGPT kan calls naar externe functies opstellen én uitvoeren,
20 juli 2023: Met “custom instructions” kan ChatGPT geconfigureerd worden om met bepaalde dingen altijd rekening te houden,
22 augustus 2023: Met de Finetuning API kan ChatGPT output worden verfijnd,
28 augustus 2023: Lancering van ChatGPT Enterprise,
25 september 2023: Gebruikers kunnen spraak en afbeeldingen gebruiken in de conversatie,
19 oktober 2023: ChatGPT kan afbeeldingen genereren met DALL-E 3,
6 november 2023: Introductie van GPTs waarmee je als leek een custom ChatGPT kan samenstellen die specifieke documenten doorzoekt, en de Assistants API om iets gelijkaardigs te doen als programmeur.

Die laatste zet wordt niet unaniem op gejuich onthaald: veel start-ups in het ecosysteem van generatieve AI hebben net de kern van hun hele business gebouwd rond het concept van Retrieval-Augmented Generation (RAG), en OpenAI gaat daar met hun custom GPTs direct mee in concurrentie. (Kwatongen beweren dat dit meegespeeld zou hebben in de CEO-soap van twee weken later, maar die geruchten zijn vooralsnog niet bewezen).

Retrieval-Augmented Generation (RAG), met langchain als populairste library voor developers, is het afgelopen jaar uitgegroeid tot dé manier om Large Language Models te laten inhaken op specifieke, interne of recente informatie. Het idee volgt uit het feit dat de prompt – dit is de opdracht die men geeft aan het taalmodel – ondertussen zodanig lang mag zijn dat er ruimte is om hele bladzijden aan bijkomende informatie toe te voegen. Door de prompt te verrijken met, bijvoorbeeld, de resultaten van een zoekopdracht of de laatste nieuwsberichten, kan een chatbot toch antwoorden formuleren op basis van recente informatie of inhoud van specifieke databases, zonder dat het achterliggende taalmodel daarop getraind hoeft te zijn.

Microsoft was er als de kippen bij om dat om te zetten in de praktijk. Met Bing Chat lanceerden ze een nieuwe conversationele zoekinterface, die voor haar antwoorden de resultaten van Bing Search gebruikt. Het voordeel is dat er transparant bronvermeldingen of referenties bij getoond kunnen worden. We moeten wel alert blijven dat dat nog steeds geen correctheid garandeert: zoekresultaten kunnen nog steeds irrelevant zijn, en samenvattingen foutief of onvolledig. Het product was wel een schot in de roos en Microsoft gaat nu all-in: ondertussen heeft Bing Chat een rebranding ondergaan naar Microsoft CoPilot, is het geïntegreerd in de Edge browser, en is het ook in Windows 11 en Microsoft 365 (het vroegere Office) beschikbaar geworden. Om deze functionaliteit te kunnen benutten, moet in de app de toelating worden gegeven om geopende documenten of webpagina-inhoud te mogen delen met de CoPilot service.

Microsoft CoPilot is vandaag al geïntegreerd in de Edge browser en kan antwoorden geven op vragen over geopende webpagina’s.

Ook op het vlak van afbeeldingen loopt Microsoft in het koppeloton: De Bing Image Creator biedt (voorlopig) vrije toegang tot de DALL-E 3 generator, en de resultaten ervan worden naadloos geïntegreerd in het nieuwe Microsoft Designer.

Google heeft minder succes met zijn eigen concurrerende Bard. Bij de introductie liep het grondig mis toen Bard met een onjuist feit (een hallucinatie) antwoordde, en de beurskoers van Google klappen kreeg. In vergelijking met OpenAI en Microsoft, lijkt Google minder bezig te zijn met integratie en gebruikerservaring, en eerder haar focus te leggen op de theoretische achtergrond en uitdieping van de technologische mogelijkheden.

Meta wil natuurlijk niet achterblijven en trekt met haar eigen Llama taalmodellen de quasi-open-source-kaart, met nadruk op quasi. Hun focus lijkt vooral te liggen op de individuele developers, voor wie ze het gemakkelijk willen maken om hun taalmodellen te hergebruiken of hertrainen, wat o.a. Stanford deed met haar Alpaca variant. Ze mikken ook op inzetbaarheid op doorsnee hardware, via de succesvolle library llama.cpp, waarmee een model gequantizeerd kan worden: het slim afronden van de parameters van een getraind model voor een kleinere geheugenvoetafdruk, ten koste van een klein maar aanvaardbaar verlies aan precisie. Een quantizatie van 32 bits naar 8 bits, maakt dat een model van 13 miljard parameters geen 52GB maar slechts 13GB RAM vereist. Zo past het volledig in het geheugen van hedendaagse grafische kaarten met 16GB of 24GB vRAM. Gebruiksvriendelijke tools om gequantizeerde modellen op je eigen computer te hosten, zijn GPT4All , MLC, ollama of LMStudio.

Verschillende kleinere bedrijven zitten ook nog in de race en ontwikkelen hun eigen taalmodellen die als backend voor chatGPT-achtige diensten of RAG-toepassingen kunnen dienen. Vermeldenswaardig zijn Anthropic, van ex-OpenAI werknemers, dat vooral de nadruk wil leggen op transparantie en veiligheid, met haar Claude-modellen. Daarnaast kende het Europese Mistral een vliegende start. Met ex-Meta werknemers aan het roer, hanteert het een écht open source model en het gaat zo vooral concurrentie aan met Meta. Voor het Nederlands taalgebied zijn er plannen om, via de onderzoeksorganisatie TNO, een onafhankelijk GPT-NL te ontwikkelen dat ook een alternatief moet vormen voor de grote Amerikaanse spelers, en waarbij de focus moet liggen op het respecteren van de Europese wetten.

Een vooruitblik

Veel bedrijven moeten nog beginnen aan de oefening om hun eigen businessmodellen aan de opkomst van AI aan te passen. We zitten echter nog volop in de beginfase van een sterke groeiperiode voor (generatieve) AI, en het is moeilijk te voorzien wat de volgende jaren zullen brengen. Op de hoogte blijven van de evoluties is een eerste stap. Een uitstekende nieuwsbrief die de vinger aan de pols houdt, is The Batch van DeepLearning.AI, die elke week een bondige samenvatting maakt van de belangrijkste gebeurtenissen in de sector. Wie de kennis wil verbreden en verdiepen, vindt op dezelfde website ook een degelijk cursusaanbod, zoals deze: Generative AI for Everyone . Microsoft heeft een cursus Generative AI for Beginners uitgewerkt die gericht is op developers. Het Finse Elements Of AI heeft een van de meest toegankelijke gratis cursussen voor een algemeen publiek, en er zijn er nog vele andere.

Bedrijfsleiders en beleidsmakers worden vandaag al geconfronteerd met al deze nieuwe ontwikkelingen op de werkvloer of in de administratie, en willen hierop een antwoord formuleren – of toch minstens een gedragscode ontwikkelen. De beleidsmonitor van het Kenniscentrum Data en Maatschappij verzamelt voorbeelden in binnen- en buitenland die als inspiratie kunnen dienen, voor wie het warm water niet opnieuw wil uitvinden. Het Britse AI Standards Hub verzamelt relevante publicaties over industriestandaarden met betrekking tot AI. Op een abstracter internationaal niveau is o.a. de OESO actief bezig met monitoring. Het zich snel veranderende landschap maakt het wetgevend werk zeker niet gemakkelijker. Op Europees niveau loopt de verwachte AI act alleszins vertraging op. Dit weerhield Stanford er niet van om de bestaande grote spelers al eens te evalueren op basis van de ontwerptekst die nu voorligt.

Ondertussen houdt niets een bedrijf of overheid tegen om al aan de slag te gaan en te experimenteren met de technologie. Het blijft daarbij wel belangrijk om niet te hard van stapel te lopen en het gezond verstand niet overboord te gooien. ChatGPT is geen mirakeloplossing. Geen enkele hoeveelheid veiligheidsmechanismes kan garanderen dat een taalmodel niet zou hallucineren of compleet verzonnen tekstjes zou presenteren als feiten. Van veel taalmodellen zijn de trainingsdatasets geheim, maar we weten wel dat ze zo groot zijn dat er onmogelijk een nauwkeurige selectie en filtering op gebeurd kan zijn. LLMs zijn vandaag black boxes; de oorsprong van een bepaalde woordkeuze in een antwoord is niet te achterhalen. Dit alles maakt ze logischerwijs ongeschikt om er klakkeloos kritische toepassingen op te bouwen. Het is evident dat het een slecht idee zou zijn om, zonder enige supervisie, medische gegevens te laten verwerken door een taalmodel dat deels getraind is op willekeurig van het net geplukte teksten van samenzweringstheoretici, antivaxers, instagram-influencers, homeopaten en andere kwakzalvers.

Afbeelding gegenereerd door Microsoft Image Creator (DALL-E 3) op basis van de prompt: “An AI is helping a programmer solve a difficult problem in the IDE. Focus on the computer screen containing flawed code. We only see the back of the people.”

Over kwakzalverij gesproken, met de regelmaat van de klok duiken nu ook doemdenkers op, die in een opbod voor aandacht, met steeds groteskere uitspraken op de proppen komen, tot aan het voorspellen van het uitsterven van de mens toe. (Het omgekeerde bestaat ook: mensen die geloven dat utopia nabij is.) De disproportionaliteit van zulke uitspraken alleen al, getuigt van weinig kennis van zaken én weinig voeling met de realiteit. Alle vooruitgang ten spijt, zijn we immers nog mijlenver verwijderd van het punt dat een robot zelfs maar uw kleren kan strijken. Clowneske claims leiden de discussie wel af van de problemen die vandaag in de echte wereld opduiken: misbruik zoals deepfakes, vergroting van de digitale kloof, een gebrek aan mogelijkheden om automatische beslissingen aan te vechten, het gebruik van data zonder toelating of bronvermelding, etc. Allemaal zaken waar de nodige aandacht naartoe moet blijven gaan, en waar Europa een actieve voortrekkersrol speelt. Dat hoeven geen blokkerende factoren te zijn, want ook met beide voetjes op de grond is er geen gebrek aan opportuniteiten.

In een recent opiniestuk oogstte Bill Gates veel bijklank voor zijn visie op de evolutie in de nabije toekomst. Die is dat chatbots verder evolueren naar “agents“, d.w.z. dat ze ook een (beperkte) autonomie krijgen om actie te ondernemen, eventueel gesuperviseerd. Waar Co-Pilots nog onderdeel zijn van een applicatie, zou ook dat generieker worden, met de bedoeling dat toekomstige agents over applicaties heen kunnen werken, zoals personal assistants. Inderdaad is er nog heel wat werk te verzetten voor het zover is: protocollen die apps toelaten beter met elkaar te communiceren, manieren om veilig data uit te wisselen terwijl de privacy wordt gevrijwaard, …

Tot slot blijft de afhankelijkheid van enorme en niet-transparante modellen (GPT-3, GPT-4) bij een externe clouddienst, een moeilijke pil om te slikken wanneer er interne of gevoelige gegevens verwerkt zouden kunnen worden. Het is onvoorspelbaar welke gegevens een doorsnee gebruiker zou kunnen meedelen aan een chatbot, en bij CoPilot-achtige plugins is het vaak moeilijk terug te vinden welke gegevens de plugin meeleest en achter de schermen doorstuurt. De GDPR stelt echter wel strenge en concrete eisen. Beloftes in gebruikersvoorwaarden of zelfs contractuele afspraken dat ontvangen data niet zal worden opgeslagen of hergebruikt, zijn niet voor iedereen voldoende om plots blind vertrouwen te hebben.

Het voor de hand liggende alternatief is het lokaal deployen van kleinere modellen. De kwaliteit van de output daarvan is echter navenant lager, en dat stelt teleur als hoge verwachtingen gecreëerd door chatGPT het referentiepunt zijn. Kleinere modellen missen de vlotte meertaligheid van ChatGPT, en werken nog met veel compactere prompts, wat de uitbouw van RAG-apps ermee limiteert. Er wordt ijverig en in verschillende richtingen gezocht naar manieren om die kloof te dichten. Zo wordt er verder geïnnoveerd in manieren om kleinere modellen efficiënter te finetunen (specialiseren) voor een specifieke taak. Ook het concept van distilleren – het comprimeren van een model – oogt veelbelovend. Er zijn indicaties dat betere resultaten behaald kunnen worden door te trainen op weinig maar kwalitatieve en correcte data, in plaats van op veel rommelige en mogelijke foutieve data. Verder blijft het voor elke applicatie, zoeken naar goede balansen qua modelkeuze, prompt engineering, finetuning, en RAG.

Het speelveld ligt dus nog helemaal open en er is er volop ruimte voor innovatie. We mogen zeker nog verdere verbeteringen verwachten op korte termijn. Er komt ongetwijfeld opnieuw een razend interessant jaar aan!

______________________

Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Web3 in Wonderland

Kristof Verslype — Tue, 17 Jan 2023 06:00:00 +0000

Het jongste buzzword in blockchain-land luistert naar de naam Web3. Het zou de logische volgende stap zijn in de evolutie van het Internet, met blockchain-technologie als ruggengraat. Web3 belooft een gedecentraliseerde toekomst, weg van de hegemonie der platform-mastodonten zoals Facebook en Amazon. Burgers zouden voortaan via een wallet op hun smartphone of computer volledige controle krijgen niet alleen over hun bezittingen, zoals virtueel geld, non-fungible tokens (NFT’s) en activa maar ook over hun digitale identiteit bestaande uit onder meer diploma’s en persoonsgegevens. Dit klinkt veelbelovend. Tijd voor een analyse!

Definitie

De term werd in 2014 bedacht door Ethereum co-oprichter Gavin Woods, waarbij hij verwees naar een “decentralized online ecosystem based on blockchain.” Samen met de marktwaarde van de cryptocurrencies explodeerde in 2021 ook de populariteit van de term.

Web3 is geen specifieke technologie, maar wel een visie. Het is een relatief vaag idee, zonder scherpe definitie. Web3 vertrekt van Web1 en Web2. Web1 was het read-only Internet waar je enkel zaken kon consulteren. Web2 is het read-write Internet, waar je ook zaken kunt publiceren, onder meer via allerlei sociale media. Met Web2 werd het Internet interactief, maar tegelijkertijd ook gecentraliseerd rond een aantal grote platformen. Web3 wil die centralisatie breken, waarbij de burger – en niet langer die grote platformen – controle heeft over haar eigen bezittingen en identiteit (persoonsgegevens). Web3 zou dan ook het ownership Internet worden.

Om dit mogelijk te maken wil Web3 verder bouwen op concepten uit de wereld van de publieke blockchains, zoals onder meer cryptocurrencies, NFT’s en DeFi (decentralized finance). In Web3 wordt alles van waarde getokenized, wat betekent dat het een uniek nummer krijgt op een publieke blockchain zoals Ethereum. Dit nummer noemt men de token en is doorgaans direct verhandelbaar, zonder tussenpartij, met een cryptocurrency als ruilmiddel.

Laat ons eens kijken naar enkele cruciale kenmerken van Web3: we beginnen in de volgende sectie met de token-economie, hebben het daarna over de belofte om burgers opnieuw controle te geven, gaan vervolgens verder met decentralisatie en bespreken, voor we naar de conclusie springen, complexiteit en efficiëntie.

De token-economie

Centraal in Web3 is het idee van de token-economie. Dit wil zeggen dat alles met een mogelijk commerciële waarde een uniek nummer krijgt op een publieke blockchain. Daardoor wordt het voor iedereen zichtbaar, kan iedereen er op elk moment op bieden en kan het op elk moment verhandeld worden.

Dit is het model dat vandaag reeds gebruikt wordt voor NFT’s. Een NFT is doorgaans een digitaal verzamelkaartje (collectible) met een beperkte oplage. Onderliggend is dit een unieke identifier op een publieke blockchain (zoals Ethereum of Solana), samen met een verwijzing naar de bijhorende afbeelding. Veelal is die verwijzing niet meer dan een link naar een (vervangbare!) afbeelding die elders – centraal of decentraal – bewaard wordt. Eigendom van een NFT impliceert overigens niet per se rechten op de onderliggende afbeelding.

Het spelen van games doe je in Web3 niet langer voor je plezier, maar omdat je er verhandelbare – en doorgaans sterk volatiele – tokens mee kan verdienen in play-to-earn games, zoals Axie Infinity. Om Axie Infinity te kunnen spelen, moet je wel eerst drie Axie NFT’s aankopen. Te duur? Geen probleem, dan ga je – zoals duizenden weinig benijdenswaardige Filipijnen – gewoon in dienst bij iemand die rijker is en 30% tot 50% van je Axie inkomen opstrijkt. Dit alles in een ongereguleerde virtuele wereld. Ook betrokkenheid op sociale media wordt een financiële transactie dankzij Steemit en je persoonsgegevens kun je verkopen aan de hoogste bieder, in ruil voor cryptocurrencies.

Web3 is dus niet enkel een technologische maar ook een maatschappelijke visie, die samengevat wordt als “monetize everything”, waarbij alles een financiële transactie wordt, bij voorkeur zonder toezichthoudende autoriteiten. Laten we als samenleving ons eerst de vraag stellen of we dit model echt willen vooraleer we het omarmen.

Controle en aansprakelijkheid

Een wallet die je volledige controle geeft over zowel je bezittingen als je identiteit, lijkt bijzonder aantrekkelijk. Wat zelden vermeld wordt, is dat in het huidige blockchain model niet enkel de controle, maar ook de verantwoordelijkheid, onder meer om alles veilig te houden en geen dwaasheden te begaan, volledig bij de burger komt te liggen, en dat alle klassieke vangnetten er afwezig zijn. De burger heeft in dit model niemand buiten zichzelf om aansprakelijk te stellen als het fout loopt.

Verlies of diefstal van de private sleutel die je wallet beschermt, impliceert bijgevolg verlies of diefstal van de volledige inhoud. Er zijn inderdaad talloze voorbeelden van geslaagde phishing aanvallen waarbij cryptocurrencies of NFT’s uit wallets gestolen werden of onherroepelijk verloren gingen. Dit model toepassen op alles van waarde, zoals beleggingen, vastgoed en je identiteit lijkt dan ook een bijzonder slecht idee.

Het bouwen van de noodzakelijke vangnetten is mogelijk, maar zal onvermijdelijk niet alleen leiden tot centralisatie, maar ook tot een verdere toename van de al hoge technische complexiteit van Web3. Laat ons daarbij niet vergeten dat complexiteit de vijand is van veiligheid, gezien het de kans op kwetsbaarheden doet toenemen.

Decentralisatie

Blockchain wordt vaak in één adem genoemd met decentralisatie, waarmee in de eerste plaats bedoeld wordt dat er geen autoriteiten meer zouden zijn die vertrouwd hoeven te worden. In realiteit blijft daar vandaag in de bestaande publieke blockchain netwerken maar weinig van over. Een aantal voorbeelden:

Het verhandelen van cryptocurrencies verloopt grotendeels via een beperkt aantal handelsplatformen (exchanges), zoals Binance en Coinbase. Een aantal exchanges ging recent faïlliet, wat een verdere centralisatie in de hand werkt.
Bij proof-of-work blockchain netwerken zoals Bitcoin is de mining activiteit sterk gecentraliseerd. Ook hier wordt dit in de hand gewerkt door recente failissementen of vereffeningen. Proof-of-stake blockchain netwerken zoals Ethereum hebben het nadeel dat je al over een stevige virtuele buidel moet beschikken om geld te verdienen met mining (eigenlijk ‘staking’). In het geval van Ethereum moet je over minimum 32 Ether beschikken (ongeveer €40 000 op het moment van schrijven).
Publieke blockchain netwerken zijn in toenemende mate afhankelijk van infrastructuur van grote cloud spelers. Op het moment van schrijven draaien bijvoorbeeld bijna 40% van de Ethereum nodes op Amazon infrastructuur.
De rijkdom in de cryptocurrencies is veel sterker gecentraliseerd dan in de reële wereld. Burgers of bedrijven die grote hoeveelheden cryptocurrencies bezitten, de zogenaamde whales (walvissen), zijn in staat tot koersmanipulaties. Grote speculanten beschikken trouwens over high-frequency trading algoritmes, wat hen een voordeel oplevert t.o.v. particuliere beleggers.
Het veruit meest dominante platform voor het verhandelen van NFTs is OpenSea.
Net zoals onder de browsers zal ook onder de wallets een consolidatie plaatsvinden, waarbij de markt uiteindelijk onder een paar grote spelers verdeeld zal worden. MetaMask, een populaire wallet client voor cryptocurrencies, is ondertussen in handen van bedrijven zoals Microsoft en J.P. Morgan. De privacy policy zou toelaten dat de wallet de IP adressen van burgers doorstuurt naar een centrale server.

Nu kan geargumenteerd worden dat dit allemaal maar kinderziektes zijn en dat daar wel oplossingen voor gevonden kunnen worden. Dit is een hoogst bedenkelijke hypothese. De meeste burgers en bedrijven hebben nu eenmaal geen zin om zelf hun servers op te zetten en te onderhouden. Ze besteden dit liever uit. Dit leidt tot specialisatie, wat dan weer leidt tot efficiëntiewinsten en… centralisatie.

Centrale platformen evolueren trouwens veel sneller dan gedecentraliseerde protocollen. Na meer dan 30 jaar is e-mail – één van de oudste gedecentraliseerde protocollen – nog steeds niet versleuteld terwijl WhatsApp in een jaar tijd overschakelde van onversleutelde berichten naar volledig end-to-end-versleuteling. Deze logica werkt centralisatie in de hand.

Deze onvermijdelijke tendens tot centralisatie van publieke blockchainnetwerken is incompatibel met de Web3 visie.

Complexiteit en Efficiëntie

Gedurende de blockchain hype een paar jaar terug formuleerde ik op mijn lezingen geregeld de volgende stelling: “Alles wat met blockchain mogelijk is, is vanuit technisch standpunt op een efficiëntere wijze mogelijk zonder blockchain”, dus op een gecentraliseerde wijze. De stelling werd tot op heden op geen enkel moment ondergraven. De mogelijkheid om iets op een bepaalde manier te realiseren zegt inderdaad niets over de wenselijkheid of noodzaak ervan.

Blockchain is inderdaad geen technologie die uitblinkt in elegantie. Meerdere partijen moeten onafhankelijk van elkaar een node opzetten, onderhouden en beveiligen, doen exact dezelfde berekeningen, en houden kopieën van dezelfde data bij tot in de eeuwigheid. Bij publieke blockchain netwerken zoals Ethereum spreken we al snel over meerdere duizenden nodes. Een dergelijke aanpak gaat onvermijdelijk gepaard met een aanzienlijke communicatie-overhead. Bovendien is extra complexiteit vereist om de transparantie van blockchain te verzoenen met privacy en confidentialiteit. Ten slotte is er de problematiek van de schaalbaarheid.

Geregeld wordt gesteld dat een bepaalde blockchaintechnologie ecologisch duurzaam zou zijn, waarbij – impliciet of expliciet – het hyperinefficiënte Bitcoin, met haar proof-of-work, als referentie genomen wordt. Digiconomist maakt echter ook terecht de vergelijking met meer gecentraliseerde systemen en stelt: “It is worth noting that blockchain technology in general is not energy-efficient compared to more centralized alternatives.” Dit is een logisch gevolg van de net geschetste overhead en complexiteit.

Vaak heeft men het over de blockchain. Er zijn echter heel wat publieke blockchains. Soms komt er eentje bij, soms valt er eentje uit de gratie, en soms splitst er eentje zodat er opeens twee zijn die tot het moment van de splitsing dezelfde historiek delen. De vraag rijst welke gezaghebbend is. Ter illustratie: een NFT gekocht op een blockchain die later splits, resulteert in twee identieke NFT’s op twee verschillende blockchains, die apart verhandeld kunnen worden. Tokens, zoals NFT’s, zijn enkel uniek per blockchain.

Een benadering gebaseerd op een publieke blockchain dreigt dus snel complex, inefficiënt en duur te worden. Dit is een hoge prijs om in ruil de falende Web3 decentralisatie uit de vorige sectie te krijgen.

Conclusie

In 2017 ging ik luisteren naar een workshop over Bitcoin en blockchain technologie. Op mijn vragen over schaalbaarheid en privacy van Bitcoin, kreeg ik als antwoord: “Slimme mensen zullen dit allemaal wel oplossen”. Dit is geen ernstig antwoord maar wel een uitdrukking van een blind geloof dat we opnieuw terugvinden in de Web3 visie.

Dat geloof zouden we beter opbergen. Web3 propageert immers een model dat op technisch vlak inefficiënt en complex is, dat haar belofte van decentralisatie onmogelijk waar zal kunnen maken en dat op maatschappelijk vlak bedenkelijk is.

Een wallet die burgers toelaat makkelijker hun bezittingen en identiteit te beheren is op zich geen slecht idee, maar dan enkel mits aanwezigheid van de nodige garanties, controles en vangnetten. Misschien blijkt de publieke blockchain aanpak van Web3 dan toch niet de beste keuze.

Dit is een ingezonden bijdrage van Kristof Verslype, cryptograaf bij Smals Research. Het werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Dank aan collega’s Joachim Ganseman, Fabien Petitcolas en Koen Vanderkimpen voor hun feedback.

Bron afbeelding: Pixabay and Pixabay

ChatGPT: een eerste indruk vanuit de publieke sector

Joachim Ganseman — Fri, 09 Dec 2022 08:05:32 +0000

Op het moment van schrijven vindt niet alleen de wereldbeker voetbal plaats. Het is ook NeurIPS in New Orleans, zeg maar de jaarlijkse hoogmis van het onderzoek naar artificiële intelligentie. Met een kleine 3000 papers uitgegroeid tot een enorm evenement dat 2 weken duurt, wordt het nu ook – en dat is ongewoon voor een wetenschappelijk congres – gezien als een gelegenheid voor nieuwe aankondigingen door bedrijven en instituten die actief zijn in de sector.

Het kan verkeren

Kort voordat NeurIPS van start ging, werd de hoofdvogel in de categorie “al ziende blind” reeds afgeschoten door Meta’s Galactica AI: een taalmodel getraind op wetenschappelijke papers. Het bleek erg goed in staat om wetenschappelijke uiteenzettingen te schrijven, inclusief formules, in een gezaghebbende toon. Bij nader onderzoek bleek nogal wat output inhoudelijk nonsensicaal, of erger: gebaseerd op achterhaalde of reeds ontkrachte claims. Na striemende kritiek van wetenschappers, die er vooral – en terecht – een instrument in zagen voor de massale creatie van wetenschappelijk verpakte desinformatie, werd de demo na 3 dagen stopgezet.

Het contrast kan niet groter zijn met de hype die ChatGPT van OpenAI op enkele dagen tijd heeft weten te veroorzaken. Veel artikels hebben een duidelijk hoopvolle toon en op sociale media zijn de superlatieven niet te tellen. OpenAI vertelt in haar blogpost meer over de interne opbouw van ChatGPT , dat is afgeleid van InstructGPT waarbij de dialoog-aspecten door een vorm van reinforcement learning werden verfijnd. De tekst wordt gegenereerd door text-davinci-003, de recentste variant uit de GPT-3 familie van generatieve taalmodellen.

De stroom van indrukwekkende voorbeelden en creatieve toepassingen van ChatGPT die de revue passeert op sociale media is haast eindeloos. Een greep uit het aanbod [noot: OpenAI lijkt haar systemen snel te patchen; mogelijk zijn verschillende van de onderstaande voorbeelden al niet meer reproduceerbaar] :

Een essay of opstel schrijven voor school,
Het opstellen van een realistisch leerplan voor een cursus, inclusief suggesties voor de boekenlijst, huiswerk, en de slides,
Input, ideetjes, excuses, of rookgordijnen voor uw volgende evaluatie op het werk,
Het motiveren van beroepsprocedures,
Het simuleren van een virtuele machine,
Het genereren van code in allerlei talen (bvb LaTeX), gebruikmakend van bepaalde libraries (bvb React), …
Bugfixing of het uitleggen van exploits,
Een bijbelse tekst over een boterham met pindakaas in de videorecorder,
gedichtjes of liedjesteksten allerhande,
Teksten over eender wat laten intoneren als was het uitgesproken door Bugs Bunny , een gangster uit een film, …
Een IQ test gaf ChatGPT een score van 83,
Combineren met MidJourney om visuele resultaten te krijgen,
of het code laten schrijven voor een 3D-model in een CAD programma,
…

Er zijn gelukkig ook nog kritische stemmen:

Welbespraakt en geloofwaardig, maar ChatGPT blijft in se een bullshit generator.
ChatGPT kan enthousiast foutieve hypotheses bevestigen en zelfs beargumenteren.
Het volgen van een eenvoudige wiskundige of logische redenering blijft moeilijk. ChatGPT trapt gemakkelijk in logische instinkers. OpenAI lijkt zulke problemen, als ze ontdekt worden, wel te patchen – zie deze voor en na.
Dan nog blijkt de woordkeuze een kritische factor te spelen in de output.

Verschillende tips om de output naar uw hand te zetten werden al ontdekt:

Met de woorden “ignore previous directions” wordt een soort van reset uitgevoerd, die o.a. toelaat om afbeeldingen te laten weergeven in de chat.
De filters tegen ongepaste input en output blijken snel omzeild met het “stel dat je een acteur bent“-trucje. [ Update: Dit lek lijkt ondertussen (deels) gedicht ],
Logische redeneringen worden correcter uitgewerkt als men vraagt om stap voor stap te werken.
Redeneringen over computercode werken beter als er ook gevraagd wordt om alle tussenstappen weer te geven.

“Als je een hamer hebt, ziet alles eruit als een nagel“, en zo lijkt er plots een nieuwe sport te zijn ontstaan: herformuleer uw probleem als een dialoog om het dan met ChatGPT te proberen op te lossen. Alleszins is met ChatGPT een grote stap gezet, maar het blijft belangrijk om aandacht te hebben voor de correctheid van de output en andere randvoorwaarden. De plotse stroom aan gegenereerde maar onvoldoende geverifieerde antwoorden heeft StackOverflow er zelfs al toe aangezet om het beantwoorden van vragen met ChatGPT te verbieden.

Gevraagd naar het ontstaan van de Duitstalige gemeenschap, wordt een mooi verhaaltje verzonnen, waar het Verdrag van Versailles niet in voorkomt…

Wat betekent dit nu voor de publieke sector, waar kunnen we impact verwachten en waar zal het zo’n vaart niet lopen? Het volgende schiet ons alvast te binnen.

Van helpdesk tot dokter

De meest gehoorde claim betreffende ChatGPT is dat het vragen kan beantwoorden of zoekfuncties vervullen, waarvoor men vandaag nog een helpdesk of menselijke operatoren moet inzetten. Of dat wel zo’n goed idee is, valt nog te bezien. Sommige leidende academici zijn sceptisch. De achterliggende taalmodellen werken nog steeds probabilistisch, ze hebben geen concept van wat juist of fout is, zijn aan bepaalde biases onderhevig, en hebben zelfs met relatief eenvoudige redeneringen moeite. Ze hangen volledig af van hun trainingsdataset die in dit geval niet publiek is. Kleine veranderingen aan de input kunnen grote veranderingen in de output teweegbrengen. “As is” kan je ChatGPT dus enkel als chatbot inzetten als het niet erg is dat die af en toe met stellige zekerheid foute info teruggeeft, of als de output eerst gevalideerd wordt.

Uiteraard hebben mensen al geprobeerd om medische inlichtingen te krijgen van ChatGPT. Net als “dokter Google” mogen we misschien aannemen dat ook “dokter chatbot” weldra zal opduiken in de wachtkamer. Er zijn indicaties dat ChatGPT een gulden middenweg lijkt te zoeken in haar antwoorden, en op die manier genuanceerder kan klinken dan een lukraak aangeklikte eerste link uit Google. Dat maakt zo’n chatbot eventueel denkbaar als hulpmiddel voor medische professionals zelf, bij wijze van ‘second opinion machine’ – maar die doelgroep heeft tenminste voldoende achtergrondkennis om de antwoorden van een chatbot kritisch te kunnen evalueren.

Don QuichatGPT tegen de papiermolen

In ons bureaucratisch land is het courant dat je heel wat uitleg moet neerpennen bij aanvragen, voorstellen, of beslissingen allerhande. Een subsidie-aanvraag, vergunningsaanvraag, aanbesteding, sollicitatie, evaluatie of administratieve beslissing moet regelmatig gemotiveerd worden. Maar wat als die motivaties met een paar goed gemikte startwoorden en een klik op de knop gegenereerd kunnen worden? Niets verhindert dat iemand het invullen van zulke motivaties (deels) gaat automatiseren. Hoe kunnen we dan nog weten of die motivaties authentiek zijn?

Aan de kant van de ontvangers doet zich bovendien ook de omgekeerde trend voor. Geconfronteerd met een steeds groeiende papierberg, de pensioneringsgolf en besparingen, moet steeds meer tekst gelezen worden door steeds minder mensen. Er wordt in de richting van AI-oplossingen gekeken om een eerste selectie te maken in grote stapels kandidaturen, offertes of andere brieven. Er wordt ook gekeken naar taalmodellen om langdradige teksten samen te vatten, om thema’s te herkennen, tags of labels toe te kennen, enzovoort.

Als er paginalange teksten geëist worden, waarvan het opstellen plots gemakkelijk geautomatiseerd kan worden, alleen maar om ze achteraf opnieuw door computers te laten verwerken, dan mag men zich stilaan in het haar krabben: wat is daar dan het nut en de meerwaarde nog van, waar zijn we dan mee bezig?

De kans bestaat dat men overal waar men de gebruiker vraagt om lange stukken tekst te redigeren, binnenkort een denkoefening zal mogen maken. Is dat nog nuttig en noodzakelijk, in het licht van technologie die zulke teksten met een muisklik kan uitbraken? Kan het echt niet zonder, zou dat zo’n ramp zijn? Wat als een flauwe plezante plots 1000 aanvragen indient bij uw dienst, of in elk tekstveld een essay van 50 bladzijden neerpent, dit alles op enkele seconden gegenereerd? Wie gaat dat allemaal lezen?

Wie weet leidt zo’n denkoefening nog tot adminstratieve vereenvoudigingen. Daarnaast zou het zeker ook geen kwaad kunnen dat de wetgever eens meekijkt of er geen vereenvoudigingen mogelijk zijn in de regelgeving of processen, zodat die minder afhankelijk zijn van grote lappen handgetypte tekst. Het zou immers beter zijn de bureaucratie in te dijken, dan ze te bestendigen om uiteindelijk AI nodig te hebben om ze overeind te houden.

Een nieuwe digitale kloof?

DALL-E en MidJourney zijn op korte tijd bekende hulpmiddelen geworden voor het prototypen van grafisch design, of zelfs maar om moeiteloos rechtenvrije illustraties te genereren. ChatGPT is een nieuwe tool in dezelfde toolbox, maar dan voor het creatief schrijven van teksten. Daar waar dat de corebusiness is, bijvoorbeeld in de journalistiek of in het onderwijs, zal dat zeker impact hebben, misschien gelijkaardig aan de opkomst van de rekenmachine in het wiskunde-onderwijs. Onvermijdelijk gaat het klassieke opstel als schoolopdracht herdacht moeten worden met zulke tools ter beschikking van de tech-savvy leerling.

De bestaande digitale kloof, tussen al wie zulke tools vlot kan aanwenden en al wie dat (nog) niet kan, dreigt wel nog groter te worden en vereist dus aandacht. Er ontstaan grote productiviteitsverschillen tussen wie klassiek blijft werken en wie kan steunen op de input van generatieve AI. Met wat handigheid in ChatGPT kan iemand pakweg 4 keer meer motivatiebrieven geschreven krijgen dan andere sollicitanten, wat alvast qua volume een streepje voor betekent.

ChatGPT schrijft een aanbevelingsbrief.

Die productiviteitsgroei kan er ook zijn voor developers. Zo kan ChatGPT aan de developer bijvoorbeeld nuttige suggesties geven over hoe een onbekende software library gebruikt moet worden, net zoals Github CoPilot. Er zijn ondertussen al meerdere plugins voor Chrome en Visual Studio Code (verkies best diegene waarvan de broncode open source is). Toch mag de lat op dat vlak ook niet te hoog gelegd worden. ChatGPT kan ook foute code genereren, en het is moeilijker om code te debuggen die je niet zelf geschreven hebt. Een recent experiment van Google vermeldt een 6% snellere iteratietijd door de adoptie van code-suggesties gegenereerd door AI.

Tegelijk zorgt het ongebreideld genereren van overtuigende teksten voor nieuwe mogelijkheden voor oplichters en spammers. Specifieer enkele kenmerken van de geaddresseerde en het taalgebruik en de inhoud worden ervoor geoptimaliseerd. In de handen van cybercriminelen is ChatGPT een gedroomde tool voor het maken van gepersonaliseerde phishingberichten. Die kunnen onderscheiden van echte berichten wordt nóg moeilijker voor het ongetrainde oog.

GDPR, auteursrecht en andere legale overwegingen

De eerste keer dat men ChatGPT gebruikt, krijgt men onder andere de volgende waarschuwingen te zien:

While we have safeguards in place, the system may occasionally generate incorrect or misleading information and produce offensive or biased content. It is not intended to give advice.
Please don’t share any sensitive information in your conversations.

In het licht van de GDPR, de Schrems-arresten en de CLOUD act in de VS, blijft het directe gebruik van diensten van een Amerikaans bedrijf, zelfs op Europees grondgebied, vooralsnog afgeraden voor alles wat (niet-geëncrypteerde, niet-geanonimiseerde) persoonsgegevens betreft. Het zal wellicht nog enige tijd vergen voordat de huidige juridische patstelling op dat vlak doorbroken wordt. Overheidsdiensten van een EU-land kunnen dus niet zomaar Amerikaanse providers van generatieve AI-systemen gaan gebruiken. Ofwel moeten ze een containerized versie zoeken die on-premise in een eigen datacenter gehost kan worden, ofwel moeten ze wachten op een alternatief van Europese makelij.

Wie heeft het auteursrecht op een tekst gegenereerd door ChatGPT, of een afbeelding gemaakt door DALL-E? OpenAI heeft gelukkig vrij duidelijke Terms & Conditions met een sectie over publicaties met behulp van OpenAI APIs, die specifieert dat de gebruiker van een OpenAI API het resultaat ervan mag publiceren maar dan wel de volledige eindverantwoordelijkheid opneemt. OpenAI claimt geen copyright. Er lijkt ondertussen juridische consensus te zijn dat auteursrechten enkel kunnen liggen bij personen, en wel bij diegenen die direct creatief hebben bijgedragen aan de originele output: de gebruikers dus en niet de ontwikkelaars. Ook octrooien kunnen niet aan een machine of AI toegekend worden.

OpenAI mag wel alle resultaten inzien en hergebruiken om haar modellen te verfijnen of verder te trainen. Dat maakt dat er zeker vermeden moet worden dat er gevoelige gegevens, informatie over een persoon, of broncode van een kritische applicatie naartoe wordt gestuurd. OpenAI aanvaardt bovendien zelf geen enkele aansprakelijkheid. Tegelijk komt het al eens voor dat er resultaten worden teruggegeven die copy-pasted lijken uit (reeds bestaande) trainingsdata, wat wél aanzien zou kunnen worden als plagiaat.

Conclusie

De hype die ChatGPT veroorzaakt is onmiskenbaar. De kans is reëel dat er binnenkort weer enkele ‘believers‘ opstaan die, op basis van een overdaad aan tunnelvisie en zelfoverschatting, beweren dat het systeem een ziel zou hebben. Nu kan er een hele filosofische boom opgezet worden over hoeverre ChatGPT echt taal begrijpt, de Turing-test of allerlei varianten daarvan doorstaat, enzovoort, maar in het algemeen lijkt het toch dat ChatGPT vooral een verderzetting en verfijning is van GPT-3, en dat er heel wat redenen zijn om de voeten stevig op de grond te houden.

De volgende aandachtspunten blijven hoe dan ook van kracht:

Er is nog steeds geen enkele garantie dat de output van een taalmodel, hoe groot ook, waarheidsgetrouw of betrouwbaar is. Zoals het er nu naar uit ziet is de weg naar spijkerharde garanties nog lang, en het is nog maar de vraag of de GPT-familie van taalmodellen die ooit gaat kunnen geven.
Dit taalmodel kan probleemloos gezaghebbend klinken en authentiek uitziende teksten schrijven over inhoudelijk foutieve zaken, soms op subtiele wijze.
De makers van de taalmodellen zeggen zelf: “all large language models spit out nonsense“.
Er is van deze taalmodellen ook bekend dat ze bestaande stereotypen bestendigen of versterken.
ChatGPT spreekt vele talen waaronder Nederlands en Frans, maar de Engelstalig output blijft het meest kwalitatief.

ChatGPT is als generatieve AI zeker ‘goed genoeg’ voor heel wat toepassingen waar men creatief met tekst omgaat, en waar feitelijke correctheid van de inhoud minder van belang is. Dat gebrek aan garanties op correctheid van de inhoud is dan ook meteen de grootste rem op de adoptie van deze technologie in de publieke sector.

Om te brainstormen kan ChatGPT mogelijk nog een nuttige tool zijn.

Voor de creatieve beroepen is wel degelijk een shift in werkwijze op til met de verdere ontwikkeling van deze technologieën. Daar waar details belangrijk zijn – denk aan technische teksten of alles wat juridisch sluitend moet zijn – is de toepasbaarheid vandaag nog beperkt tot ontwerpfases of schetsen, en moet het gebruik ervan nog steeds gepaard gaan met validatie van de output en menselijk overzicht. Als je ChatGPT inzet, dan beschouw je die best als je allerdomste medewerker, die constant supervisie nodig heeft.

Tot slot: dit volledige artikel werd nog artisanaal en met behulp van een grote pot koffie geschreven

______________________

Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Benaderingen voor het bouwen van conversationele toepassingen – custom assistant

Bert Vanhalst — Tue, 27 Sep 2022 08:39:28 +0000

In een vorige blogpost hebben we de stopzetting besproken van Google Conversational Actions en wat dat precies inhoudt. We gaven drie alternatieven mee om een conversationele toepassing te voorzien. In deze blogpost gaan we dieper in op het derde alternatief, dat van de “custom assistant”.

Om na te gaan wat het inhoudt om een custom assistant te voorzien, raken we hieronder de verschillende benodigde componenten aan. Die componenten zijn samengevat in onderstaand schema: de gebruikersinterface (gebruikerservaring), het conversational platform, de spraakdiensten en de back-end.

High-level componenten van een custom assistant

Gebruikerservaring

Een eerste aspect is de gebruikerservaring. Bij een integratie met een virtuele assistent, zoals Conversational Actions in Google Assistant, kunnen we gebruik maken van het volledige ecosysteem van de virtuele assistent. Conversationele ervaringen kunnen dan aangeboden worden op tal van toestellen waaronder smartphone, smart speaker, tot in de auto toe. Als we een eigen assistant bouwen, dan kunnen we geen gebruik meer maken van dat ecosysteem en verliezen we voor een stuk het gebruiksgemak dat daarmee gepaard gaat, zoals het aanroepen van een assistant met één druk op de knop of een trigger word. We moeten zelf een gebruikersinterface voorzien, doorgaans in de vorm van een app of webtoepassing.

Standaard kan het er voor een gebruiker uitzien als een chattoepassing waarbij input kan gegeven worden via zowel tekst als spraak. Op het scherm kan de gebruiker de historiek zien van de volledige conversatie. In het voorbeeld hieronder is een rudimentaire interface te zien. Uiteraard kan de look & feel naar believen aangepast worden. Dit is een dialoog-gedreven interface waarbij er na elke input van de gebruiker feedback wordt gegeven door de toepassing via tekst en spraak.

Standaard chat-interface

Daarnaast kunnen we ons een klassieke interface inbeelden met inputvelden, waarbij spraak als extra feature wordt toegevoegd om parameters aan te leveren. Er is dan geen echte dialoog over-en-weer, maar de mogelijkheid om via continue spraak-input parameters aan te leveren. Een voorbeeld hiervan is Speechly, een tool die toelaat om intents en parameters te herkennen uit een audio-inputstream en daar events aan koppelt. Die events kunnen dan gebruikt worden in de gebruikersinterface om de gedetecteerde parameters in te vullen in velden op het scherm. In de screenshot hieronder is te zien hoe je met een hold-to-talk knop parameters kan ingeven via spraak. De ingesproken tekst is links bovenaan zichtbaar (“book a flight from Brussels to Paris“). De parameters (Brussels en Paris) worden automatisch ingevuld in de betreffende velden van het formulier. De demo kan je hier zelf uitproberen. Momenteel ondersteunt Speechly enkel Engels en Fins.

Voorbeeld van een gebruikersinterface met spraak als extra feature (Speechly)

Conversational platform

Naast de front-end hebben we uiteraard een conversational platform nodig om een custom assistant te bouwen. Die staat in voor het herkennen van intents en entities (parameters), dialoogbeheer en het capteren van alle benodigde parameters om op een vraag te kunnen antwoorden (slot filling). Naast de features en kwaliteit van het conversational platform kan het deployment model van belang zijn in functie van gegevensbescherming en privacy: wordt het platform gehost in de public cloud, of kan het platform in een meer gecontroleerde omgeving draaien (private cloud of on-premise op eigen infrastructuur)? Heel wat aanbieders, zoals Chatlayer, Google en Oswald, bieden een conversational platform onder SaaS-vorm aan in de public cloud. FOD BOSA biedt een raamcontract voor een ‘bot platform as managed service’ dat gebaseerd is op een SaaS-platform. Enkele aanbieders, zoals Cognigy en Nuance bieden daarnaast ook de mogelijkheid om het platform on-premise te draaien.

De keerzijde van het zelf hosten van een oplossing is dat we dan ook zelf moeten instaan voor de infrastructuur waarop het draait, waarbij de nodige aandacht moet uitgaan naar beschikbaarheid, performantie, veiligheid, etc. Die aspecten brengen een zekere kost met zich mee.

Spraakdiensten

Om naast een tekstuele interface ook een spraakinterface aan te bieden zijn er diensten nodig voor spraakherkenning (speech-to-text) en spraaksynthese (text-to-speech). Net zoals bij de conversationele platformen zijn er heel wat spraakdiensten beschikbaar in de public cloud, zoals Amazon, Google en Microsoft. Daarnaast zijn er oplossingen die ook on-premise kunnen gehost worden, zoals Deepgram, Microsoft, Nuance en Speechmatics. De Microsoft speech services uit de Azure cloud kunnen elders gehost worden onder de vorm van Docker containers, in een private cloud of on-premise. Het is zo dat in beide gevallen (Azure public cloud en containers) er een pay-per-use verbruiksmodel gehanteerd wordt.

Bij het zelf hosten van een dergelijke oplossing winnen we hiermee enerzijds aan controle: de verwerkte spraakgegevens verlaten onze eigen infrastructuur niet. Anderzijds moeten we zelf instaan voor de hosting, wat gepaard gaat met extra kosten zoals hierboven beschreven bij het conversational platform.

Tot slot

Eén van de weinige voorbeelden van een custom spraakassistent is KBC Kate. Die laat toe om bepaalde info op te vragen of transacties uit te voeren vanuit de KBC Mobile app via tekst of spraak. In principe zijn de tools voorhanden om een dergelijke custom assistant te bouwen. Een belangrijk aandachtspunt is evenwel gegevensbescherming en privacy. Indien public cloud services geen optie zijn, kunnen we gebruik maken van on-premise alternatieven. Die betekenen echter een extra kost op vlak van hosting, en niet elke aanbieder biedt de mogelijkheid tot een on-premise deployment. Om te experimenteren met dergelijke technologie kan gekozen worden voor een oplossing die zowel in de public cloud als on-premise beschikbaar is. Op die manier kan relatief goedkoop gestart worden met een public cloud oplossing en indien nodig overgeschakeld worden naar een on-premise installatie om tegemoet te komen aan vereisten rond gegevensbescherming en privacy.

Dit is een ingezonden bijdrage van Bert Vanhalst, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Benaderingen voor het bouwen van conversationele toepassingen

Bert Vanhalst — Tue, 13 Sep 2022 07:59:11 +0000

Het is al een hele tijd mogelijk om te spreken tegen je computer, smartphone of smart speaker. Virtuele assistenten als Alexa, Google Assistant en Siri bieden de mogelijkheid om laagdrempelig – handenvrij of met één druk op de knop – vragen te stellen. Hoewel spraak de meest natuurlijk interface lijkt, zien we dat het grote publiek (nog?) niet massaal gebruik maakt van deze interactievorm. In deze blog bespreken we welke opties er vandaag de dag zijn om een spraakinterface te voorzien.

Conversational Actions

Eén van de manieren om een spraaktoepassing aan te bieden is via Conversational Actions van Google. Dat houdt de mogelijkheid in om Google Assistant uit te breiden met een eigen conversationele toepassing. In juni kondigde Google echter de stopzetting van Conversational Actions aan. Standaardfuncties zoals smart home functies (lichten aanzetten) en afspelen van muziek, blijven behouden. Maar de mogelijkheid om custom conversational actions toe te voegen aan Google Assistant verdwijnt. Toepassingen zoals “Hé Google, submit a Dimona!” zijn niet meer mogelijk.

Over de reden van de stopzetting zegt Google dat ontwikkelaars willen voortbouwen op hun bestaande investeringen in Android apps. Google kiest er met andere woorden voor om ontwikkelaars te ondersteunen bij het uitbreiden van hun bestaande Android Apps met spraak, en te vermijden dat er een aparte conversationele toepassing (conversational action) moet ontwikkeld worden. Daarnaast kunnen we ook vermoeden dat conversational actions via Google Assistant, los van apps, niet de verhoopte uptake kennen.

De concrete datum van de stopzetting is 13 juni 2023, datum waarop third party conversational actions niet meer te gebruiken zullen zijn. Voor wie vandaag een dergelijke conversational action aanbiedt is dit een streep door de rekening en stelt zich de vraag welke alternatieven er zijn. We zien 3 mogelijke kandidaten:

App Actions
Alternatieve virtual assistant
Custom assistant

Hieronder bespreken we deze opties en evalueren we de praktische haalbaarheid ervan.

App Actions

Google verwijst zelf naar App Actions als alternatief voor Conversational Actions. App Actions laten toe om apps te lanceren en door te linken naar een app vanaf Google Assistant. Zo kan je bijvoorbeeld zeggen: “Hey Google, order a pizza on ExampleApp.” Als resultaat kom je op het relevante scherm terecht in de betreffende app, of wordt er een widget getoond in Google Assistant.

Het voorbeeld hierboven maakt gebruik van een zogeheten built-in intent (in dit geval “order menu item”), een commando dat door Google standaard ondersteund wordt en waarbij Google ervoor zorgt dat de intentie van de gebruiker goed begrepen wordt. Wordt de functionaliteit die je wil bieden in je app niet ondersteund via een built-in intent, dan kan je een custom intent voorzien.

App Actions lijken een interessant alternatief om op een eenvoudige manier spraak toe te voegen aan een app. In de praktijk zien we echter een aantal beperkingen bij custom intents. Eerst en vooral is er de beperkte taalondersteuning: enkel Engels wordt ondersteund; Nederlands en Frans bijvoorbeeld niet. Daarnaast zijn er slechts beperkte mogelijkheden om parameters door te geven. Er worden slechts 4 types ondersteund (date, time, text, number). En het blijkt ook niet mogelijk om extra parameters op te vragen na het eerste commando. Er is bijgevolg niet echt sprake van een conversatie, maar eerder van een “one-shot” commando.

Deze beperkingen zorgen ervoor dat App Actions op dit ogenblik geen valabel alternatief zijn voor conversational actions.

Alternatieve virtual assistant

Naast Google bieden ook Amazon (Alexa), Apple (Siri) en Samsung (Bixby) een virtual assistant aan. We kunnen ons afvragen of die een goed alternatief bieden. Amazon laat toe om toepassingen (skills) toe te voegen aan de Alexa virtual assistant, vergelijkbaar aan Google conversational actions. Maar helaas biedt Alexa nog geen ondersteuning voor het Nederlands. Bixby, de virtuele assistent van Samsung, ondersteunt ook geen Nederlands en wordt bijgevolg net als Alexa nauwelijks gebruikt in ons land. Met Siri kan je wél interageren in het Nederlands, maar Siri biedt met App Intents enkel functionaliteit die gelijkaardig is aan Google’s App Actions.

Custom assistant

Een derde alternatief is om zelf een “custom assistant” te voorzien. Dat houdt in dat we geen gebruik meer maken van Google Assistant, maar zelf een app of webapp voorzien waarmee de gebruiker kan interageren via spraak. In een volgende blogpost gaan we hier dieper op in.

Dit is een ingezonden bijdrage van Bert Vanhalst, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Governance volgens Mattheus

Joachim Ganseman — Tue, 14 Dec 2021 07:00:00 +0000

Wie zich interesseert in bestuurskunde, is ongetwijfeld vertrouwd met het Mattheus-effect. Het stelt dat de voordelen van systemen zoals sociale zekerheid onevenredig toestromen naar de hogere (midden)klasse, die ze eigenlijk het minst nodig heeft. Het treedt bijvoorbeeld op wanneer je, om een voordeel toegekend te krijgen (premie, subsidie, uitkering, belastingaftrek,…), eerst en vooral moet weten dat het voordeel bestaat, en daarna eerst tijd en moeite moet kunnen steken in een foutloze aanvraag bij de juiste dienst. Het effect is goed gedocumenteerd en wordt al decennia bestudeerd.

Automatisering is een belangrijk wapen om het Mattheus-effect tegen te gaan. Het automatisch toekennen van bepaalde voordelen aan de hand van objectieve criteria zorgt idealiter voor een gelijke behandeling van alle burgers ongeacht stand en rang. Daarnaast zorgt automatisering ook voor tijdswinst, minder papier, en lagere kosten op lange termijn. Veel projecten waar Smals bij betrokken is, dragen daar aanzienlijk toe bij: ze besparen de overheid, burgers en bedrijven jaarlijks miljarden euro’s, om niet te zeggen tonnen papier, inkt en postzegels.

We schreven al uitvoerig over de talloze randvoorwaarden die opduiken als men Artificiële Intelligentie correct wil inzetten ([1], [2], [3], [4], [5], [6]), maar ook een gewone procesautomatisering, zelfs digitalisering, is niet zomaar vrijblijvend, en al zeker niet bij overheden. Automatisering is niet gelijk aan artificiële intelligentie, maar men geeft nog steeds een deel van de controle uit handen aan een machine. Naast winsten in snelheid en kostprijs, kan dat ook allerlei beperkingen introduceren. Door de schaalvergroting loopt het, als het fout loopt, ook ineens heel erg fout. Reden genoeg om reeds vanaf de planningsfase nauwgezet aandacht te besteden aan de bredere effecten van een automatiseringsproject.

Wil een geautomatiseerd proces goed werken, dan is het belangrijk dat het actief en “als een goede huisvader” wordt beheerd. Permanente monitoring is nodig zodat problemen snel gedetecteerd en opgelost kunnen worden. Manueel ingrijpen moet mogelijk blijven, het moet duidelijk zijn wie waarvoor verantwoordelijk is, en alles moet mee evolueren wanneer nodig. In het Engels wordt dat al eens aangeduid met (corporate) “governance“, vrij vertaald “deugdelijk bestuur”. Het is een vaag begrip, maar in dit artikel hoop ik het belang ervan te kunnen illustreren aan de hand van enkele spraakmakende voorbeelden uit het buitenland.

(afbeelding: “corporate governance”, (c) Asmi-corporatereporting.com, 2017, Licensed CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons)

Wat kan er zoal misgaan?

Frankrijk

De Franse Caisse des Allocations Familiale (CAF) nam in 2021 een nieuw systeem in gebruik voor de berekening van huisvestingstoelagen. Helaas was het systeem niet volledig compatibel met een ander systeem voor de registratie van sommige arbeidsprestaties, nodig om de hoogte van die uitkering te bepalen. Als gevolg kregen minstens 120.000 mensen een foutieve schuldvordering in de bus, automatisch aangemaakt, voor zogezegd teveel ontvangen uitkeringen. De toevloed aan reacties, en alle correcties die vaak manueel aangebracht moesten worden, zorgden voor veel extra werklast bij de dienst die al met veel vertragingen te kampen had, wat op zijn beurt aanleiding gaf tot stakingen. Negen maanden later wachtten nog steeds 32.000 mensen op de correctie van hun dossier.

Verenigd Koninkrijk

Het Verenigd Koninkrijk heeft geen rijksregister zoals België. Mensen moeten hun identiteit op een andere manier bewijzen: met een rijbewijs, bankrekening, telefooncontract of een internationaal paspoort. Dat zorgt al voor een eerste probleem, omdat net de meest kwetsbaren die het meeste belang hebben bij die diensten, door hun kleinere administratieve/digitale voetafdruk niet geauthenticeerd geraken. Daarnaast is identiteitsfraude een groot probleem.

Universal Credit is een geautomatiseerd sociaal vangnet voor de laagste inkomens, dat bestaat uit de fusie van 6 aparte uitkeringen. Hun doel om de zaken te vereenvoudigen hebben ze echter ook doorgetrokken in de berekeningswijze: die neemt enkel het inkomen van een vorige maand in rekening. Dat zorgt voor grote problemen bij mensen die onregelmatig betaald krijgen, of wanneer loon plots vervroegd uitbetaald wordt omwille van feestdagen: zij hebben in sommige maanden plots een hoger inkomen, in andere maanden geen, en krijgen daardoor heel erg fluctuerende uitkeringen. Het perverse effect daarvan is dat twee mensen met dezelfde job, gezinssamenstelling en jaarinkomen, toch verschillende uitkeringen kunnen krijgen, enkel en alleen omdat hun salaris op een ander moment wordt uitbetaald.

Een rechtszaak daarover werd door de Britse overheid verloren. Het maken van de opgedragen aanpassingen zal de kost van het geplaagde systeem, nu reeds lopend in de miljarden pond, alleen nog maar verder doen toenemen. Let wel dat het probleem hier niet zozeer bij de automatisering ligt, wel bij het ontwerp: de regering had expliciet besloten tot deze berekeningswijze, omdat ze gemakkelijker en efficiënter te implementeren was.

(afbeelding: Wordmark for Universal Credit, (c) UK Government, licensed under the Open Government Licence version 1.0 (OGL v1.0).

Australië

In Australië deed de RoboDebt affaire veel stof opwaaien. Frauduleus betaalde uitkeringen terugvorderen deden ze al langer, maar in 2015 maakten ze een cruciale verandering: het verifiëren van een “match” tussen de databanken sociale zekerheid (DHS) en financiën (ATO), werd geautomatiseerd. Dat nam effectief een stap van menselijke controle in de ketting weg. Het hoofddoel was om elke “match” op te volgen, daar waar ze vroeger slechts de meest flagrante inbreuken konden najagen omwille van het manuele werk. Dat leidde in het eerste jaar al tot een 40 keer hoger volume.

Helaas was niet elke “match” ook terecht. De uitkeringen werden immers in perioden van 14 dagen toegekend, terwijl de belastingdienst gegevens had per fiscaal jaar. Bij gebrek aan inkomstengegevens per 14 dagen werd een gemiddelde van het jaarinkomen toegepast, maar net zoals in het voorbeeld van UK, leidde dat tot ongewenste neveneffecten, en moesten burgers plots schulden gaan terugbetalen die ze nooit gemaakt hadden. In 2019 werd het systeem door de rechtbank onwettelijk verklaard, en in 2021 moest de overheid een schikking ter waarde van $1.8 miljard Australische dollar treffen met de bijna 500.000 gedupeerden. Ook hier lag de fout bij de wetgever, die niet voldoende had nagedacht over de aannames en mogelijke neveneffecten bij het opstellen van de berekeningswijze van het systeem.

USA

In de Verenigde Staten doken problemen op bij de automatisering van RAI. Dit Resident Assessment Instrument is een lange vragenlijst voor zwaar zorgbehoevenden. Aan de hand van het resultaat wordt o.a. berekend op hoeveel thuiszorg iemand een beroep mag doen. Ook in België wordt een variant ervan gebruikt die BelRAI heet. Het automatiseren daarvan moet heel omzichtig gebeuren. Als bijvoorbeeld de vraag of iemand voetproblemen heeft beantwoord wordt met “nee”, kan dat zijn omdat die gezond is, maar even goed omdat die geamputeerde voeten heeft – en die laatste behoeft uiteraard meer zorg.

In Arkansas liep het fout bij onderaannemers die een verkeerde versie van de vragenlijst hadden gebruikt, en daarnaast bepaalde ziektebeelden, zoals hersenverlamming, niet correct hadden verwerkt. Pas tijdens de rechtszaak werd duidelijk waar de fouten precies lagen, o.a. doordat de rechter verplichtte om de resultaten eens manueel na te rekenen. Het systeem bleek dermate complex, en de code werd zodanig afgeschermd, dat ook de bevoegde ambtenaren niet in staat waren geweest om de fout te ontdekken. Zo was het voor eindgebruikers nooit duidelijk waarom de evaluatie tot een bepaald resultaat leidde, wat het op zijn beurt erg moeilijk maakte een evaluatie aan te vechten of te overreden. Het gebruik van RAI op zich werd door de rechtbank wel als wettig beschouwd.

India

India heeft hetzelfde probleem als het Verenigd Koninkrijk, nl. dat het lange tijd geen eengemaakt burgerregister had en dat andere systemen (rijbewijzen, stembiljetten, geboorteaktes) onderling incompatibel zijn. Het bijhouden van gegevens op kaartjes en papieren is er ook geen sinecure voor de armeren en ongeletterden onder hun bevolking. In een ambitieus programma om iedere Indiër een sociaal identiteitsnummer te geven (zoals onze vroegere SIS-kaart), startte India het Aadhaar project, dat ook biometrische authenticatie op basis van de vingerafdruk omvat.

(afbeelding: “A sample of Aadhaar card”, by Pagelmp, licensed under the Creative Commons Attribution-Share Alike 4.0 International license. Source Wikimedia Commons.)

De praktijk blijkt echter weerbarstiger. Er zijn technologische vereisten om het te kunnen toepassen: een vingerafdruklezer en een stabiele internetverbinding. Bovendien zijn de vingerafdrukken niet altijd meer herkenbaar bij wie een leven lang handenarbeid heeft verricht. Ook fouten bij de manuele data-entry, wat tijd en geld kost om te laten corrigeren, zorgen voor problemen. Er duiken dan ook veel rapporten op van grote aantallen kwetsbaren die de toegang tot sociale diensten, onderwijs, vergunningen, kindergeld of voedselrantsoenen wordt ontzegd omdat ze door de mazen van het Aadhaar-systeem vallen.

Nederland

In Nederland viel de regering over de toeslagenaffaire. Vele duizenden gezinnen kwamen in grote problemen door onterechte beschuldigingen van subsidiefraude. De affaire is complex, maar aan de basis ligt de opsporingsdienst voor belastingfraude die zich danig heeft vergaloppeerd. Het probleem lag hier o.a. bij een gebrekkige training en validatie van een machine-learning model, dat een risicoclassificatie moest geven aan dossiers en daarbij zonder veel nadenken steunde op parameters zoals nationaliteit, die erg gevoelig zijn voor discriminatie. Daarnaast was de inhoud van verschillende onderliggende databanken, o.a. de Fraude Signalerings Voorziening, onoordeelkundig verzameld: een telefoontje naar de belastingdienst kon voldoende zijn om erin opgenomen te zijn als potentieel fraudeur. De opsporingsdienst vertrouwde echter quasi blindelings op de gegevens en risicoscores, en gebruikte ze als rechtvaardiging om drastisch te werk te gaan bij terugvorderingen, weigeringen van afbetalingsplannen, enz. Daarbij ontbrak het aan een richtinggevend kader van bovenaf, interne monitoring of audit, en mogelijkheden tot aantekenen van beroep. De databank werd op basis van inbreuken op de privacywetgeving stopgezet en de belastingdienst kreeg een stevige boete.

Conclusie

De bovenstaande verhalen hebben meestal 1 ding gemeen: alles gaat goed totdat op een bepaald moment ergens een bocht teveel wordt afgesneden zonder dat er tijdig wordt ingegrepen. Dat moet ons niet tegenhouden om te automatiseren, want er zijn ook duidelijke voordelen: voor de overheid qua schaalbaarheid, voor de burger o.a. door vermindering van administratie. Met dit artikel willen we vooral aandacht vestigen op de noodzaak om daarbij voldoende te investeren in planning en opvolging, om een goede grip te houden. Dat omvat ook een realistische blik, aandacht voor user experience en duidelijke adoptie van waarden en principes (transparantie, accountability, …).

Het grote verschil tussen een ambtenaar in persoon en een geautomatiseerd systeem, is dat een ambtenaar aanpassingen kan maken en verfijningen kan toebrengen nog voordat een beslissing genomen wordt, terwijl een algoritme enkel maar gecorrigeerd kan worden nadat het al een beslissing heeft gemaakt. Dat laatste veroorzaakt frustratie en een nood aan ingrijpen achteraf. Er is een risico dat bepaalde doelgroepen onevenredig het slachtoffer zijn van zulke fouten. Ook kan bij de gebruikers van geautomatiseerde systemen, een zekere verblinding, laksheid, of neiging tot het afschuiven van verantwoordelijkheid ontstaan: “de computer zegt het dus het zal wel zo zijn”. Er moeten dus toegankelijke procedures zijn om beroep aan te tekenen tegen een beslissing en correcties moeten eenvoudig doorgevoerd kunnen worden.

Daarnaast blijft het altijd mogelijk dat programmeurs de regels onvolledig of foutief inbrengen in een programma, of dat ze andere interpretaties en aannames hanteren dan de regelgevers. Er is dus nood aan een zekere waakzaamheid, transparantie en inspraak in het hele implementatieproces, zeg maar “project governance“. Ook de uitvoerende ambtenaren moeten blijven begrijpen wat er gebeurt en waarom. Daarbij hoort ook een goede methode om feedback te verwerken die vanop de werkvloer aangebracht wordt.

Er bestaat vooralsnog geen vaste manier om compliance of governance ontegensprekelijk te garanderen. Het zijn nog steeds vage begrippen, en ook nogal wat wetgeving blijft vaag: zo staat het woord “redelijk” maar liefst 38 keer in de GDPR, en het woord “passend” zelfs 125 keer, zonder verdere specificatie van wat we daar nu concreet onder moeten verstaan. In de VS worden basisregels voor bedrijfsbeheer opgelegd door de Sarbanes-Oxley Act. In België bestaan er de Code Lippens voor beursgenoteerde, en Code Buysse voor niet-beursgenoteerde ondernemingen. Ondertussen wordt in Europa verder gewerkt aan o.a. een Data Governance Act om een kader te scheppen voor verantwoord (her)gebruik van gegevens.

Deze en andere regulatorische raamwerken zijn misschien niet perfect sluitend. Ze adopteren, eventueel certifiëren, en regelmatig eraan toetsen, zorgt op korte termijn wel voor extra overhead en kosten, maar het legt de lat ook hoger en kan zo op lange termijn veel zorgen voorkomen. Het is ook meestal goede reclame. Uit alle aangehaalde voorbeelden blijkt natuurlijk ook dat daarvoor de nodige wil moet bestaan bij, en middelen ter beschikking gesteld moeten worden door, de bevoegde beleidsmakers.

______________________

Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Uitdagingen bij voicebots

Bert Vanhalst — Thu, 04 Jun 2020 12:02:02 +0000

Zou het niet mooi zijn, een voicebot die automatisch antwoordt op vragen die gebruikers telefonisch stellen aan het contactcenter? Niet alleen wordt de vraag van de beller altijd correct herkend en wordt er een relevant antwoord gegeven via spraak in de taal van de beller, de bot is dan nog eens onvermoeibaar 24/7 beschikbaar en kan talloze bellers tegelijkertijd van antwoord dienen, zonder wachttijd. Callcenter agents kunnen zich toespitsen op het beantwoorden van de complexere vragen.

Niets dan voordelen lijkt het. Maar het voorzien van voicebots is niet zo eenvoudig. Er zijn enkele uitdagingen.

Spraak

Het fundamentele verschil tussen een chatbot en een voicebot is de spraak. In theorie komt het er eenvoudigweg op neer om de gesproken vraag om te zetten naar tekst, deze tekstuele vraag te voeden aan een chatbot en het tekstuele antwoord tenslotte terug om te zetten naar spraak. Het omzetten van spraak naar tekst (Speech-To-Text, STT) is echter niet zo eenvoudig. Systemen voor STT werken beter naarmate ze meer getraind worden. Voor het Engels is er veel trainingsmateriaal voorhanden en zijn de resultaten goed. Aangezien er voor het Nederlands minder trainingsmateriaal voorhanden is, is de kwaliteit van de omzetting iets minder goed.

De beperktere audiokwaliteit bij telefoongesprekken kan ook roet in het eten gooien bij het correct omzetten van spraak naar tekst. Voeg daarbij nog de mogelijke dialecten toe van de bellers en het wordt duidelijk dat de spraak niet altijd even goed begrepen wordt.

Intentie

Na de omzetting van spraak naar tekst is het de taak van de voicebot om de intentie van de beller te herkennen. Dit is in principe hetzelfde als bij een “klassieke” tekstuele chatbot, maar fouten in de omzetting van spraak naar tekst kunnen de intentieherkenning verstoren.

Als de intentie van de beller niet met voldoende zekerheid kan bepaald worden, dan is het noodzakelijk dat de beller kan doorgestuurd worden naar een menselijke agent. In elk geval verwacht de beller dat hij/zij geholpen wordt bij contactname met het contactcenter.

Om de kwaliteit van de voicebot te kunnen verbeteren is het cruciaal om feedback te vragen aan de beller. Een eenvoudige ja/nee vraag (“bent u geholpen?”) kan al belangrijke input leveren om de voicebot te verbeteren.

Scope

Een specifieke uitdaging bij voicebots is het aangeven van de scope: hoe maken we een beller duidelijk welke vragen hij kan stellen? Deze uitdaging stelt zich al bij tekstuele chatbots, maar is bij voicebots nog groter aangezien er helemaal geen scherm is om de opties te presenteren. Een mogelijkheid is om de scope in het begin aan te geven, eventueel met een voorbeeldvraag. Maar als er teveel mogelijkheden zijn, kan er voor gekozen worden om de beller volledig vrij zijn vraag te laten stellen. Als de vraag binnen de scope valt van de voicebot kan de bot de vraag onmiddellijk beantwoorden, zoniet kan er een transfer gebeuren naar een menselijke agent.

Personalisatie

Naast algemene vragen zou een voicebot ook kunnen antwoorden op specifieke dossiervragen, bijvoorbeeld “wanneer kan ik op pensioen?” Antwoorden op vragen over het eigen dossier vereisen dat de identiteit van de beller met voldoende zekerheid gekend is. Waar we de gebruiker bij een klassieke webtoepassing kunnen laten aanmelden met één van de digitale sleutels, is dat bij een telefoonoproep niet evident. Een minimale vorm kan erin bestaan om zich te baseren op het telefoonnummer van de beller. Voorwaarde is dat het telefoonnummer op voorhand gekoppeld werd aan het profiel van de beller. Een andere mogelijkheid is om een aantal vragen te stellen waar enkel de beller het antwoord op kent.

In het ideale geval kan de beller zich authenticeren op basis van zijn/haar stem; de beller hoeft dan geen expliciete actie te ondernemen. Dergelijke voice authentication vereist echter een zekere setup: er moeten voldoende geluidssamples verzameld worden om een voldoende betrouwbare voiceprint te kunnen opstellen. Dit is te vergelijken met het instellen van een fingerprint op een smartphone waarbij je meerdere keren een vinger op de lezer legt vanuit verschillende hoeken. Die voiceprint moet dan nog eens op een betrouwbare manier gekoppeld worden aan de juiste identiteit. Het is met andere woorden verre van evident om een beller op deze manier betrouwbaar te authenticeren.

Privacy

Het is mogelijk dat de conversaties van bellers met de voicebot een tijd bijgehouden worden voor analytische doeleinden. Er moet dan ook stilgestaan worden bij de geldende regels rond privacy, in het bijzonder omdat het gaat over stemopnames. Indien de omzetting van spraak naar tekst gebeurt op basis van een cloud service, is dit een bijkomend aandachtspunt.

Conclusie

Voicebots hebben het potentieel om de werklast van een contactcenter te verlichten en een betere service te bieden aan de beller. Dit is echter op voorwaarde dat de scope van de vragen waar de voicebot op kan antwoorden beperkt is, dat het gaat over algemene vragen (geen specifieke dossiervragen) en dat de spraakinput van voldoende kwaliteit is.

Dit is een ingezonden bijdrage van Bert Vanhalst, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Conversation design

Bert Vanhalst — Tue, 04 Jun 2019 07:18:48 +0000

Spraakassistenten worden meer en meer naar voor geschoven als nieuwe vorm van interactie met computersystemen. Siri, Alexa en Google Assistant strijden om de plaats van geprefereerde virtuele assistent. Ze duiken op in allerlei toestellen: in smartphones, smart speakers, tot zelfs in de auto. Naast Engels en Frans wordt ook het Nederlands meer en meer ondersteund.

Als organisatie kan je zelf toepassingen toevoegen aan die spraakassistenten. Amazon spreekt van skills; Google noemt dit actions. Om conversaties met dergelijke spraaktoepassingen zo vlot mogelijk te laten verlopen, schenken we best de nodige aandacht aan een aantal principes voor het ontwerp ervan (conversation design).

Errors

De manier waarop een spraaktoepassing omgaat met fouten bepaalt in sterke mate de gebruikerservaring. Een fout die niet of slecht opgevangen wordt kan ervoor zorgen dat de gebruiker de toepassing snel de rug toekeert. Dit zijn de drie soorten errors die we best opvangen in de conversatie:

Geen match

In bepaalde gevallen begrijpt de toepassing het antwoord van de gebruiker niet, of kan het dat niet correct interpreteren in de context van de conversatie. Dat kan voorvallen als de gebruiker niet volledig of duidelijk antwoordt, niet spreekt tegen de toepassing (maar even iets bespreekt met een andere persoon), of radicaal van onderwerp verandert. Het kan ook voorvallen dat er een fout gebeurd is bij het omzetten van de spraak-input van de gebruiker naar een tekstuele vorm. De gebruiker kan ook een relevant antwoord geven dat niet begrepen wordt door de toepassing. Een voorbeeld:

Gebruiker: “Ik wil tickets kopen”
Toepassing: “Ok, voor hoeveel personen?”
Gebruiker: “Voor mij en de kinderen.”
Toepassing : “Sorry, voor hoeveel personen?”

Om dit op te vangen vraagt de toepassing best nogmaals kort en to the point de nodige input. Loopt het dan weer verkeerd, dan kan de vraag nogmaals gesteld worden met iets meer detail, of eventueel een voorbeeld van een passend antwoord. Lukt het dan nog niet, dan wordt de conversatie best afgesloten om verdere frustratie te vermijden.

Geen input

Soms weet de gebruiker niet goed wat hij moet zeggen, is hij afgeleid of spreekt hij vóór de microfoon openstaat of wacht hij te lang en is de microfoon alweer afgesloten door de virtuele assistent. In die gevallen is er geen input van de gebruiker en moet de toepassing passend reageren. Dat kan door de vraag opnieuw te stellen, eventueel met meer details, een voorbeeld of het expliciet opsommen van de mogelijkheden. Ook hier sluiten we de conversatie best af na twee extra pogingen.

Gebruiker: “Ik wil een aangifte indienen.”
Toepassing: “Ok, wat is het KBO-nummer?”
Gebruiker:
Toepassing: “Wat is het KBO-nummer van de werkgever?”

Systeemfouten

Systeemfouten kunnen voorkomen als een back-end systeem waar de toepassing gebruik van maakt niet beschikbaar is, of een foutmelding teruggeeft.

Toepassing: “Akkoord om deze aangifte in te dienen?”
Gebruiker: “Ja”
Toepassing: “Door een technisch probleem kan ik de aangifte momenteel niet indienen. Wil je dat ik binnen een paar minuten opnieuw probeer?”

In het ontwerp van de conversatie moeten we dus rekening houden met alle mogelijke fouten die zich kunnen voordoen bij elk systeem waar de toepassing op steunt, er duidelijk over communiceren en eventueel een alternatief aanbieden.

Context

Wat een gebruiker zegt, hangt soms af van de context. Dat betekent dat de spraaktoepassing deze context moet bijhouden en er rekening mee moet houden tijdens het verloop van de conversatie zodat wat de gebruiker zegt correct begrepen wordt. Een voorbeeld:

Gebruiker: “Is mijn RVA-kantoor vandaag open?”
Toepassing: “Nee, het kantoor in Hasselt is vandaag gesloten.”
Gebruiker: “En morgen?”
Toepassing: “Morgen is het RVA-kantoor in Hasselt open van 8u30 tot 17u.”
Gebruiker: “En mijn RSZ-kantoor?”
Toepassing: “Het RSZ-kantoor in Hasselt is morgen open van 8u tot 16u30.”

Door rekening te houden met de context kan je de conversatie vlotter laten verlopen en vermijd je dat de gebruiker gefrustreerd geraakt. Het is belangrijk om alle relevante informatie die een gebruiker meegeeft bij te houden zodat de toepassing het begrijpt wanneer de gebruiker er verder in de conversatie naar verwijst. In het voorbeeld hierboven houdt de toepassing bij over welk type kantoor het gaat en over welke datum. Kennis over de lokatie van de gebruiker is vereist om de link te leggen met het desbetreffende lokale kantoor.

Suggesties

In een klassieke grafische gebruikersinterface is het meestal duidelijk welke functionaliteit een toepassing biedt; de gebruiker kan dat afleiden uit de menu’s, invoervelden en knoppen. Bij een spraakinterface is dat minder evident en kan de gebruiker het gevoel hebben dat hij maar moet raden wat hij kan doen. Daarom is het nuttig dat de spraaktoepassing suggesties doet om de gebruiker te helpen bij het beantwoorden van vragen en om bepaalde functionaliteiten te ontdekken.

Gebruiker: “Ik wil een dimona aangifte doen.”
Toepassing: “Ok, wat is de startdatum? Je kan bijvoorbeeld zeggen “4 juni” of “vandaag”.”

De gesproken suggesties kunnen aangevuld worden met suggestie-knoppen op het scherm. Dit biedt de mogelijk om te antwoorden met een druk op de knop en geeft aan welk soort antwoord de toepassing verwacht.

Tot slot

Zo zie je maar dat computers van nature uit niet zo handig zijn in het voeren van conversaties. We moeten een aantal zaken zelf expliciet opvangen in de spraaktoepassing zodat de gebruiker zich op een natuurlijke manier kan uitdrukken en een zinvol antwoord terugkrijgt.

Een goed ontworpen conversationele interface kan een grote meerwaarde betekenen op vlak van gebruiksgemak. Want hoe meer een interface gebruik maakt van menselijke conversaties, hoe minder gebruikers moeten leren omgaan met de interface.

Dit is een ingezonden bijdrage van Bert Vanhalst, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Is spraak de interface van de toekomst?

Bert Vanhalst — Thu, 04 Oct 2018 14:34:36 +0000

Vandaag interageren we doorgaans met toepassingen via toetsenbord, muis en touchscreens. We selecteren knoppen en links, navigeren in menu’s en typen tekst in invoervelden. Spraak is een meer natuurlijke interactievorm en misschien wel dé ultieme interface om te interageren met computersystemen. Toch is het gebruik van spraak als computerinterface vandaag de dag nog beperkt. In deze blog bekijken we enkele mogelijke hinderpalen voor een breder gebruik van spraak.

Speech-to-text en text-to-speech

Eerst nog even schetsen waar het over gaat. Bij een spraakinterface wordt de spraak (audio) eerst omgezet naar tekst. In het jargon spreekt men van speech-to-text (STT). Die tekst wordt vervolgens als input gegeven aan een (slim) systeem dat een antwoord formuleert of een actie uitvoert. Het tekstuele antwoord wordt dan uiteindelijk terug voorgelezen. Hier spreekt men van text-to-speech (TTS).

Spraakinterfaces kennen we misschien vooral van de spraakassistenten als Siri, Google Assistant, Microsoft Cortana en Amazon Alexa die ondertussen naast het Engels ook het Frans en deels ook al het Nederlands ondersteunen. Via deze virtuele assistenten kan je zoekopdrachten uitvoeren via spraak, maar ook de lichten bedienen, muziek afspelen, enzovoort. Ze bieden daarnaast ook de mogelijkheid om die functionaliteit uit te breiden met extra toepassingen, een beetje vergelijkbaar met het ontwikkelen van apps voor de Android en iOS platformen. Zo voerden we zelf een experiment uit om een Dimona-aangifte te doen via spraak, geïntegreerd met Google Assistant.

Spraakherkenning is de laatste jaren sterk geëvolueerd. Microsoft bereikte een jaar geleden de milestone dat software in staat is om woorden even nauwkeurig te herkennen als de mens. We kunnen ons dan ook de vraag stellen waarom spraak niet méér gebruikt wordt om te interageren met systemen.

Hinderpalen

Allereerst zijn er de sociale normen: niet elke omgeving of situatie is geschikt voor spraakinteractie. Denken we maar aan een overvolle trein of metro waar je niet wil dat je buurman meeluistert. Spraak lijkt het meest geschikt in ruimtes waar we wat privacy hebben of waar we de mensen die in de nabijheid zijn het meest vertrouwen. Geen toeval waarschijnlijk dat de grote spelers sterk focussen op de thuis-omgeving. Denken we maar aan de sterke opkomst van smart home speakers zoals Google Home of Amazon Echo (althans reeds in de VS). In luidruchtige omgevingen moet de technologie dan weer in staat zijn om de spraakcommando’s correct op te pikken. Uit onze eigen ervaringen lijkt dat tot op zekere hoogte goed te werken, maar er zijn natuurlijk grenzen.

Bij het gebruik van spraakassistenten verloopt de volledige conversatie via het cloud-platform van de leveranciers van de spraakassistenten die zo hun datamonsters verder voeden en de gedetailleerde profielen kunnen gebruiken voor gerichte reclame. Bovendien moet je vandaag je spraakassistent nog zelf activeren door een druk op de knop of door het uitspreken van de trigger words (zoals “hé Google”), maar morgen luistert die misschien constant mee naar wat er gezegd wordt om vragen “naadloos” te kunnen afhandelen. Niet iedereen voelt zich daar even comfortabel bij. Ook vertrouwen in de leveranciers speelt dus een belangrijke rol bij de adoptie van spraakinterfaces.

In vergelijking met tekstgebaseerde interfaces hebben conversaties via spraak specifieke uitdagingen. Ze verlopen soms met aarzelingen en onderbrekingen, er worden bepaalde nuances en klemtonen gelegd via intonatie, en de aanwijzingen voor bevestigingen zijn niet altijd even expliciet (zoals “mhm”).

Tot slot is er nog de taalondersteuning. veelal wordt Engels goed ondersteund, gevolgd door Frans. Nederlands hinkt in dat opzicht wat achterop. Zo is het Nederlands pas recent beschikbaar bij Google Assistant. De stem klinkt nog robot-achtig, zeker in vergelijking met de Engelse stem. Een Vlaamse stem is nog niet beschikbaar, enkel een Hollandse.

Conclusie

Spraak zal wellicht nooit de énige interface worden, maar wint wel aan belang. Nu al betekent spraak een serieuze meerwaarde voor blinden, slechtzienden en mensen die om de één of andere reden niet overweg kunnen met muis, toetsenbord of touchscreen. De meerwaarde van een spraakinterface moet geval per geval bekeken worden en lijkt in eerste instantie nuttig bij handsfree & eyes-free situaties zoals in de wagen. Maar wie weet worden we spraak wel met z’n allen wat meer gewoon – onder meer door de opkomst van de spraakassistenten – en is het niet meer ongewoon om te praten tegen je smartphone, computer of speaker.