Hallucinerend duo: Claude vs. ChatGPT - DGF Techbrief #8
Elke maandag het laatste nieuws over Google, andere Big Tech bedrijven en de belangrijkste ontwikkelingen rondom technologie en AI.
Welkom bij de achtste DGF Techbrief.
HALLUCINEREN - Slimme chatbots hebben altijd een antwoord. Dat is fijn. Maar dat antwoord is vaak complete onzin. De chatbot is geprogrammeerd om altijd een antwoord te geven, dus doet-ie dat ook. Zelfs als-ie technisch niet in staat is een bepaalde handeling uit te voeren. Het uitkramen van onzin door chatbots wordt ook wel hallucineren genoemd. In deze nieuwsbrief de battle of the giants: Claude versus ChatGPT. Deze chatbots kunnen er wat van; antwoorden geven én hallucineren.
Afgelopen week kreeg ik toegang tot chatbot Claude, die een kleine maand geleden werd gelanceerd voor een selecte groep gebruikers. Claude is gemaakt door ex-medewerkers van OpenAI (het bedrijf achter ChatGPT, waar Microsoft aandeelhouder van is). Zij hebben in 2021 het bedrijf Anthropic opgericht, waar Google op zijn buurt vorig jaar $ 300 miljoen in heeft geïnvesteerd. Een veelvoud hiervan zal in een nieuwe investeringsronde worden opgehaald. Anthropic wil liefst vijf miljard dollar aan nieuwe investeringen ophalen, zo blijkt uit documenten die technologiewebsite Techcrunch heeft ingezien. Onder de projectnaam “Claude-Next” wordt gewerkt aan een AI-technologie die tienmaal zo intelligent is als het huidige LLM (Large Language Model) waarmee onze Claude het nu tegen ChatGPT opneemt.
Claude vs. ChatGPT
Ik onderwierp Claude, die qua interface veel doet denken aan zijn oudere broer ChatGPT, aan een paar testopdrachten en een klein vergelijkend warenonderzoek. Niet alleen qua look en feel vertonen de chatbots overeenkomsten, ook qua antwoorden. Al is Claude geregeld wat langer van stof en lijken zijn antwoorden naast feiten ook veel meningen te bevatten. Dat Rutte Feyenoord-fan zou zijn, kon ik nergens bevestigd krijgen.
Rare vogels
Ik liet zowel ChatGPT als Claude een afbeelding met een shiba inu-hond beoordelen. Het logo van Dogecoin - de favoriete cryptomunt van Twitter-eigenaar Elon Musk - bestaat uit de kop van een hond van dat ras. Het leek er afgelopen week zelfs enige tijd op dat een animatie van zo’n hondenkop de plaats van de bekende vogel ‘Larry’ als Twitterlogo ingenomen had. Dit gegeven deed niet alleen een groot deel van de Twitter-community in luid geblaf en getsjirp uitbarsten, ook de cryptomunt Dogecoin nam zo’n 25% in waarde toe, wat gelijk staat aan vier miljard dollar. Inmiddels is Larry weer terug op z’n vertrouwde nest, als logo van Twitter. Of dat voorgoed is, is op dit moment nog onduidelijk.
Ik liet beide chatbots twee afbeeldingen zien over het nieuws rondom het Twitterlogo en de Dogecoin.
De eerste afbeelding heeft een beschrijvende url, waarin de woorden “Twitter” en “logo” staan: https://www.marketingtribune.nl/media/nieuws/2023/04/twitterlogo-van-vogel-naar-hond/Geen-Larry-meer.jpg
De tweede afbeelding heeft een url die geen beschrijving bevat, maar naast de cryptomunt ook een close-up van het hoofd van Elon Musk: https://images0.persgroep.net/rcs/q9Y32yRVAAuTeROqRa0EvShBsac/diocontent/229321329/_fill/1200/630/?appId=21791a8992982cd8da851550a453bd7f&quality=0.7
Met de eerste afbeelding wist ChatGPT wel raad, bij de volgende deed de chatbot het voorkomen alsof hij ook wel wist wat erop stond, maar sloeg z’n fantasie danig op hol.
Ook chatbot Claude, die zich nadrukkelijk afficheert als een ‘eerlijke, behulpzame en niet gevaarlijke AI-assistent’, maakte dezelfde fout. Over de afbeelding met een beschrijvende url wist hij wel iets zinnigs te melden, maar zonder context werd het een bizar verhaal. Waar hij Max Verstappen vandaan heeft getoverd blijft gissen.
Beide chatbots gaven antwoord. Hallucinant soms en met een grote dosis non-informatie, zoals die over de favoriete voetbalclub van Mark Rutte. Als ze een taak niet uit kunnen voeren - beide chatbots zijn nog niet in staat om een afbeelding te herkennen op basis van een url - doen ze alsnog een poging. In dit geval zochten ze het antwoord in de beschrijvende url. Het zijn niet voor niets taalmodellen. Elon Musk hebben ze beide niet herkend. Zijn naam werd dan ook niet vermeld in de url.
PESTKOP - A propos Elon Musk en Twitter. Sinds een paar dagen kan ik geen tweets meer embedden in deze nieuwsbrief. Een repercussie van Twitter nadat Substack - het bedrijf achter dit nieuwsbriefsysteem - onder de naam ‘Notes’ een eigen korte-berichten-dienst op de markt heeft gebracht. Inmiddels worden ook linkjes in tweets naar Substack nieuwsbrieven zoals deze als onveilig gemarkeerd.
SOFTWAREDEVELOPMENT - 41% van de nieuwe softwarecode op Github is AI-gegenereerd, beweerde Emad Mostaque, de ceo van Stability AI (bekend van beeldgenerator Stable Diffusion), tijdens een event van Goldman Sachs in Londen. Zijn conclusie? Over 5 jaar zijn er geen programmeurs meer.
Ik vroeg zowel ChatGPT als Claude om hun mening over deze uitspraak. Beide chatbots bleven opvallend in lijn met hun eerder beschreven ‘karakters’.
Meer weten? Lees wekelijks verhalen over Google, andere Big Tech en nieuwe technologie op degoogleformule.nl. Liever lezen op papier? Koop dan het boek De Google formule.