Groq it !

robot AI

Ik zit nu ook te werken met een AI API. Ik was daar nog niet zo mee bezig. OpenAI wil een credit card en die heb ik niet. Wil ik ook niet. Maar je hoeft niet per se te betalen, je kunt ook een gratis desktop LLM gebruiken van Huggingface.

Dus ik had daarmee vorige week een appje gemaakt dat posts downloadde van mijn nieuws website, en die posts toonde in een gallerijtje. Dan kon ik klikken op een post en kreeg een eigen pagina. Een button erbij : “AI comment”. Daarmee stuurde ik de post content (de eerste 2000 characters) naar de lokale LLM en dan komt er na 2 minuten stampen een antwoord. Dan nog een button ‘update’ en daarmee kon ik het commentaar toevoegen aan de post content, en dat updaten op de server.

Lekker hout(hakk)erig. Dat kan beter. Want 1800 posts keer 2 minuten is 60 uur, en ik moet er om de twee minuten op ‘update’ drukken tot ik er simpel van word. Met die ziekte van Crohn zoek ik juist dingen die mij werk besparen en niet werk verschaffen.

Ik keek een video, op mijn eigen nieuwssite toevallig, over Groq en hun API. Ik was wel geïnteresseerd.

Groq is veel groter dan ik dacht. Dat bedrijf wordt nu op 2.8 miljard geschat. Die haalden iets van 650 miljoen dollar op in hun recente rondje fundraising, dikke liquiditeiten. En die hebben ook grote plannen, investeringen, overnames, maar dat moet je zelf even bekijken.

LPU Language Processing Unit

Groq ontwikkelen onder meer de LPU, ‘language processing unit’. Net zoals bij Bitcoin de ASICS kwamen, hebben zij een LPU ontwikkeld, hardware speciaal voor LLM’s. Die chips geven 10 tot 100 keer sneller resultaat dan de GPU. Dus Groq is echt een actieve [player] in de markt.

voor de normale mensen : CNN

voor de tecchies : python pret met Groq

Ze hebben een ‘inference AI’ online staan, voor het publiek, op groq.com. Die heeft een developer playground, daar kun je een API key ophalen en voorlopig hebben ze een leuke tier voor ons, 14.400 calls per dag, max 30 per minuut, en ik meen 30K return tokens per minuut. Groq haalt 500 tokens per seconde, zeg twee a drie dikke paragraphen per seconde.

Groq leveren zelf een NPM library, en die volgt grotendeels de definities van de OpenAI API qua chat.completions en zo. Dus je kunt ook andere code vrij snel gebruiken ermee.

Ik liep zelf eerst tegen de ’30 calls per minuut’ limiet aan en vervolgens tegen de 30.000 token return per minuut limiet. Maar als ik het throttle en alles binnen de limieten hou, dan koetelt mijn appje gewoon door. Goeie kwaliteit tekst, relevante tekst, en snel. Ik kon 100 posts in 10 minuten bewerken. Mijn site heeft 1800 posts, dus ik kan in 180 minuten, 3 uur tijd, klaar zijn. Met mijn lokale LLM was dat 60 uur geworden (met gedwongen aanwezigheid). Nu werkt het volautomatisch, ik download nu alle posts van een bepaalde tag, de app loopt door de array heen, en als er al een comment in de post zit, dan slaan we hem over, zit er nog niks in, dan voer ik de post content geheel aan de AI en heb na 2, 3 seconden een response, dan de post weer updaten en verder met de volgende.

Mijn cache liep wel vol, dus dat moet ik nog even nalezen, de limieten zitten niet alleen in de AI API. Maar die cache kan ik ook een uurtje uitschakelen.

Al met al een heel positieve kennismaking met Groq.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top