Eine Frage, die mir schon beim Review meines Blogbeitrags, Large Language Modelle mit TypeScript gestellt wurde war, ob der Einsatz von TypeScript bedeutet, dass wir KI-Modelle jetzt im Browser ausführen können. Und tatsächlich gibt es Technologien und Bibliotheken, die genau dies ermöglichen. Das bedeutet, ein KI-Modell, etwa ein Large Language Modell, wird im Browser heruntergeladen und dann auch im Browser z. B. mit WebAssembly ausgeführt.
Vorteile der Ausführung von KI-Modellen im Browser
Die erste Frage, die einem und auch mir in den Kopf kam, war „Warum sollte man KI-Modelle lokal ausführen wollen?“. Es gibt direkt mehrere Gründe, die dafür sprechen:
Datenschutz und Datensicherheit: Da die Daten lokal verarbeitet werden, verlassen sie den Computer des Nutzer:in nicht, d. h. Datenschutz und Datensicherheit sind gewährleistet. Der Schutz der Daten des Nutzers ist gewährleistet. So können auch sensible Daten durch das lokale KI-Modell verarbeitet werden.
Kostengünstig und skalierbar: Bei der Nutzung eines Cloud-Modells wie ChatGPT kostet jeder Token Geld. Diese Kosten entfallen, wenn die Ausführung lokal durchgeführt wird. Wenn wir selbst das Modell hosten, mögen die Kosten für Token nicht mehr so relevant sein, da der Server auf Anfragen wartet, aber dafür haben wir ein anderes Problem: Skalierbarkeit. Für unseren Server ist es ein großer Unterschied, ob er pro Minute 100 Anfragen oder mehrere tausend Anfragen bearbeitet. Eventuell reicht in diesem Fall ein einzelner Server gar nicht mehr aus und wir müssen die Anzahl Server erhöhen. Diese Skalierung entfällt bei der Ausführung eines Modells im Browser. Mehr Nutzer:innen bedeuten auch mehr Browser, die unabhängig voneinander die Modelle ausführen.
Latenz und Offlinefähigkeit: Bei der lokalen Ausführung eines Modells entfällt der Roundtrip zum Server je Anfrage. Die Latenz ist meist nicht groß, aber gerade für Echtzeitanwendungen ist sie entscheidend. Wir alle kennen diese Momente in Online-Meetings, in denen das Bild des Gegenübers kurzzeitig einfriert oder Video und Audio nicht synchron zueinander sind. Die Vermeidung von Latenz ist auch deshalb wichtig, da jede Anfrage an ein KI-Modell Zeit für die Berechnung benötigt. Ein KI-Modell, welches einmal heruntergeladen wurde, kann zudem im Gegensatz zu einem Cloud-Modell offline genutzt werden. Dies kann etwa relevant sein, wenn Nutzer:innen nicht konstant Internet haben, etwa im Zug oder in der U-Bahn.
Wie wir sehen, gibt es einige Vorteile der Ausführung von KI-Modellen lokal im Browser.
Nachteile der Ausführung von KI-Modellen im Browser
Download des Modells: Gerade Large Language Modelle sind per Definition groß. Bevor sie genutzt werden können, müssen sie erst heruntergeladen werden. So hat etwa das gpt:oss:20b eine Dateigröße von 14 GB. Für die meisten Anwendungen ist es wohl unrealistisch, dass Nutzer:innen 14 GB herunterladen, um eine Funktion der Anwendung zu nutzen. Niemand würde für eine Hotelsuche ein KI-Modell herunterladen, denn die meisten nutzen solch eine Anwendung nicht häufig. Anders sieht die Sache bei Enterprise-Webanwendungen aus: Diese werden von Nutzer:innen jeden Arbeitstag verwendet, hier kann sich der Download eines KI-Modells also lohnen. Nichtsdestotrotz müssen Nutzer:innen das komplette Modell heruntergeladen haben, bevor sie es nutzen können.
Nutzer:innen müssen kompatible Hardware haben: Das oben beschriebene gpt:oss eignet sich nicht für die Ausführung im Browser. Es ist unrealistisch anzunehmen, dass Nutzer:innen 14 GB freien Arbeitsspeicher zur Ausführung des Modells zur Verfügung haben und eine Grafikkarte, die dieses Modell auch ausführen kann. Wir müssen also kleinere Modelle wählen, die weniger anspruchsvolle Anforderungen an die Hardware stellen.
Größe des Modells: Modelle wie ChatGPT 5 oder Claude 4.5 Sonnet können zwar mit sehr viel Wissen punkten und verstehen auch komplexe Sachverhalte, aber sie sind schlichtweg zu groß, um sie lokal zu betreiben. Wie oben ausgeführt müssen lokale Modelle deutlich kleiner sein. Das bedeutet auch, dass sie nicht so ein großes Wissen und Verständnis für komplexe Sachverhalte haben können. Bei der Modellauswahl sollte also nicht nach einem sogenannten Frontier Model wie ChatGPT gesucht werden, sondern nach einem kleineren, spezialisierten Modell, welches auf den eigenen Anwendungsfall trainiert ist.
Vertraue nie dem Frontend: Alle Daten, die vom Frontend ans Backend gesendet werden, können Nutzer:innen einsehen und manipulieren. Dementsprechend sollten die Ergebnisse unserer Modellaufrufe im Browser nicht kritisch für unseren Business-Prozess sein, potenzielle Täter:innen können die Ein- und Ausgaben der Modelle manipulieren und so manipulierte Daten an das Backend zur Weiterverarbeitung senden.
Ich gebe zu, der letzte Punkt ist aus meiner Sicht der größte Nachteil, da er potenzielle Einsatzgebiete stark einschränkt.
Wann ein KI-Modell in der Cloud besser ist
In manchen Anwendungsfällen reichen die Fähigkeiten eines kleinen, lokalen Modells schlicht nicht aus. Oder die Webanwendung eignet sich nicht dafür, dass Nutzer:innen erst ein KI-Modell herunterladen müssen. Etwa weil die KI jederzeit benutzbar sein muss oder etwa, weil die Nutzer:innen die Anwendung gar nicht häufig oder lange genug benutzen, dass sich der Download eines Modells lohnt. Das Abschließen des Downloads und die Nutzung von kompatibler Hardware sind Hürden bei der Nutzung von lokalen KI-Modellen.
In diesen Fällen kann es sinnvoll sein, über die Nutzung eines Cloud-Modells per API, wie z. B. ChatGPT, nachzudenken.
Mögliche Einsatzgebiete von KI-Modellen im Browser
Dennoch sind viele Einsatzzwecke für lokale KI-Modelle im Browser denkbar. Gerade für Videos drängen sich einige Beispiele auf: Etwa die Echtzeitübersetzung eines Livestreams oder die Erstellung von Untertiteln für einen Livestream. Weiterhin wäre es denkbar auf diese Weise diverse Videoeffekte wie Kamerahintergründe zu realisieren.
In Bildern könnte man Objekte erkennen oder per OCR-Erkennung Nutzer:innen ermöglichen Inhalte aus Bildern zu kopieren.
Es könnte auch die Benutzeroberfläche dynamisch anhand der Daten des eingeloggten Nutzers angepasst werden.
Nicht zuletzt könnte ein lokales Modell auch häufiger eingesetzt werden, da die Ausführung für den Herausgeber der Anwendung kostenlos ist. Sie könnte Fragen zu gefilterten Eingaben beantworten oder Ähnliches. In diesem Fall müsste dann nicht der Datenschutz ausschlaggebend sein, sondern dass der Herausgeber nicht jede Anfrage zahlen muss.
Denkbar wäre ein Pizza-Shop, bei dem man in natürlicher Sprache bestellen kann: "Drei große Salami-Pizzen mit extra Käse". Das LLM würde die Pizzen direkt dem Warenkorb hinzufügen. So ein Anwendungsfall ist über eine Cloud-API recht teuer und müsste zudem vor Missbrauch geschützt werden, lokal im Browser besteht dieses Problem jedoch nicht.
Google hat einen Proof of Concept für eine Flugsuche gezeigt, indem die Suchfelder automatisch durch die KI anhand der Spracheingabe gefüllt werden. Solche Funktionen werden nur Einzug in Webanwendungen halten, wenn deren Betrieb nicht große Mehrkosten verursacht.
Fazit
Die Ausführung von KI-Modellen direkt im Browser eröffnet spannende neue Möglichkeiten: Datenschutz und Datensicherheit sind eingebaut, Skalierbarkeit entsteht automatisch durch die Nutzer:innen, und die die Verminderung der Latenz macht sie gerade für Echtzeitanwendungen interessant.
Allerdings bringen KI-Modelle im Browser erhebliche Herausforderungen mit sich – insbesondere beim initialen Download, den Hardwareanforderungen und den mit der Modellgröße einhergehenden Einschränkungen. Zudem sollte bedacht werden, dass Browser-Anwendungen nie vollkommen vertrauenswürdig in sicherheitskritischen Prozessen sind. In diesen Fällen kann sich der Einsatz eines KI-Modells in der Cloud lohnen.
Den größten Mehrwert hat diese Technologie daher dort, wo Effizienz, Datenschutz und Nutzererlebnis über absolute Modellleistung gehen. Kleinere, spezialisierte Modelle, die auf den jeweiligen Anwendungsfall abgestimmt sind, können hier die Stärken lokaler Ausführung voll ausspielen.
Die Zukunft liegt möglicherweise nicht allein in immer größeren KI-Systemen, sondern in der geschickten Kombination aus global trainierten Modellen und kleinen, lokalen Spezialisten – direkt im Browser.