OpenAI Whisper Geschwindigkeitsvergleich

Bei Whisper von OpenAI handelt es sich um eine Automatic-Speech-Recognition KI, ein System, das Sprache erkennen und in Text umwandelt kann. Das System funktioniert auch in deutscher Sprache erstaunlich gut und ist zudem auf lokalen Systemen einsetzbar.

Seit einiger Zeit entwickeln wir eine darauf basierende Lösung, welche für diejenigen Berufsgruppen gedacht ist, die immer noch gerne (oder auch ungern) mit einem Diktiergerät arbeiten und die Diktate anschließend in Textform bringen (lassen) müssen – z.B. Rechtsanwälte, Ärzte, Notare und weitere.

KI generiertes Bild eines Kopfes aus dem Audio-Wave-Formen in Richtung einer Grafikkarte strömen

Unsere Lösung vereint den Workflow des elektronischen Diktats (z.B. via Smartphone App) mit der Möglichkeit die Aufzeichnung per E-Mail an ein Speech-To-Text System zu senden und eine Transkription zurück zu bekommen – und das ganze OnPremise in der Kundenumgebung und damit auch in Sachen DSGVO unkritisch. Neben der Verarbeitung von Formatierungsbefehlen bietet unsere Lösung weitere Vorteile gegenüber der reinen Whisper Transkription. Doch darum soll es heute nicht gehen.

Da die Verarbeitungszeit sehr stark von der verwendeten Hardware abhängt (und besonders auf GPUs / Grafikkarten gut funktioniert), wollten wir einen Sweet-Spot hinsichtlich Preis-/Leistung finden und haben Tests auf verschiedenen Systemen durchgeführt (und einige aus dem Internet zusammen getragen).

Wichtig dabei zu beachten ist, dass das größte und beste Whisper Model ca. 10GB RAM bzw. VRAM benötigt (und bei Verarbeitung auf einer GPU / Grafikkarte wird neben den mind. 10GB VRAM auch mind. 10GB RAM benötigt, da das Model sonst nicht in den Speicher der Grafikkarte geladen werden kann). Das bezieht sich auf jede Instanz die auf dem gleichen System parallel betrieben werden soll (d.h. bei zwei parallelen Instanzen auf einer GPU sind mind. 20GB VRAM nötig).

weiterlesen → OpenAI Whisper Geschwindigkeitsvergleich