KI-Software Casablanca tritt gegen Nvidia an

Realistische Mimik statt stures Starren - KI-Software Casablanca sorgt für wirklich authentische Videocalls

Künstliche Intelligenz soll für mehr Natürlichkeit in Videocalls sorgen. Das deutsche KI-Startup Casablanca erzeugt Blickkontakt ohne Fake-Gefühl – im Gegensatz zur Lösung von Nvidia, die in den letzten Tagen durch die Öffentlichkeit ging.

Inhalt−

93% unserer Kommunikation sind nonverbal, sagt Psychologe Prof. Albert Mehrabian. Dabei sind Blickkontakt und Mimik der wichtigste Bestandteil. Bei Videocalls ging dieser Blickkontakt bisher verloren. Die KI-Software des Startups Casablanca erzeugt in Echtzeit Blickkontakt und realistische Mimik in Videocalls. Sie lässt sich mit allen Videocall-Systemen anwenden.

Digitaler Blickkontakt wie im analogen Gespräch

Für die Entwicklung von Casablanca hat das deutsche Startup zwei Jahre geforscht und drei Patente entwickelt. Herausgekommen ist eine Technologie, die mittels künstlicher Intelligenz den natürlichen Blickkontakt wieder herstellt – allerdings nur, wenn man sich auch wirklich anschaut. Die Software arbeitet, als hätte man eine Kamera mitten auf dem Bildschirm angebracht – nur ohne die störende Kamera.

Bisherige Lösungen wie die des US-Tech-Giganten NVIDIA („NVIDIA Broadcast“ ging zuletzt stark durch die Medien) drehen lediglich die Augen zur Kamera – und zwar ständig, auch wenn der Gesprächspartner eigentlich den Blick abwendet. Das schafft zwar Blickkontakt, dieser ist allerdings sehr unnatürlich. Casablanca ist hingegen in der Lage, das ganze Gesicht zu verarbeiten. Dadurch wird der Kopf im idealen Winkel ausgerichtet und die KI erlaubt es auch, bewusst in eine andere Richtung zu schauen. Augenkontakt entsteht dadurch genau so, wie er auch im analogen Gespräch entstehen würde.

Natürliche Mimik dank Künstlicher Intelligenz

In Casablanca stecken verschiedene Technologien: Einerseits erzeugt die KI ein 3D-Abbild des Kopfes mit einem eigens entwickelten Deep-Learning-Verfahren. Ergänzend wird ein um zusätzliche Diskriminatoren erweitertes GAN (Generative Adversarial Network) eingesetzt, um fehlende Bildteile zu ergänzen. So kann beispielsweise der Hals rekonstruiert werden, wenn die Kamera diesen nicht erfassen kann. Erst diese Kombination ermöglicht die realistische Ausrichtung des Kopfes, natürlichen Blickkontakt und authentische Mimik. Andererseits sorgen neue Interpolationsverfahren dafür, dass Casablanca weniger Daten behandeln muss, um die Bilddrehung zu vollziehen – das sichert eine flüssige Anwendung in Echtzeit.

Casablanca lässt sich mit allen Videocall-Systemen anwenden, denn es wird tatsächlich als (virtuelle) Kamera installiert, obwohl es reine Software ist. Man wählt dann in Zoom, Teams usw. statt der „Front Camera“ einfach die „Casablanca Camera“ aus. Ebenso wie das NVIDIA System benötigt Casablanca auf Windows-Notebooks eine Grafikkarte für die KI-Berechnungen. Auf einem Mac mit M1 oder M2 Prozessor läuft Casablanca problemlos, da diese Prozessoren bereits die erforderliche KI-Rechenleistung mitbringen. Casablanca ist derzeit im Beta-Stadium, man kann sich kostenlos registrieren und die Beta-Version in allen Videocalls nutzen.

Carsten Krausprognostiziert die kommenden Entwicklungen im Zusammenhang mit künstlicher Intelligenz

„Rasant, rasanter, KI – so in etwa lässt sich die Geschwindigkeit der Schritte künstlicher Intelligenz wohl am besten beschreiben. Mit Blick auf die verschiedenen Steps, die die Technologie parallel geht, verlieren wir schnell den Überblick. Hier seine Prognosen für 2024:

Software

Kleinere Large Language Models (LLM) werden nun leistungsfähig genug für viele Anwendungen. Große Fortschritte in diese Richtung lassen sich schon jetzt ausmachen an den Beispielen Gemini Nano von Google und Phi-2 von Microsoft – letzteres hat ungefähr die Leistung des 25-mal größeren Llama 2. Wenn LLMs mit wesentlich weniger Rechenleistung auskommen, wird ihr Einsatz kostengünstiger, und sie können für weitere Aufgaben eingesetzt werden.

Neben den LLMs wird Deep Reinforcement Learning (Deep RL) weitere Durchbrüche schaffen und damit mehr Beachtung finden. Google – mit seiner Tochterfirma DeepMind führend in Deep RL – wird den Versuch unternehmen, LLMs mit Deep RL zu verbinden. Wenn das gelingt, kann KI viel besser komplizierte Sachverhalte durchdenken als bisher. Auch bisher hat DeepMind schon für Aufsehen in der Wissenschaft gesorgt, zum Beispiel mit Alpha Fold für die Medizin, einigen Durchbrüchen in der Mathematik-Forschung und zuletzt mit der Entdeckung hunderttausender neuer Materialien in der Werkstoffforschung.

Neues auf dem Hardware-Markt

Mit den MI300-Karten für Rechenzentren stellt AMD eine echte Alternative zu nVidia vor. Das kann dazu führen, dass nVidia nicht mehr jeden Preis durchsetzen kann, und die High-End Karten billiger werden. Weiterer Punkt: KI wird bisher meist auf GPUs ausgeführt, die ursprünglich für Grafik entwickelt wurden. Hier ist spezielle Hardware effizienter. IBM hat Northpole präsentiert. Diese Architektur verteilt den Speicher nah an die Rechenkerne angeordnet. Das Unternehmen erwartet eine mindestens fünfmal höhere Effizienz. Zudem schreitet die Entwicklung von Spiking Neural Networks voran, in Form von speziellen Chips. Die Chips kommen erst in einigen Jahren, aber im April 2024 soll ein Supercomputer namens DeepSouth in Betrieb gehen, der das Spiking-Prinzip mit schon bestehender Hardware umsetzt. Das bringt noch nicht die vollen Effizienzgewinne ein – aber wir können gespannt sein.

Auswirkungen auf die Weltwirtschaft

Der Run aller Nationen auf LLMs wird groß, um nicht von den USA und China abhängig zu sein. Denn: Jeweilige Entwickler können Meinungen und Geisteshaltungen der LLMs und somit auch der Anwender beeinflussen. China wird seine Bemühungen weiter hochfahren und auch das staatliche Budget erhöhen. Möglich, dass aktiv der Versuch unternommen wird, chinesischstämmige KI-Forscher aus den USA zurückzuholen. Schauen wir auf Indien, sehen wir eine potenzielle Bedrohung für die Outsourcing-Firmen. Routine-Tätigkeiten in der Software-Entwicklung lassen sich durch KI heute bereits doppelt so schnell erledigen. In Indien stammen 7,4 Prozent des BIP aus der Software-Industrie. Dementsprechend groß ist der Impact. Abschließend noch ein Blick auf den AI Act: Die EU hat beschlossen, KI-Anwendungen wegen potenziell riskanter Folgen einzuschränken. Da das Regelwerk kompliziert ist, und die Strafen sehr hoch, wird es ähnlich der DSGVO Ängste auslösen; und damit lassen viele europäische Mittelstands-Unternehmen aller Branchen lieber die Finger von KI – mit gefährlichen Folgen für deren Produktivität. Wichtig ist jetzt, dass die EU aktiv bekannt macht, dass die meisten KI-Anwendungen weiterhin erlaubt sind, und den Mittelstand zur Anwendung animiert.“

Casablanca.AI GmbH

Mit ihrer selbst entwickelten künstlichen Intelligenz ermöglicht die 2020 gegründete Casablanca.AI GmbH aus Pforzheim authentische Videocalls. Als „virtuelle Kamera“ funktioniert das durch Patente abgesicherte Produkt in Zusammenarbeit mit allen gängigen Videokonferenzangeboten. Dabei erzeugt sie rein softwarebasiert in Echtzeit realen Blickkontakt in digitalen Meetings und stellt so ein natürliches sowie direktes Gesprächserlebnis her. Studien der Yale University und des KIT zeigen, dass Blickkontakt relevant ist für Vertrauen und Produktivität in Meetings, sowie höhere Aufmerksamkeit bewirkt und damit der „Zoom Fatigue“-Erschöpfung entgegenwirkt. Casablanca ist die weltweit erste Technologie, die den ganzen Kopf authentisch ausrichtet.

Über Carsten Kraus

Seit seiner Schulzeit hat Carsten Kraus immer wieder disruptive Erfindungen gemacht, Patente angemeldet und daraus Firmen gegründet. Sein größter Exit war FACT-Finder, der europäische Marktführer für Suche in großen Onlineshops. FACT-Finder war die erste Technologie, die fehlertolerante Suche möglich machte, zwei Jahre vor Googles „meinten Sie vielleicht?“. Casablanca ist seine zwölfte Firmengründung.

Themen:

Software

KI-Software Casablanca tritt gegen Nvidia an

Digitaler Blickkontakt wie im analogen Gespräch

Natürliche Mimik dank Künstlicher Intelligenz