OpenAI gibt ChatGPT eine Stimme, um auf Eingabeaufforderungen und Befehle zu reagieren

Leser wie Sie unterstützen MUO. Wenn Sie über Links auf unserer Website einen Kauf tätigen, erhalten wir möglicherweise eine Affiliate-Provision. Mehr lesen.

ChatGPT soll zu einem interaktiven generativen KI-Erlebnis werden. OpenAI gab bekannt, dass der weltweit führende KI-Chatbot in der Lage sein wird, mit einer synthetisierten, vermutlich KI-generierten Stimme zu sprechen und auf Benutzeranfragen zu antworten.

Neben seiner neu entdeckten Stimme wird ChatGPT auch in der Lage sein, auf bestimmte Bilder zu antworten und diese zu diskutieren, die auf ihn hochgeladen oder mit der ChatGPT-Android- oder iOS-App aufgenommen wurden. Die Bilderkennungsfunktion ähnelt Google Lens und anderen Apps, die neuronale Netze verwenden, um Daten und Informationen genau zu erkennen.

OpenAI gibt ChatGPT eine Stimme

Am 25. September 2023, ChatGPT-Entwickler OpenAI enthüllt Es würde seinem weltweit führenden generativen KI-Chatbot eine Stimme geben. ChatGPT-Benutzer können direkt mit dem Chatbot sprechen und ihn um eine Rückmeldung bitten, sodass ChatGPT erstmals direkt mit der Stimme kommunizieren kann.

Der Beispielclip von OpenAI zeigt eine Frau, die ChatGPT bittet, eine einzigartige Gute-Nacht-Geschichte zu erstellen, worauf ChatGPT ordnungsgemäß mit einer weiblichen Synthesizerstimme antwortet.

Entsprechend Verdrahtet Das neue Text-to-Speech-Modell wurde intern entwickelt. Es kann „menschenähnliches“ Audio aus Text und einigen Sekunden Beispielsprache erzeugen ( unter Verwendung des OpenAI Whisper-Modells ) und sprechen Sie in verschiedenen Tönen und Stilen. Eine Reihe von Sprachbeispielen finden Sie auf OpenAIs Blog .

Wie lösche ich ssd windows 10

Einige Unternehmen nutzen bereits das neue Sprachmodell von OpenAI. Spotify nutzt beispielsweise das Text-to-Speech-Modell von OpenAI, um Podcasts in verschiedene Sprachen zu übersetzen und kombiniert dabei die Sprachübersetzungsfähigkeiten von ChatGPT mit seinen neuen Sprechfähigkeiten.

abgesicherter modus schwarzer bildschirm windows 10

Das neue Text-to-Speech-Modell von ChatGPT ist nur für Plus- und Enterprise-Abonnenten verfügbar, die die offiziellen Android- und iOS-Apps verwenden, und wird voraussichtlich innerhalb der nächsten zwei Wochen (ab dem 25. September 2023) eingeführt. Darüber hinaus ist die neue Sprachfunktion zunächst auf Englisch beschränkt, wir gehen jedoch davon aus, dass sich dies schnell ändern wird.

ChatGPT kann und und Fotos erkennen

Der zweite Teil des ChatGPT-Updates von OpenAI ist die Möglichkeit, in das Tool hochgeladene Bilder zu analysieren und zu sprechen. Die Option zur visuellen Bildanalyse wurde in den GPT-4-Update-Videos vorgestellt, wurde aber seitdem nicht mehr viel diskutiert ( Abgesehen vom ChatGPT-Code-Interpreter ).

Jetzt erhält ChatGPT eine ähnliche Funktionalität wie Google Lens. Sie können ein Bild auf ChatGPT hochladen oder mit der Kamera Ihres Smartphones in der ChatGPT-App ein Foto aufnehmen. Das Bild wird dann detailliert und bei Bedarf mit mehr Kontext versehen.

Es als „ähnlich wie Google Lens“ zu bezeichnen, ist wirklich ungerecht. Die Möglichkeit, über das Bild hin und her zu chatten, um mehr Informationen und Kontext zu erhalten, macht es für eine Vielzahl von Einstellungen äußerst nützlich. Es ist jedoch wichtig, das Kleingedruckte zu beachten, da OpenAI deutlich macht, dass es aus Datenschutz- und Genauigkeitsgründen die „Fähigkeit von ChatGPT, Personen zu analysieren und direkte Aussagen über sie zu machen“ eingeschränkt hat. Könnte jedoch für die Zukunft ein OpenAI-basiertes „Who Is This“-Tool in Arbeit sein? (Hoffentlich nicht!)

Wie das neue Text-to-Speech-Modell wird OpenAI in den nächsten zwei Wochen die Bilderkennung einführen, allerdings wird sie auf allen Plattformen verfügbar sein, nicht nur in der ChatGPT-App.

So erzwingen Sie das Schließen eines Programms

Datenschutz, Sicherheit und andere Probleme

Die Auswirkungen eines sprachgesteuerten ChatGPT sind gravierend. Klar, es ist aufregend. Allerdings birgt die Möglichkeit, am Beispiel eines kurzen Ausschnitts eine einzigartig synthetisierte Stimme zu erstellen, erhebliche Datenschutz- und Sicherheitsprobleme. Das Potenzial für böswillige Akteure, diese Tools auszunutzen, ist enorm, und wie bei jedem generativen KI-Tool wird der Geist, sobald er aus der Flasche ist, auf keinen Fall wieder hineingehen. Keine noch so große KI-Regulierung durch Regierungen oder Vordenker kann umkehren die Gezeiten.

Sogar die Warnung von OpenAI zu diesem Thema scheint das Offensichtliche zu umgehen, obwohl die Probleme erwähnt werden:

Allerdings bergen diese Funktionen auch neue Risiken, beispielsweise die Möglichkeit für böswillige Akteure, sich als Persönlichkeiten des öffentlichen Lebens auszugeben oder Betrug zu begehen. Aus diesem Grund nutzen wir diese Technologie für einen bestimmten Anwendungsfall: Voice-Chat.

Angesichts der Tatsache, dass dies nur die Spitze des Eisbergs ist, ist mit Gegenreaktionen gegen die neue Stimme von ChatGPT zu rechnen, vor allem, wenn vorhersehbar ein Anstieg an unappetitlichen Schlagzeilen zu verzeichnen ist, in denen behauptet wird, dass ChatGPT für Betrug usw. genutzt wird.

OpenAI macht ChatGPT zur KI-App der Wahl

Je mehr OpenAI ChatGPT um benutzerfreundliche Funktionen erweitert, desto mehr wird es zur bevorzugten generativen KI-App. Als erste App, die während des anfänglichen Booms der generativen KI große Berühmtheit erlangte, ist ChatGPT nach wie vor führend und die einzige App, die teilweise genutzt wird, trotz der Konkurrenz durch Unternehmen wie Google Bard (und möglicherweise Google Gemini) und Claude von Anthropic.

Solange OpenAI weiterhin Funktionen hinzufügen kann, die die Verwendung von ChatGPT einfacher machen, wird es die Menschen fesseln und seinem Ziel eines wirklich multimodalen KI-Tools immer näher kommen.