OpenAI förbättrar ChatGPT med funktioner för röst- och bildbehandling

I en betydande utveckling som tillkännagavs på måndagen har OpenAI utrustat ChatGPT med förmågan att bearbeta talade ord, svara med syntetiska röster och tolka bilder.

Detta framsteg markerar den mest betydande uppgraderingen av chatboten sedan lanseringen av GPT-4. Nu kan användare av ChatGPT:s mobilapplikation delta i röstbaserade interaktioner och välja mellan fem olika syntetiska röster för botens svar.

Dessutom underlättar appen för användare att dela bilder och peka ut särskilda områden för botens utvärdering, en funktion som kan användas för förfrågningar som att identifiera molntyper.

OpenAI bekräftade att dessa förbättringar kommer att vara tillgängliga för prenumererade användare inom de kommande två veckorna. Även om röstfunktionerna kommer att vara exklusiva för iOS- och Android-applikationerna, kommer bildanalys att införlivas på alla plattformar.

Lanseringen av de nya funktionerna sker vid en tidpunkt då konkurrensen inom AI-sektorn intensifieras, med stora aktörer som OpenAI, Microsoft, Google och Anthropic som ständigt är innovativa. Den pågående strävan att integrera generativ AI i vanlig konsumentanvändning har fått dessa tekniska giganter att introducera nya chatbot-applikationer och ytterligare funktioner.

I somras presenterade Google till exempel flera uppdateringar av sin Bard-chattbot, medan Microsoft introducerade visuella sökfunktioner i Bing.

Microsofts senaste tillskott på ytterligare 10 miljarder dollar till OpenAI är ett exempel på företagens investeringar i AI-domänen och blev den största AI-relaterade investeringen i år, enligt PitchBook. I april avslutade OpenAI dessutom en aktieförsäljning som värderade startupen till mellan 27 och 29 miljarder dollar, vilket drog till sig investeringar från framstående företag som Sequoia Capital och Andreessen Horowitz.

Introduktionen av AI-drivna syntetiska röster har dock granskats av experter, särskilt på grund av potentialen för att skapa realistiska deepfakes. Den här teknikens dubbla karaktär möjliggör en sömlös användarupplevelse men kan också utgöra cybersäkerhetshot, med cyberbrottslingar och forskare som redan fördjupar sig i att utnyttja deepfakes för att infiltrera säkerhetssystem.

För att bemöta denna oro betonade OpenAI i sitt tillkännagivande att de syntetiska rösterna är produkter av direkta samarbeten med röstskådespelare, vilket säkerställer att ingen röstdata har hämtats från okända individer. Uttalandet från OpenAI innehöll dock begränsad information om hanteringen och skyddet av konsumenternas röstdata. Företagets användarvillkor klargör konsumenternas äganderätt till sina inmatningar, vilket är tillåtet enligt lag.

Enligt riktlinjerna för röstinteraktioner försäkrar OpenAI att de inte lagrar ljudinspelningar och inte heller använder dem för att förfina modeller. Transkriptioner betraktas dock som input och kan potentiellt användas för att förbättra de underliggande storspråksmodellerna.

Källa: CNBC