GPT-5: 4 nové funkce, které chceme vidět

GPT-5: 4 nové funkce, které chceme vidět

Rychlé odkazy

OpenAI GPT-4 je v současnosti nejlepší generativní AI nástroj na trhu, ale to neznamená, že se nedíváme do budoucnosti. Vzhledem k tomu, že generální ředitel OpenAI Sam Altman pravidelně uvádí rady o GPT-5, zdá se pravděpodobné, že brzy uvidíme nový, vylepšený model AI.





MUO Video dne POKRAČOVÁNÍ V OBSAHU POKRAČUJTE PŘEJÍMÁNÍM

Alespoň v to doufáme. Pro GPT-5 neexistuje žádné konkrétní datum uvedení na trh a většina toho, co si myslíme, že víme, pochází z poskládání dalších informací a pokusů o spojení bodů.





Přesto, bez ohledu na datum splatnosti, existuje několik klíčových funkcí, které chceme vidět při spuštění GPT-5.





Co je GPT-5 OpenAI?

GPT-5 je velmi očekávaným nástupcem modelu GPT-4 AI OpenAI, od kterého se všeobecně očekává, že bude nejvýkonnějším generativním modelem na trhu. I když v současné době neexistuje žádné oficiální datum vydání pro GPT-5, existují náznaky, že by mohl být vydán již v létě 2024. V tuto chvíli je známo velmi málo podrobností o modelu, ale s určitým množstvím věcí lze říci jistota:

To vše ukazuje na jednu vzrušující realitu: GPT-5 přichází! To znamená, že v tuto chvíli je spousta věcí spekulacemi. Ale je tu pár věcí, o kterých doufáme, že uvidíme a jsme si docela jisti, že je v modelu uvidíme. Tady jsou některé z nich:



1. Více multimodalit

  Generátor převodu textu na video OpenAI Sora

Jedním z nejzajímavějších vylepšení řady modelů umělé inteligence GPT je multimodalita. Pro upřesnění, multimodalita je schopnost modelu AI zpracovávat více než jen text, ale také další typy vstupů, jako jsou obrázky, zvuk a video. Multimodalita bude v budoucnu důležitým měřítkem pokroku pro rodinu modelů GPT.

jak začít blog na tumblr

Vzhledem k tomu, že GPT-4 je již zběhlý ve zpracování obrazových vstupů a výstupů, vylepšení týkající se zpracování zvuku a videa jsou dalším milníkem pro OpenAI a GPT-5 je dobrým místem, kde začít. Google již s tímto druhem multimodality dělá se svým modelem Gemini AI vážný pokrok. Pro OpenAI by bylo netypické nereagovat. Ale samozřejmě nás neberte za slovo. V jeho Unconfuse Me podcast [PDF přepis] se Bill Gates zeptal generálního ředitele OpenAI Sama Altmana, jaké milníky předvídal pro sérii GPT v příštích dvou letech. Jeho první odpověď? Zpracování videa.





U GPT-5 tedy očekáváme, že si budeme moci hrát s videi – nahrávat videa jako výzvy, vytvářet videa na cestách, upravovat videa pomocí textových výzev, extrahovat segmenty z videí a vyhledávat konkrétní scény z velkých video souborů. Očekáváme, že budeme schopni dělat podobné věci jako zvukové soubory. Je to velký dotaz, ano. Ale vzhledem k tomu, jak rychlý je vývoj AI, je to velmi rozumné očekávání.

2. Větší a efektivnější kontextové okno

  Monitor na stole s logem OpenAI
Ralf Jhetner Borja/ flickr

Navzdory tomu, že se jedná o jeden z nejsofistikovanějších modelů AI na trhu, má řada modelů AI GPT jedno z nejmenších kontextových oken. Například, Anthropic's Claude 3 se může pochlubit kontextovým oknem 200 000 tokenů , zatímco Gemini od Googlu dokáže zpracovat ohromující 1 milion tokenů (128 000 pro standardní použití). Na rozdíl od toho má GPT-4 relativně menší kontextové okno 128 000 tokenů, přičemž přibližně 32 000 tokenů nebo méně je reálně dostupných pro použití na rozhraních, jako je ChatGPT.





S pokročilou multimodalitou vstupující do obrazu je vylepšené kontextové okno téměř nevyhnutelné. Možná by stačilo zvýšení o faktor dva nebo čtyři, ale doufáme, že uvidíme něco jako faktor deset. To umožní GPT-5 zpracovat mnohem více informací mnohem efektivněji. Větší kontextové okno nemusí vždy znamenat lepší. Takže spíše než jen zvětšovat kontextové okno bychom rádi viděli zvýšenou efektivitu zpracování kontextu.

Vidíte, že model může mít jeden milion kontextového okna tokenů (kapacita kolem 700 000 slov), ale při požadavku na shrnutí knihy o 500 000 slovech nedokáže vytvořit komplexní shrnutí, protože nedokáže adekvátně zpracovat celý kontext, přestože má schopnost to teoreticky udělat. To, že dokážete přečíst knihu o 500 000 slovech, neznamená, že si v ní můžete vše vybavit nebo to rozumně zpracovat.

3. Agenti GPT

  ChatGPT přístupný na smartphonu
Koshiro K/ Shutterstock

Snad jednou z nejvíce vzrušujících možností vydání GPT-5 je debut GPT Agents. Zatímco termín „game-changer“ byl v AI pravděpodobně nadužíván, agenti GPT by skutečně změnili hru v každém praktickém smyslu. Ale jak moc by to změnilo hru?

V současné době vám modely umělé inteligence jako GPT-4 mohou pomoci dokončit úkol. Mohou vám napsat e-mail, udělat vtip, vyřešit matematický problém nebo navrhnout příspěvek na blog. Mohou však provádět pouze tento konkrétní úkol a nemohou dokončit sadu souvisejících úkolů, které by byly nezbytné k dokončení vaší práce.

Řekněme, že jste webový vývojář. V rámci vaší práce se od vás očekává mnoho věcí: navrhování, psaní kódu, odstraňování problémů a mnoho dalšího. V současné době můžete na modely AI delegovat pouze část těchto úkolů najednou. Možná můžete požádat model GPT-4, aby napsal kód pro domovskou stránku, pak jej o to požádat pro stránku s kontakty a poté pro stránku O aplikaci atd. Tyto úkoly budete muset dokončit iterativně. A jsou úkoly, které modelky prostě nemohou dokončit.

najít nekrolog pro konkrétní osobu zdarma

Tento iterativní proces nabádání modelů AI pro konkrétní dílčí úkoly je časově náročný a neefektivní. V tomto scénáři jste vy – webový vývojář – lidským agentem zodpovědným za koordinaci a pobízení modelů AI jeden úkol po druhém, dokud nedokončíte celou sadu souvisejících úkolů.

GPT Agents slibuje specializované expertní roboty koordinované, doufejme, GPT-5, schopné samovolně vyvolat a řešit všechny podmnožiny složitého úkolu autonomně. Důraz na „samostatnost“ a „samostatnost“.

jak přejmenovat soubory v linuxu

Pokud se tedy GPT-5 dodává s agenty GPT, můžete jej požádat, aby „vytvořil webovou stránku s portfoliem pro Maxwella Timothyho“, než jen „napsal mi kód pro domovskou stránku“. GPT-5 by pak teoreticky byl schopen samovolně vybídnout vyvoláním expertních agentů AI, aby zvládli různé dílčí úkoly potřebné k vytvoření webu. Mohlo by to vyvolat jednoho GPT, aby z webu odstranil informace o Maxwell Timothym, jiného agenta, který by napsal kód pro různé stránky, dalšího agenta, který by generoval a optimalizoval obrázky, a dokonce jiného agenta AI k nasazení webu, to vše bez potřeby opakovaného zásahu člověka. nabádání.

4. Méně halucinací

Přestože OpenAI ušla dlouhou cestu v řešení halucinací ve svých modelech umělé inteligence, skutečným lakmusovým papírkem pro GPT-5 bude její schopnost řešit přetrvávající problém halucinací, který brzdí rozšířené přijetí umělé inteligence ve vysokých sázkách, bezpečnostně kritické oblasti, jako je zdravotnictví, letectví a kybernetická bezpečnost. To vše jsou oblasti, které by výrazně těžily z intenzivního zapojení AI, ale v současné době se vyhýbají jakémukoli významnému přijetí.

Pro jasnost, halucinace v tomto kontextu odkazuje na situace, kdy model umělé inteligence generuje a prezentuje věrohodně znějící, ale zcela vymyšlené informace s vysokou mírou spolehlivosti.

Představte si scénář, kde je GPT-4 integrován do diagnostického systému pro analýzu symptomů pacientů a lékařských zpráv. Halucinace by mohla vést AI k sebevědomému stanovení nesprávné diagnózy nebo doporučení potenciálně nebezpečného postupu léčby založeného na domnělých faktech a falešné logice. Důsledky takové chyby v lékařské oblasti by mohly být katastrofální.

Podobné výhrady platí pro další oblasti s vysokými důsledky, jako je letectví, jaderná energetika, námořní operace a kybernetická bezpečnost. Neočekáváme, že GPT-5 zcela vyřeší problém halucinací, ale očekáváme, že výrazně sníží možnost takových incidentů.

Zatímco netrpělivě očekáváme oficiální vydání tohoto velmi očekávaného modelu umělé inteligence, jedna věc je jistá: GPT-5 má potenciál předefinovat hranice toho, co je možné s umělou inteligencí, a zahájit novou éru spolupráce a inovací mezi člověkem a strojem.