ChatGPT vidí. Tvůrci oznámili novou verzi, která dokáže pracovat s obrázky

ČTK, Jiří Šumný

Tvůrce ChatGPT vydává vylepšenou verzi umělé inteligence svého výkonného chatbota, který dokáže rozpoznávat obrázky.

14. 3. 2023 21:49

Populární textový generátor ChatGPT se dočká nové verze, která bude schopna rozpoznávat obrázky. Podle oznámení tvůrců softwaru se takzvanému GPT-4 ve srovnání s předchozími verzemi zlepšily výsledky v oblasti faktické přesnosti.

Článek

Tvůrce chatovacího systému ChatGPT uvede pokročilejší model umělé inteligence GPT-4. Má být schopen poskytovat bezpečnější a užitečnější odpovědi a připravit půdu pro šíření technologií podobných lidem. Hlavní devízou nové verze ale bude tvorba obrázků. Start-up OpenAI, který financuje společnost Microsoft a který je tvůrcem systému, to uvedl ve svém úterním sdělení.

Už starší generace ChatGPT využívající modelu GPT-3.5 dokázala na základě jednoduchých dotazů generovat články, eseje, vtipy, ale i poezii. Na základě obrovského množství dat se podobně jako člověk učí, jak odpovídat na podněty uživatelů. Společnost OpenAI koncem loňského listopadu ChatGPT zdarma zpřístupnila veřejnosti. Systém si rychle získal popularitu.

Co umí ChatGPT?

Bezplatná služba ChatGPT je konverzační generátor textu založený na velkém jazykovém modelu GPT-3.5 a GPT-4. Uživatelé mohou s „chatbotem“ komunikovat pomocí textu, a to prakticky na jakékoli téma.

ChatGPT ohromuje tím, že umí smysluplně odpovídat, vést debaty, psát články, básně nebo eseje přesně dle zadání, generovat funkční zdrojový kód… A také pořádně kecat, jak jsme popsali v tomto článku:

Poprvé zdarma a česky: Umělá inteligence vysvětlí cokoli, ve skutečnosti kecá

10. 12. 2022 18:40

V praxi lze ChatGPT využít třeba ke generování textů, psaní e-mailů, překládání, vytváření různých nápadů, programování nebo rychlé analýze a přepsání textu. Více tipů v našem článku:

Ušetří vám práci a vyrazí dech. 10 tipů, jak zapřáhnout umělou inteligenci

5. 3. 2023 17:55

OpenAI uvedla, že model GPT-4 „vykazuje v různých profesionálních a akademických srovnávacích testech výkon na úrovni člověka“, přičemž ve srovnání s předchozími verzemi se zlepšily výsledky v oblasti faktické přesnosti.

„GPT-4 dokáže řešit obtížné problémy s větší přesností, je spolehlivější, kreativnější a dokáže zpracovat mnohem jemnější instrukce,“ píše OpenAI. Při běžné konverzaci se může jevit podobně jako starší model, rozdíl je patrný až při řešení náročnějších úkolů. „U GPT-4 je o 82 procent nižší pravděpodobnost, že odpoví na žádosti o nepovolený obsah, a o 40 procent vyšší pravděpodobnost, že při našich interních hodnoceních poskytne věcné odpovědi než u GPT-3.5,“ dodává firma.

Nová verze také přechází na takzvaný multimodální model. Ten na rozdíl od stávajícího jazykového modelu umožní sofwaru pracovat s různými formami médií. Andrej Karpathy, zaměstnanec OpenAI, na twitteru uvedl, že tato funkce znamená, že umělá inteligence „vidí“.

🎉 GPT-4 is out!!
- 📈 it is incredible
- 👀 it is multimodal (can see)
- 😮 it is on trend w.r.t. scaling laws
- 🔥 it is deployed on ChatGPT Plus: https://t.co/WptpLYHSCO
- 📺 watch the developer demo livestream at 1pm: https://t.co/drEkxQMC9H https://t.co/WUYzwyxOqa
— Andrej Karpathy (@karpathy) March 14, 2023

Odborník na umělou inteligenci z Heriot-Wattovy univerzity v Edinburghu Oliver Lemon tvrdí, že by potenciálně mohlo být možné klást otázky i prostřednictvím obrázků.

„To znamená, že kombinuje nejen text, ale potenciálně i obrázky. Interakce by probíhala nejen v rámci konverzace s textem, ale bylo by možné klást otázky týkající se obrázků,“ řekl pro server New Sky.

Společnost OpenAI potvrdila, že GPT-4 dokáže přijímat obrazové vstupy, rozpoznávat je a vysvětlovat. Jako příklad uvedla model, kdy je software požádán, aby vysvětlil, proč je určitý obrázek vtipný. Vydání je ale omezeno na předplatitele prémiové služby ChatGPT Plus, ostatní se musí zapsat na čekací listinu.

Spolupracující umělou inteligenci vytvářejí i jiné firmy. Google v úterý představil „kouzelnou hůlku“ pro svůj software, která dokáže navrhnout prakticky jakýkoli dokument. Už nyní pak existují nástroje umělé inteligence určené ke generování obrázků, jako je například Dall-E. Ta dokáže vytvářet obrázky na základě jednoduchých textových pokynů.