Apple to vzdává, mozek pro Siri pronajme u konkurence. Selhali ale všichni

Článek

Analýzu si také můžete poslechnout v audioverzi.

„Hej Siri, pošli fotky ze sobotní grilovačky Janě.“ Takové a ještě složitější úkoly měla umělá inteligence od Applu zvládnout už v roce 2024 – nebo se tím aspoň chlubila v reklamách na iPhone 16. Jenže ani po více než roce si s tímto úkolem asistent neporadí. Firma Apple, která si jinak obvykle dává pozor, aby neukazovala v reklamách něco, co ještě neumí, tím hodně uživatelů naštvala a dokonce čelí žalobě.

Apple dlouho doufal, že se mu podaří umělou inteligenci pro Siri vyvinout interně. Měl to být silný jazykový model z dílny Apple, který běží přímo na zařízení, a pak ještě silnější, který běží na zabezpečeném cloudu. Tento sen Apple stále neopustil. Ale ze zákulisních zjištění agentury Bloomberg vyplývá, že Apple alespoň prozatím vzdává minimálně tři roky trvající snahu vytvořit vlastní konkurenceschopnou umělou inteligenci.

Dohoda, která je podle zdrojů těsně před podpisem, mluví o miliardě dolarů (přibližně 20 miliard korun), což je pro představu necelé procento ročních zisků firmy. Za tuto částku by měla nová Siri na pozadí využívat nový model Gemini s 1,2 biliony parametrů. Apple podle Bloombergu otestoval i modely od Anthropic a OpenAI. Některé operace bude Siri nadále provádět pomocí lokálně běžící neuronové sítě, ale velkou část složitějších dotazů bude zřejmě posílat na servery Googlu.

Uvedení nové funkce je zatím „několik měsíců daleko“, uvádí zdroje Bloombergu. Není tak přesně jasné, zda si nový asistent s „mozkovým transplantátem“ poradí s komplikovanějšími příkazy. Oproti aktuálnímu stavu to ale téměř určitě bude zlepšení. Za poslední roky totiž tradiční hlasoví asistenti – Apple Siri, Google Assistant i Amazon Alexa – přestali budit dojem futuristické technologie. Místo toho se stali terčem vtipů. V porovnání s ChatGPT a dalšími AI chatboty se totiž odhaluje, jak málo flexibilní jsou.

Dříve futurističtí asistenti dnes působí zastarale

I na velmi jednoduché dotazy dnes Siri nenabízí dobré výsledky.

Uživatel: „Siri, ukaž mi moje fotky.“
Siri: „Takto se můžete podívat na své obrázky. Otevřete aplikaci Fotoaparát. Klikněte na malý obrázek vlevo dole. Posouváním doleva a doprava můžete posouvat své fotky.“

Asistent od firmy Apple v tom ale není sám. Také Asistent Google (dostupný třeba v produktech Google Home, neplést s Gemini) už delší dobu tápe i tam, kde dříve uměl nabídnout dobrou odpověď.

Uživatel: „Hej Google, kolik je jeden hrnek v mililitrech?“
Google Asistent: „Jeden hrnek je 236,58 mililitrů.“
Uživatel: „A co dva hrnky?“
Google Asistent: „Podle Wikipedie je Two of Cups tarotová hra, která se hraje po celé Evropě...“

Také asistent Alexa od Amazonu je na tom dost špatně.

Uživatel: „Chci si koupit knihu o Praze.“
Alexa: „Pokud chcete najít knihu, zkuste něco jako Koupit knihu, Malé ženy.“

Výše uvedené odpovědi jsou přeložené z angličtiny do češtiny. S češtinou mají totiž zatím tito asistenti stále problém. Ověřili jsme, že špatné odpovědi výše nebyly způsobené špatným přepisem řeči na text. Ten zvládají všechny dostupné produkty velmi dobře.

Jak je možné, že největší firmy světa (Apple, Google a Amazon) nedokázaly využít svého nepopiratelného náskoku v oblasti hlasových asistentů? Jde zřejmě o kombinaci opatrnosti, uzavření se do sebe a neschopnosti reagovat na výraznou změnu. Náskok se tak paradoxně proměnil v hlavní brzdu, kterou se nepodařilo plně odblokovat ani tři roky po uvedení ChatGPT.

Siri, poslední dárek Steva Jobse

Málokdo si dnes pamatuje, že Siri má své kořeny mimo Apple. Na telefony iPhone se původně dostal coby aplikace třetí strany – Stanford Research Institute. Jméno je tak zřejmě hříčkou na zkratku SRI, zároveň jde o variantu norského jména Sigrid.

Asistent (či asistentka, zpočátku byl totiž v nabídce pouze ženský hlas) měl okamžitý úspěch a necelé dva měsíce od uvedení Apple řešení koupil, údajně za 200 milionů dolarů. Poté Apple rok a půl pracoval na vývoji, aby hlasové ovládání s velkou slávou uvedl během konference v říjnu 2011, jen týden před smrtí spoluzakladatele Apple Steva Jobse. Podle lidí z Apple byl Jobs do akvizice a následného vývoje „extrémně osobně zapojen“. Ostatně model iPhone 4S je někdy nostalgicky označovaný jako „for Steve“.

Scott Forstall, viceprezident Apple, představil hlasového asistenta Siri na pódiu v říjnu 2011.

Nový ředitel firmy Tim Cook ale potvrdil, že písmeno S v iPhone 4S odkazuje právě na Siri, novou klíčovou funkcionalitu zabudovanou přímo do operačního systému iPhonů.

Siri se stala fenoménem a každý rok nabírala nové funkce. V roce 2014 umí Siri reagovat na příkaz „Hej Siri“, v roce 2016 přibyla možnost ovládat (vybrané) aplikace třetích stran, v roce 2018 Apple představil Apple Home Pod, „domeček pro Siri“ v podobě domácího chytrého reproduktoru.

V posledních letech ale Apple moc nevěděl, jak se Siri naložit. Ze zákulisí pronikly informace, že skupině AI/ML se interně přezdívalo „AIMLess“, což mělo odkázat na nejasné cíle a priority. Pod vedením viceprezidenta Applu zaměřeného právě na AI, Johna Giannandrea, se inovace Siri smrskly na malé iterace. Už nebylo potřeba říkat „Hej Siri“, stačilo říct jen „Siri“. Ohledně výraznější změny směru ale jeho tým tápal.

Senzační nástup Alexy

Zatímco aplikace (a později funkce) Siri byla od začátku odkázaná jen na mobil – a tedy často vyžadovala dotekovou interakci například pro potvrzení akcí – konkurence přišla s řešením, které se obešlo bez doteků i bez telefonu. Byl to poněkud nečekaně Amazon, který hlasového asistenta v listopadu 2014 představil.

„Hej Alexo, zahraj nám vánoční hudbu,“ zaznělo o rok později v milionech amerických domácností. Reproduktor Echo byl průkopníkem úplně nové kategorie produktu. Ovládání hlasem bylo poprvé dostatečně dobré na to, aby byly občasné momenty frustrace vykoupeny působivými schopnostmi. Amazon navíc vsadil na vtípky a skryté předpřipravené reakce. A tak třeba na dotaz „Alexo, koho zavoláš?“ reproduktor vždy odpověděl: „Krotitele duchů!“

Vysoký Amazon Echo s připojením na Wi-Fi byl prvním zástupcem nové kategorie zařízení zvané „chytrý reproduktor“.

Dnes to vypadá dost primitivně, ale tehdy to byl přesně ten typ odpovědí, který skvěle fungoval na sociálních sítích i při předvádění reproduktoru návštěvě. Což byl ostatně jeden z nejčastějších způsobů, jak se dočkal nějakého využití. Jinak sloužil hlavně k nastavení časovače, čtení předpovědi počasí nebo hledání rychlých odpovědí na primitivní otázky (kolik eur je deset dolarů). Jinak na futuristický reproduktor převážně sedal prach.

Což uživatelům ani tak nevadilo, protože Echo se prodávalo prakticky za hubičku. Amazon totiž zvolil jinou strategii než Apple. Asistent pro ně neměl být funkcí, která přesvědčí lidi ke koupi chytrého reproduktoru.

Dlouhodobá vize byla taková, že se chytrý reproduktor naopak stane branou, skrze kterou přitečou nové zakázky. Proto bylo možné říci například „Alexo, kup mi domeček pro panenky“ a Amazon promptně vytvořil objednávku. To přesně se stalo šestileté holčičce v Texasu a rodiče z takové schopnosti rozhodně nebyli nadšení. Ještě větší fiasko pak nastalo, když reportáž v televizi ukázala, jak k celému omylu došlo. „Moc se mi líbilo, jak ta holčička prostě řekla ‚Alexo, objednej mi dům pro panenky‘,“ vysvětlil v živém vysílání reportér. V domácnostech, kde byla Alexa zapnutá, došlo k okamžité replikaci celé patálie.

Amazon tento problém opravil a přidal další zabezpečení, aby nešlo nakupovat jen tak. Obecně ale zřejmě firma přecenila ochotu lidí používat Alexu coby nákupčího. Většina uživatelů celkem pochopitelně preferuje alespoň rychlou vizuální kontrolu, než něco objedná.

Amazon zkusil, jak moc se lidé budou chtít s digitálním asistentem bavit. Jejich soutěž Alexa Prize umožnila týmům z celého světa (včetně úspěšného týmu z Česka) vytvořit konverzačního asistenta, který prostřednictvím hardwaru od Amazonu udržuje s uživateli konverzaci na různá témata. Ve své době šlo o inovativní myšlenku, ale většina týmů zvolila cestu „předpřipraveného konverzačního stromu“, který se s dnešními chatboty zkrátka nemůže měřit.

Celkově se hlasový asistent firmě Amazon vůbec nevyplácel. Na papíře vypadala čísla působivě: miliony prodaných kusů ročně, miliardy konverzací týdně. Jenže po bližším prozkoumání dat bylo jasné, že většina těchto „konverzací“ byly jednoduché pokyny typu „Stop!“ nebo „Zahraj Bacha“. Nic, na čem by mohl gigant typu Amazon nějak rozumně vydělávat. A čím déle si lidé zvykali na to, že od Alexy nemohou čekat nic velkého, tím menší šance byla, že se to povede zvrátit dalšími investicemi do vývoje.

Google prováhal náskok

Záhy po uvedení samostatného reproduktoru Amazon Echo přišla reakce od soupeře, který měl v oblasti odpovědí na otázky přirozený náskok: Google, největší vyhledávač světa. Firma měla k dispozici všechny důležité dílky technologické skládačky: velkou uživatelskou základnu, databázi faktů a celou řadu funkcí původně určených pro jejich vyhledávač nebo mobilní operační systém Android. Když v roce 2016 nový ředitel firmy Sundar Pichai představil davu vývojářů, novinářů a fanoušků nového Asistenta Google, nebylo to až takové překvapení.

Chytrý reproduktor Google Home uměl od začátku na hlasový pokyn například spustil video na kompatibilních televizích.

Přesto se spustil jásot. Publikum bylo plné lidí, kteří měli u Google celý svůj digitální život (Gmail, fotky, vyhledávání, YouTube videa, dokumenty, kalendář…). Možnost komunikovat s těmito klíčovými stavebními prvky pomocí jednoho asistenta byla velmi lákavá. Google měl veškerý stavební materiál k tomu, aby vytvořil nejlepšího asistenta na trhu.

V následujících letech Google zabudoval různé varianty asistenta do dalších svých klíčových služeb: telefonů se systémem Android, Google Auto nebo Google Watch. Někdy nebylo úplně jasné, kde končí vyhledávání Google a začíná Asistent. Přibývaly nové funkce: překlady mezi jazyky, integrace aplikací třetích stran, ovládání chytré domácnosti.

V různých srovnáních Google Asistent válcoval konkurenci jak přesností odpovědí, tak počtem a různorodostí nabízených funkcí. Jako první ostatně Google veřejně ukázal budoucnost konverzací s asistentem prostřednictvím velkých jazykových modelů: umělá inteligence třeba předstírala, co by si o světě myslela skoro-planeta Pluto nebo papírová vlaštovka.

Pomocí velkého jazykového modelu si Google Asistent v této ukázce z roku 2021 představil, jaké to je být papírovou vlaštovkou. Funkce se nikdy nedostala k uživatelům.

Do roku 2022 tak Google nastupoval z pozice lídra v oblasti konverzační AI. Ale možná právě tento pocit náskoku zabránil firmě v tlačení nových funkcí na trh. Roli mohl sehrát i incident z roku 2022, kdy jeden z vývojářů Googlu na základě konverzací s interně testovaným AI systémem tvrdil, že se jedná o „svým způsobem živou bytost“. Tento typ pozornosti zřejmě utvrdil představitele Googlu v tom, že neuzrál čas na to pustit nový typ konverzační umělé inteligence k uživatelům.

Překvapivý nástup ChatGPT

V listopadu 2022 se navíc o konverzačních asistentech mluvilo jako o ztrátovém podniku. „V USA vede Google Assistant s 81,5 milionu uživatelů, následovaný Apple Siri se 77,6 milionu,“ popsal Business Insider. „Amazon Alexa s 71,6 milionu uživatelů zaujímá třetí místo.“ Mezi těmito masami byl pochopitelně značný překryv, ale i tak se zdálo, že jsou karty rozdány. Další asistenti – třeba Bixby od Samsungu – spíše paběrkovali. Nic nenasvědčovalo tomu, že se na trhu objeví nový úspěšný hráč.

A pak, poslední listopadový den roku 2022, zveřejnila firma OpenAI svůj nástroj ChatGPT. Laboratoř OpenAI byla do té doby známá hlavně mezi odborníky, veřejnost o nich nic moc nevěděla. To se ale rychle změnilo. Jednoduché konverzační rozhraní a příjemná „osobnost“ nového chatbota způsobila revoluci v tom, jak většina lidí vnímá umělou inteligenci. ChatGPT se stal první službou v historii, která získala svých prvních sto milionů uživatelů za méně než dva měsíce. A to bez navázání na nějakou existující službu.

Všechny konkurenční konverzační nástroje byly založené na předem připravených skriptech. Někdo musel předem promyslet, jaké funkce budou mít uživatelé k dispozici, a pak je postupně a opatrně implementovat, aby si navzájem nepřekážely. Když Amazon vymýšlel vtipy, které Alexa zná, musel je jeden po druhém ručně napsat do scénáře. Zato ChatGPT dokázal – překvapivě dobře a prakticky v jakémkoli jazyce – reagovat na otázky z libovolné oblasti. Navíc si udržoval povědomí o kontextu, což bylo pro stávající chatboty prakticky nemožné.

Jedna z prvních konverzací autora článku s ChatGPT ukazuje verzatilitu nového modelu.

Byly odpovědi ChatGPT vždy správné? Rozhodně ne. Od začátku si vymýšlel (tzv. halucinoval) a tyto sklony má i tři roky poté. Ale i přes sebevědomě generované výmysly a nesmysly bylo jasné, že jde o novou kategorii konverzace. Dominantní trojka od Googlu, Amazonu a Applu se stala prakticky přes noc ukázkou zastaralého přístupu.

Nebylo by fér vyčítat firmám, že se zapojením velkých jazykových modelů otálely. O jejich existenci jejich zaměstnanci samozřejmě věděli a interně s nimi pracovali. Ostatně ani v OpenAI původně nečekali, že ChatGPT bude mít takový úspěch.

V Googlu podle zdrojů New York Times obeznámených s děním uvnitř firmy aktivovali „červený poplach“. V prosinci 2022 bylo vedení firmy jasné, že generativní umělou inteligenci – za kterou do značné míry vděčíme právě vývojářům Googlu – si už nemůžou schovávat jen pro interní testování. Ještě v únoru oznámil, že představí asistenta jménem Bard, který je – podobně jako ChatGPT – založený na velkých jazykových modelech.

Před vývojářskou konferencí v květnu 2023 pak zjevně všechny týmy Googlu dostaly jasné zadání: najděte, jakým způsobem můžete generativní AI nasadit do svých produktů a služeb. Éra AI závodů oficiálně odstartovala. Koncem roku 2023 pak Google ukončil provoz Barda, respektive jej přejmenoval na Gemini, což je jak jméno služby, tak AI modelů, které ji na pozadí pohánějí.

Opatrnost, uzavřený systém i vnitřní spory

Z původní trojice Apple, Amazon a Google je poslední jmenovaný určitě nejdál na cestě k tomu, aby náskok OpenAI dohnal, a následně třeba i předehnal. Na scéně se objevili i další hráči: především Microsoft (úzce spolupracující s OpenAI) a dva týmy, které vznikly odchodem klíčových lidí z původního týmu OpenAI (Anthropic se svým Claude a Elon Musk se svým Grokem). Byznys model se ostatním pokouší nabourat Mark Zuckerberg se svou vizí metavesmíru postaveném na Meta AI. Poslední dobou také čím dál více boduje Čína, zejména díky modelům Qwen a DeepSeek.

Co do kvality jsou nejlepší modely poměrně srovnatelné. Zatím si ale chatbot od OpenAI stále udržuje náskok.

Jak vlastně velcí hráči mohli dovolit, aby jim někdo tak utekl?

Všichni tři stavěli své konverzační nástroje na technologiích, které nabízely největší kontrolu nad výsledkem. Jakákoli nová funkce musela projít schvalovacím kolečkem. Čím více bylo uživatelů, tím delší kolečko bylo. S každou novou funkcí se – zvláště když uživatelé zadávají příkazy slovně – zvyšovalo riziko omylů.

–„ Jaké je počasí?“

– „‚Jaké je počasí?‘ je počasí okamžitý stav atmosféry na nějakém místě…“

Právě takto může třeba asistent omylem sáhnout po databázi pojmů místo předpovědi. Nebo na pokyn zapne světlo, ale pak zapomene kontext a na žádost o ztlumení místo světla sníží hlasitost.

Takové chyby jsou pro uživatele nesmírně frustrující. Nejenže pak žádný čas neušetří, ale naopak se musejí s asistentem dohadovat, což bez schopnosti udržet kontext obvykle nikam nevedlo.

Zdálo se, že je to zkrátka nutná daň za všestrannost. Ale ve chvíli, kdy se objevil nový nástroj ChatGPT založený na velkých jazykových modelech, se naplno projevila zastaralost a zkostnatělost původních modelů. Uživatelé najednou měli v ruce jasný důkaz, že „to jde, když se chce“. A velké firmy jim místo toho pořád dávaly původní „staromódní AI“.

Trvalo to tři roky, ale nyní jsou všichni hlavní asistenti snad už připraveni na upgrade. Google postupně odsouvá Asistenta do pozadí a nahrazuje jej Gemini, momentálně bohužel způsobem, který není pro uživatele zcela čitelný. Apple po mnoha pokusech tedy volí rovněž model Gemini, s nějakou vlastní úpravou pro účely systému iOS. A Amazon slibuje novou Alexa+, která by měla na pozadí čerpat ne z jednoho, ale rovnou ze 70 různých velkých jazykových modelů.

Nová generace asistentů si bude pravděpodobně i nadále vymýšlet. Dávat lidem odpovědi, které se jim líbí, a ne nutně takové, které jsou pravdivé. Halucinace patří k samotné podstatě aktuálních LLM systémů. Zdá se ale, že uživatelům to nevadí. Preferují informace na míru, které jsou občas špatně, než aby dostali šablonovitou odpověď od opatrného asistenta.

Pro Apple je ovšem celý příběh svým způsobem ostuda. Zvláště proto, že dlouho mluvil o tom, že postaví vlastní AI běžící přímo na zařízení. Finančně ale kvůli pronájmu AI modelu od Googlu rozhodně nevykrvácí. Zatímco Apple bude zřejmě ročně posílat Googlu miliardu dolarů za využívání Gemini, Google bude opačný směrem nadále posílat dvacet miliard ročně. Tolik totiž největší vyhledávač platí populárnímu systému za to, že v jejich prohlížeči zůstává jako výchozí volba. Jinými slovy, celkově se sázka na uzavřený systém Applu i nadále vyplácí.

A platí to i při pohledu na hodnotu akcií společnosti. I přes jednoznačný neúspěch při vývoji vlastní AI se cena akcií Apple jen za poslední měsíc zvýšila přibližně o 10 procent a pohybuje se nyní blízko historického maxima.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Babišova otočka ke sněmu Němců? V ANO si asi udělali průzkum, míní politoložka

Radil se s astroložkou, používal krycí jména. U soudu stanul mocný muž Ukrajiny

Praha chce dát 100 milionů za propagaci projektu Vltavské filharmonie

„Prsty ukazuje šest.“ Policie natočila, jak primář zařizuje posudky za peníze

Číňané po Evropě skupují nevyužité automobilové továrny

Protiinflační dluhopisy se vrací. Lepší než spořicí účet, hodnotí ekonomové