Hlavní obsah

Data jsou ropou online světa. A Češi je umí skvěle těžit, tedy i vydělávat

6:24
6:24

Chcete-li článek poslouchat, přihlaste se

Foto: Apify Technologies, Seznam Zprávy

Jakub Balada a Jan Čurn (vpravo), zakladatelé platformy Apify

Bez „web scrapingu“ by nebyl Google ani velké jazykové modely typu Chat GPT. Všichni web scraping používají ke stahování dat, na kterých trénují AI modely. K radosti zakladatelů Apify, české platformy pro automatizaci webu.

Článek

V digitálním světě mají data obrovskou cenu. Chce je každý, získat je ale není snadné. A právě proto existuje web scraping – technologie, která umožňuje automatizovaně stahovat a zpracovávat veřejně dostupné informace z internetu. Funguje to tak, že softwarový robot navštíví web, stejně jako běžný uživatel, přečte jeho obsah a vytáhne z něj potřebná data. Na konci leží strukturovaný dataset, který pak firmy používají pro monitoring trhu, analýzy konkurence nebo třeba automatizaci interních procesů.

„Vlastně to není nic jiného než automatické stahování a zpracování webových stránek. Využívá se tam, kde je potřeba automatizovaně získat velké množství informací, například v e-commerce pro sledování cen konkurence, na realitních portálech, při sběru recenzí, vyhledávání ubytování, sledování médií či sociálních sítí, nebo při sledování legislativních změn,“ vysvětluje Jan Čurn, podle poradenské společnosti EY Technologický podnikatel roku 2025.

K založení platformy Apify se Jan Čurn rozhodl po několika letech soukromé poradenské praxe ve vývoje softwaru na míru. V roce 2015 přihlásil vlastní web scraper do programu pro startupy Y Combinator a z 6 000 přihlášených se dostal mezi 30 vybraných projektů. S Jakubem Baladou (společník a spoluzakladatel Apify) tedy vyrazili do Kalifornie, aby do rozjezdu Apify získali potřebné investice. To se podařilo a nedlouho po úspěchu v zámořském startupovém programu už dokázali postavit základy toho, jak dnes Apify vypadá.

LAST CALL: Přihlaste se do soutěže EY Podnikatel roku

„Výhra v soutěži pro mne byla velká čest, zejména proto, že cenu uděluje porota složená z jiných velmi úspěšných technologických podnikatelů. Umožnilo mi to seznámit se s mnoha dalšími finalisty, s porotci a mnoha zajímavými lidmi z byznysu. A samozřejmě se díky naší účasti v soutěži mnoho lidí dozvědělo, co vlastně v Apify děláme,“ říká zakladatel platformy Apify Jan Čurn.

Nominace do soutěže EY Podnikatel roku lze podávat prostřednictvím formuláře na www.podnikatelroku.cz do 19. října 2025. Pro účast v soutěži je rozhodující přihláška, kterou mohou podnikatelé vyplnit na stejné stránce.

  • Prestižní světovou soutěž podnikatelů pořádá poradenská společnost EY od roku 1996 ve Spojených státech a od roku 2000 i v Česku.
  • Soutěž je koncipována jako mezinárodní, proto jsou kritéria, podle nichž jsou posuzováni jednotliví účastníci, v každé zemi srovnatelná. V současné době se EY Podnikatel roku pravidelně vyhlašuje v téměř 60 zemích na šesti kontinentech.
  • Porota každoročně oceňuje podnikatele nejprve v regionálních a následně v národních kolech. Český Podnikatel roku pravidelně reprezentuje Českou republiku na mezinárodním finále v Monte Carlu, kde je vyhlašován Světový podnikatel roku.
  • Vedle titulu v hlavní kategorii jsou udělována ocenění také v kategoriích Společensky prospěšný podnikatel roku, Technologický podnikatel roku, Začínající podnikatel roku a Cena České televize za udržitelné podnikání.
  • Seznam Zprávy jsou mediálním partnerem soutěže.

Za tři roky se Apify Technologies z lokálního startupu proměnila v globální platformu pro automatizaci webu. Její řešení dnes využívá téměř 25 tisíc zákazníků ve 156 zemích světa, od Spojených států přes Německo až po Indii.

„Od začátku jsme Apify stavěli jako globální produkt,“ říká Čurn. Firma má sídlo v Praze, ale spolupracuje s odborníky z různých koutů světa. Celkem má v týmu kolem stovky lidí, kteří vyvíjejí nástroje schopné extrahovat obrovské objemy webových dat.

Česko má podle Čurna řadu technických talentů, zejména vývojářů a datových analytiků. Problém vidí spíš v nedostatku těch lidí, kteří rozumějí B2B (obchodní vztah mezi dvěma firmami), SaaS (model cloud computingu, který poskytuje softwarové aplikace přes internet na bázi předplatného) marketingu a prodeji.

„V Evropě je dost kvalitních lidí, kteří umí vytvářet software, ale na rozdíl od USA málo těch, kteří ho umí prodávat,“ míní zakladatel Apify Technologies.

Etika a právo: Jak moc jsou online data veřejná?

S rostoucí důležitostí dat ale samozřejmě sílí i otázky legálnosti a etiky jejich využívání. Ta základní otázka totiž zní: Mám právo data použít tak, jak je já potřebuji?

„Právní rámec je určitě důležitou součástí každého scrapingového řešení. Zásadní jsou dvě věci: zda vůbec máte právo k webovému obsahu přistoupit a jakým způsobem pak daný obsah využijete,“ souhlasí Čurn.

Záleží na tom, v jaké zemi byl daný web vytvořen a z jaké země k němu přistupujeme, protože různé země samozřejmě mají různé zákony. Vždy je tedy potřeba analyzovat konkrétní situaci, aby bylo dané řešení v konkrétních podmínkách legální.

Web scraping krmí umělou inteligenci

Web scraping se stal nepostradatelným pilířem pro rozvoj umělé inteligence. Všechna velká AI řešení jsou totiž vytrénována na datech získaných z internetu. A nejde jen o trénink – i samotné fungování moderních AI aplikací je závislé na aktuálním online obsahu.

„Bez přístupu k čerstvým datům AI neví, co se kolem děje. I chatbot pro zákaznickou podporu potřebuje informace z dokumentace či znalostní báze firmy, nebo přístup k webovému vyhledávači, aby dokázal správně odpovídat,“ vysvětluje Jan Čurn. Jeho firma Apify Technologies staví nástroje pro stahování dat z webu na míru.

Není bez zajímavosti, že ačkoli některé weby ve svých podmínkách scraping výslovně zakazují, soudní praxe už v mnoha zemích dává často přednost volnému přístupu k veřejně dostupným informacím. Úplný zákaz by totiž mohl brzdit inovace a zvýhodňovat velké hráče, kteří mají tendence stavět si kolem svých dat smluvní bariéry.

Zatímco evropská regulace se stále soustředí hlavně na ochranu osobních údajů a databázová práva, americké soudy v posledních letech přistupují k web scrapingu benevolentněji. Nedávno dokonce potvrdily, že využití dat legálně získaných z webu pro trénink AI modelů lze považovat za oprávněné užití, které neporušuje autorská práva.

Dříve se firmy při potírání scraperů často odvolávaly na Computer Fraud and Abuse Act (CFAA - americký federální zákon z roku 1986, který upravuje trestní odpovědnost za neoprávněný přístup k počítačovým systémům a datům), dnes však soudy tento zákon stále častěji vykládají způsobem, který přeje otevřenému internetu.

Co je legální, ještě nemusí být správné

V Apify Technologies proto kladou důraz na tak zvaný etický scraping – tedy zodpovědné a ohleduplné získávání dat. Vyhýbají se přetěžování skenovaných webů, respektují jejich provoz a vždy zvažují otázku, zda je scraping v každém konkrétním případě na výši technologicky, ale stejně tak po stránce morální, a to jak z hlediska přístupu k informacím, tak způsobu jejich dalšího využití.

„Nejde jen o to, co je legální, ale i o to, co je správné,“ říká Jan Čurn.

Jízda vzhůru na vlně AI

Dá se říci, že od svého počátku Apify Technologies stabilně roste. Pouze rok 2022 znamenal menší zpomalení, po investicích a náborech IT expertů museli sundat nohu z plynu. Po covidu totiž přišlo do celého e-commerce sektoru, který je hlavním motorem web scrapingu, prudké ochlazení.

„Lidé se z online prostoru vrátili zpět do kamenných obchodů, k tomu rostla inflace… Investice do startupů tohoto typu najednou dramaticky klesaly,“ ohlíží se Jan Čurn za dobou, která už je minulostí.

Naštěstí pro něj ale trh rychle nastoupil na novou vlnu – tentokrát vzedmutou umělou inteligencí.

„Teď se nacházíme se uprostřed AI revoluce. Investice do IT nikdy nebyly vyšší a poptávka po datech roste jako nikdy dřív,“ pochvaluje se majitel české technologické firmy. Otevře se znovu investorům? „Jsme dlouhodobě v zisku, k dalšímu investičnímu kolu se zatím nechystáme. Na obzoru nic není, ale… Možná za obzorem?“

Doporučované