Pokračujeme ve sdílení schopností Open Source řešení, která nyní získávají na trhu popularitu. Dmitry Shevchenko, specialista na podnikové aplikace v DBI, bude hovořit o možnostech Apache Superset, nástrojích, které je třeba vylepšit, a také se podělí o své zkušenosti s používáním Superset na jednom z našich projektů. Pojďme se tedy podívat na:
Apache Superset je rychlý a flexibilní nástroj BI pro business intelligence, který je navržen pro vysokou dostupnost a škálovatelnost napříč rozsáhlými distribuovanými prostředími a funguje také skvěle uvnitř kontejnerů.
Rozšiřitelnosti Superset se však meze nekladou, lze jej dokonce otestovat na notebooku.
Superset poskytuje:
- Intuitivní rozhraní pro vizualizaci datových sad a vytváření interaktivních panelů;
- Široká škála vizualizací s možností propojení a vytvoření vlastních pomocí JS;
- Jednoduchý a intuitivní nástroj pro vytváření datových sad (pomocí SQL);
- Vestavěný SQL editor (SQL Alchemy) pro práci s daty;
- Pohodlné rozhraní pro vytváření metrik a počítaných sloupců;
- Podpora většiny SQL databází (celkem asi 30 konektorů, seznam neustále roste);
- Vestavěné asynchronní provádění dotazů a ukládání do mezipaměti;
- Pokročilý model zabezpečení poskytuje bohaté možnosti přizpůsobení pro přístup k řídicím panelům, datovým sadám a vizuálním prvkům;
- Schopnost integrace s mnoha autentizačními nástroji (DB, OpenID, LDAP, OAuth, REMOTE_USER atd.);
- API pro přizpůsobení softwaru;
- Škálovatelnost, kterou podporuje cloudová architektura.
Superset vám také umožňuje vybrat nástroje pro:
- webový server (Gunicorn, Nginx, Apache);
- databázový stroj metadat (MySQL, Postgres, MariaDB atd.);
- fronta zpráv (Redis, RabbitMQ, SQS atd.);
- backend výsledků (S3, Redis, Memcached atd.);
- vrstva mezipaměti (Memcached, Redis atd.).
Nyní se Superset používá v mnoha velkých společnostech. Například na PROD frameworku Airbnb uvnitř Kubernetes slouží více než 600 aktivním uživatelům denně, kteří si denně prohlížejí více než 100 000 zpráv.
Seznam společností, které používají Superset, najdete zde:
Vlastnosti supersetu:
- Flexibilní nástroj navržený pro práci s velkými objemy dat;
- Velká sada dostupných vizualizací ihned po vybalení a možnost připojení vlastních;
- Rozšířený model zabezpečení (role, RLS);
- Pohodlný import/export objektů (informační panely, datové sady, vizuální prvky);
- Import dat ze souborů CSV;
- Export dat do CSV a JSON;
- Schopnost konfigurovat jednotné přihlašování pro různé aplikace pomocí Superset;
- S SQL dotazy můžete pracovat přímo v rozhraní aplikace, vytvářet sestavy z výsledků dotazů nebo extrahovat výběr z SQL vizualizace.
Nástroj se vyvíjí, neustále přibývají nové funkce a rozšiřují se ty stávající. Podívejme se na některé funkce Superset na obrázcích:
1. Flexibilní panel filtru
K filtrování dat používá Superset boční panel filtrů, který je flexibilní v konfiguraci a lze jej skrýt nebo rozšířit.
2. Přizpůsobitelný rozsah pro filtry
3. Snadná práce s CSV
Pohodlná možnost jak stáhnout data z CSV, tak nahrát přehled do CSV:
4. Výsledek
Náš příklad informačních panelů pro demo organizaci aplikace SODA:
Příklady zabudované do Superset
Chcete-li rozšířit možnosti, musíte přidat a vyvinout některé nástroje Superset:
- Neexistuje žádná schopnost organizovat hierarchie (dolů);
- Pro ruský jazyk neexistuje rozumná lokalizace;
- Neexistuje žádná podpora pro více organizací;
- Omezená funkce „out of the box“, například žádné zprávy zasílané e-mailem, omezený počet konektorů, jednotné přihlášení vyžaduje konfiguraci atd.;
- Neexistuje žádná podpora ze strany dodavatele, protože ve skutečnosti žádný prodejce neexistuje;
- Vývojáři ne vždy opravují chyby rychle.
Apache Superset používá stále více společností. Má mnoho funkcí, které jsou vhodné pro běžící organizace. Pokud se nástroj vylepší a přidá to, co uživatelům chybí, může se stát nenahraditelným řešením pro mnoho podniků.
Vizualizace dat je důležitým aspektem datové vědy. Dobrá vizualizace může snadno vyprávět příběh o základních datech, což vede k novým poznatkům. Může učinit složité věci srozumitelnějšími tím, že je rozdělí na zvládnutelné jednotky, kterým většina lidí rozumí. Data show jsou také výbornou příležitostí k propojení s lidmi mimo vědeckou komunitu, což je důležité pro rozšíření dopadu vědecké práce na společnost. Každý datový vědec a inženýr strojového učení by měl při své práci používat vizualizaci dat!
Co je superset Apache?
Data hrají důležitou roli v životním cyklu strojového učení. S Apache Superset můžete snadno vizualizovat a prozkoumat svá data. Je jednoduchý a snadno se používá a nabízí širokou škálu možností pro uživatele všech úrovní schopností, jak prozkoumat a vizualizovat svá data, od jednoduchých koláčových grafů až po složité balíčky. Jedná se o jeden z nejlepších nástrojů MLOps, který vám umožňuje přebírat velké množství nezpracovaných dat a transformovat je do lépe spravovatelných výsledků.
Apache Superset je nástroj pro datovou vědu a strojové učení postavený na populárních open source technologiích, jako jsou JDBC a H2O. JDBC poskytuje most, který propojuje SQL dotazy s analytickými funkcemi, jako jsou ty, které se nacházejí v SAS nebo SPSS, ale s mnohem uživatelsky přívětivějším rozhraním a nižšími licenčními náklady. H2O umožňuje uživatelům zkoumat svá data pomocí prediktivních modelů a interaktivních vizualizací.
Hlavním účelem supersetu je pomoci vám:
Vizualizace dat. Technika vytváření vizuálních reprezentací dat pro přenos informací, obvykle ve srozumitelné formě, je známá jako vizualizace dat. Vizualizace dat může být použita pro různé účely, ale obvykle je navržena tak, aby poskytovala informace o velkých počtech nebo jiných datových bodech.
Data mining: Data mining je proces studia dat z různých perspektiv. Je to způsob, jak porozumět obsahu novým a kreativním způsobem. Dolování dat je také známé jako průzkumná analýza dat nebo jednoduše zkráceně ESDA. Řekněme, že provozujete elektronický obchod a prostřednictvím své aplikace přijímáte mnoho objednávek. Chcete tedy analyzovat data, například počet objednávek z určitého města. Díky uživatelsky přívětivému rozhraní Superset usnadňuje prozkoumávání vašich dat.
Analýza dat. Data mining je metoda extrahování informací z dat shromážděných prostřednictvím různých měření a pozorování za účelem identifikace vzorců, testovacích závěrů, vytváření předpovědí a rozhodování o alokaci zdrojů. Pomáhá při učení různých vzorců a výkonu vaší aplikace. To vám pomůže rozhodovat se na základě trendů.
Vlastnosti Apache Superset
Superset má řadu funkcí, které vám mohou pomoci s různými úkoly.
- Umožňuje vytvářet vlastní vizualizace a rozšiřovat jeho možnosti.
- Apache Superset vám umožňuje spouštět dotazy SQL na kartě SQL a prozkoumat vaše data.
- Poskytuje jednoduchý nástroj pro tvorbu vizualizací bez kódu nebo naše moderní SQL IDE pro rychlou integraci a analýzu vašich dat.
- Jedná se o lehké a škálovatelné řešení pro příjem dat, které pracuje s vaší stávající datovou infrastrukturou, aniž by vyžadovalo samostatnou vrstvu příjmu.
- Pomocí základní sémantické vrstvy můžete řídit způsob zobrazení a zpracování zdrojů dat.
Pojďme prozkoumat superset Apache
Superset obsahuje mnoho funkcí, včetně komponent interaktivního uživatelského rozhraní, které usnadňují vizualizaci dat a manipulaci s nimi pro neprogramátory. Superset v současnosti používá Airbnb, Twitter, Udemy a mnoho dalších společností. Stačí základní znalost SQL a můžete zvládnout supermnožinu. Podívejme se na superset, jeho součásti a jak jej nainstalovat do počítače.
Panel nástrojů a průřezy
Dashboard není nic jiného než uživatelské rozhraní, které umožňuje prohlížet různé grafy a data. Takže každá sekce uvnitř Dashboardu se nazývá Slice. Řezy mohou být ve formě dat, textu, grafů nebo čehokoli jiného, co umožňuje sdílení informací, jako je celkový počet uživatelů, kteří si zakoupili produkt v konkrétním městě.
Příklad nadmnožiny ovládacího panelu. Vizuální znázornění ovládacího panelu supersetu Apache.
Část zvýrazněná oranžově na obrázku výše se nazývá fragment a všechny jednotlivé části, které představují informace, jsou fragmenty. Řídicí panel může mít více řezů. Jak se tedy řezy konfigurují?
SQL Lab
SQL Lab je SQL IDE založené na Reactu s bohatou sadou funkcí. Řekněme, že máte webové stránky elektronického obchodu a vytváříte tabulku denních objednávek, která zobrazuje počet objednávek zadaných k určitému datu.
Vizuální znázornění laboratoře SQL.
Takže na obrázku výše to můžete vidět denní objednávky – jedná se o údaje časové řady; za každý den, který máte x objednávky. Řekněme, že chcete tato data vizualizovat jako graf, takže s SQL Lab můžete poskytnout svůj vlastní SQL dotaz pro transformaci dat do grafu. Jednoduše řečeno, potřebujete:
- Napište žádost
- Vyberte osy X a Y
- Vyberte typ grafu
Po dokončení všech kroků se na panelu nástrojů zobrazí výřez grafu. Můžete si dokonce přizpůsobit nastavení, například jak dlouho má dotaz běžet, vybrat časová období a další. S doplňkem tedy nemusíte kódovat uživatelské rozhraní ani vizualizaci; stačí napsat žádost a získat výsledek.
Interiérová architektura a instalace
Podívejme se na některé termíny a proces nastavení supersetu.
- Nadmnožina Apache je postavena výhradně na Pythonu; interně používá flask app builder.
- Podporuje Python verze > 3.6.
- Superset lze nainstalovat různými způsoby, z nichž nejběžnější jsou:
- Lokálně musíte nainstalovat python a poté nainstalovat závislosti pip.
pip install apache-superset
Instalace supersetu Apache
Virtuální prostředí . Důrazně se doporučuje nainstalovat Superset ve virtuálním prostředí. Pokud používáte pyenv, můžete nainstalovat pyenv-virtualenv. Nebo můžete:
#krok 1 Pip install virtualenv #Krok 2 Python3 -m venv venv . venv/bin/aktivovat
Instalace nadmnožiny ve virtuálním prostředí
přístavní dělník . Nejjednodušší způsob, jak vyzkoušet Superset lokálně, je použít Docker a Docker Compose na Linuxu nebo Mac OSX.
- Když potřebujete nainstalovat rozsáhlé instance, můžete použít cloud a spustit více instancí nadmnožiny pomocí Kubernetes a Docker.
- Instalace supersetu na Windows
Poznámka: Superset není oficiálně podporován na Windows. Jednou z možností pro uživatele Windows, jak vyzkoušet Superset lokálně, je nainstalovat virtuální počítač Ubuntu Desktop přes VirtualBox a v tomto virtuálním počítači spustit pokyny Docker na Linuxu. — Dokumenty Apache .
- Můžete začít povolením subsystému Linux tak, že přejdete na Program File > Povolit funkce Windows > Povolit podsystém Windows pro Linux.
- Po povolení přejděte do obchodu Microsoft Store a nainstalujte nejnovější verzi na Ubuntu.
- Po instalaci Ubuntu můžete mít stále problém, protože python může používat vaše nástroje pro sestavení Windows. Chcete-li se s tím vypořádat, můžete nainstalovat nejnovější verzi sady Visual Studio nebo nainstalovat sadu Visual Studio SDK.
- Jakmile je vše připraveno, můžete nyní vytvořit virtualenv a nainstalovat superset.
Zabezpečení a ověřování
Ve světě dat je bezpečnost hlavním problémem. Pomocí doplňku můžete různým uživatelům udělit různé úrovně přístupu. Například datoví vědci by měli mít přístup ke grafům 1 a 2, zatímco obchodní analytici by měli vidět grafy 3 a 4. Stanovení rolí, například kdo by si měl prohlížet vizualizaci a kdo může provádět analýzu dat, není obtížné. Když používáte Superset, řešení věcí je mnohem jednodušší.
Vizuální reprezentace různých rolí a oprávnění.
Superset poskytuje různé typy rolí. Jak můžete vidět na obrázku výše, získáte tři hlavní role – roli Správce, Alfa a Gamma, každá s jinou úrovní přístupu. Podobně můžete konfigurovat role pro různé uživatele. Namísto plného přístupu k rolím můžete udělit různé sady oprávnění různým uživatelům. Vytvořili jste například roli finanční analytik , který poskytuje přístup k sadě zdrojů dat. Uživatelům pak budou dány Gamma, Financial Analyst a případně sql lab, která bude obsahovat specifická oprávnění z různých sekcí.
Databázová integrace
Superset Apache poskytuje funkce pro připojení k mnoha databázím a nástrojům. Snadno se připojí k téměř všem významným databázím. To usnadňuje vizualizaci a analýzu dat a zefektivňuje vývoj modelu. Superset je kompatibilní s Amazon Athena, Amazon Redshift, Azure MS SQL, Apache Spark SQL, PostgreSQL, Google Sheets a mnoha dalšími.
V novějších verzích přidává superset další podporu databáze. Prohlédněte si seznam podporovaných databází a závislostí.
Typy vizualizací
Superset Apache poskytuje širokou škálu grafů, tabulek a rozložení. Níže jsou uvedeny některé z nejčastěji používaných typů vizualizace:
- Bodový graf
- Síť
- Polygony
- Sledovat
- Mřížka obrazovky
- Acre a mnoho dalšího.
Výhody a výzvy Apache Superset
Všichni víme, že žádný nástroj ani platforma nejsou dokonalé; každý má své výhody a nevýhody. Podívejme se, proč je superset výhodnější než jiné nástroje.
Výhody supersetu Apache
Platforma Apache Superset má mnoho výhod nad rámec svobody, kterou poskytuje uživatelům.
Zabezpečení: Klíčovou výhodou supersetu je, že vám nabízí úplnou kontrolu nad dostupností vašich dat. Umožňuje přidávat uživatele do databáze, udělovat jim přístup a sledovat jejich chování. To usnadňuje přidělování rolí/oprávnění a bezproblémovou správu vaší aplikace.
Dotazy: Tento nástroj můžete použít k vytvoření interaktivního dotazu výběrem databáze, tabulky a schématu. Každý požadavek poskytuje dobře organizovaná data, která informují o zásadách, volbách a plánech vaší společnosti. Výsledek dotazu si můžete prohlédnout a uložit pro pozdější použití.
Žádné kódovací dovednosti: Superset je navržen pro lidi, kteří nevědí, jak kódovat. Neprogramátoři, jako jsou obchodní analytici a finanční analytici, mohou používat nástroj s otevřeným zdrojovým kódem, pokud mají základní znalosti jazyka SQL.
Web a aplikace: Superset je k dispozici v aplikaci i ve webové verzi, z nichž každá funguje nezávisle na druhé. Oba jsou svým vlastním způsobem bezproblémové; pokud nechcete klást žádné požadavky, můžete využít online verzi.
Problémy Apache Superset
Omezené vykreslování: Apache Superset podporuje pouze několik formátů vykreslování. To může být nevýhoda, pokud pracujete s velkým množstvím renderovacích formátů.
Připojení ke zdrojům dat: Spolupracuje s malým počtem zdrojů dat.
Omezená podpora: Vzhledem k tomu, že Superset je open source, můžete získat silnou podporu komunity, ale můžete mít potíže se získáním podpory pro řešení problémů v reálném čase.
Různé typy vizualizace nabízené nadmnožinou
Srovnání Apache Superset s Tableau a Power BI
Tableau a Power BI jsou nástroje pro vizualizaci dat používané v odvětví business intelligence.
Superset vs Tableau vs PowerBI
Konečné body
Superset Apache přichází se spoustou funkcí. Pomůže vám snadno prozkoumat, vizualizovat a analyzovat vaše data. To poskytuje:
- Bleskově rychlé dotazy na živá data v reálném čase šetří čas inženýrům strojového učení a obchodním analytikům.
- Flexibilní dotazy zahrnující více databázových tabulek a datových zdrojů
- Vestavěné ověřování pro bezpečnostní pravidla pro čtení/zápis nebo pouze pro čtení
- Výkonný formulář pro vytváření vlastních sestav, které vypadají jako tabulky aplikace Excel.
- Interaktivní grafy pro prezentaci vašich dat ve vizuálním formátu pro lepší pochopení
- Přizpůsobitelné grafy pro prezentaci informací o vašich datech v průběhu času, jako je sledování trendů v čase.
- Vlastní widgety pro vizualizaci grafů, tabulek a dalších sestav na webové stránce pomocí DHTML.
Výkon
Vizualizace dat hraje klíčovou roli v životním cyklu strojového učení. To pomáhá zpracovávat objemná data, protože snižuje potřebnou kognitivní zátěž. Rychlé nalezení vzorů ve velkých souborech dat může být zvláště užitečné pro pochopení složitých systémů. Vizualizace dat byla vždy nedílnou součástí statistiky, ale využívá se i v jiných oborech, jako je informatika, ekonomie, sociologie, biologie a obchodní analytika. Superset Apache pomáhá programátorům i neprogramátorům analyzovat data a podle toho se rozhodovat.