Apache Pig

Autor: Robert Simon
Datum Vytvoření: 16 Červen 2021
Datum Aktualizace: 13 Smět 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Video: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Obsah

Definice - Co znamená Apache Pig?

Apache Pig je platforma, která se používá k analýze velkých datových souborů. Sestává z jazyka na vysoké úrovni, který vyjadřuje programy pro analýzu dat, spolu s infrastrukturou pro hodnocení těchto programů. Jednou z nejvýznamnějších vlastností prasete je, že jeho struktura reaguje na významnou paralelizaci.


Prase pracuje na platformě Hadoop, zapisuje a čte data z Hadoop Distributed File System (HDFS) a provádí zpracování pomocí jedné nebo více MapReduce úloh. Prase Apache je dostupné jako open source.

Apache Pig je také známý jako Pig Programming Language nebo Hadoop Pig.

Úvod do Microsoft Azure a Microsoft Cloud | V této příručce se dozvíte, o čem cloud computing je a jak vám může Microsoft Azure pomoci migrovat a řídit podnikání z cloudu.

Techopedia vysvětluje Apache Pig

Apache Pig má dvě části: Pig latinský jazyk a Pig engine. Jazyk vepřového latiny je skriptovací jazyk, který umožňuje uživatelům ilustrovat způsob, jakým musí být čteny a zpracovávány toky dat z jednoho nebo více vstupů, a místo, ve kterém musí být uloženy.

Některé z klíčových vlastností prasečí latiny jsou následující:


  • Snadné programování: Složité úkoly skládající se z různých vzájemně propojených transformací dat jsou jasně kódovány jako sekvence toku dat. Díky tomu je snadné psát, chápat a udržovat.
  • Možnosti optimalizace: Způsob, jakým jsou úlohy kódovány, umožňuje systému optimalizovat automatické provádění. To umožňuje uživateli věnovat pozornost sémantice namísto účinnosti.
  • Rozšiřitelnost: Uživatelé mohou vytvářet vlastní funkce pro provádění speciálního zpracování. Pig engine je zodpovědný za provedení toku dat zapsaného v Pig Latin. Apache Pig se stejně jako standardní návrh systému správy relačních databází (RDBMS) skládá z analyzátoru, optimalizátoru a kontroly typu, kromě operátorů, kteří provádějí zpracování dat. Prase nezahrnuje transakce, datový katalog ani schopnost přímo zpracovávat úložiště dat nebo využívat prováděcí rámec.