Apache Nutch

Autor: Eugene Taylor
Datum Vytvoření: 8 Srpen 2021
Datum Aktualizace: 20 Červen 2024
Anonim
Apache Nutch 2.0 Tutorial (with Elasticsearch)
Video: Apache Nutch 2.0 Tutorial (with Elasticsearch)

Obsah

Definice - Co znamená Apache Nutch?

Apache Nutch je softwarový produkt prohledávače webů, který lze použít k agregaci dat z webu. Používá se ve spojení s jinými nástroji Apache, jako je Hadoop, pro analýzu dat.


Úvod do Microsoft Azure a Microsoft Cloud | V této příručce se dozvíte, o čem cloud computing je a jak vám může Microsoft Azure pomoci migrovat a řídit podnikání z cloudu.

Techopedia vysvětluje Apache Nutch

Apache Nutch je open-source produkt licencovaný Apache Software Foundation. Tato komunita vývojářů je držitelem licencí pro řadu softwarových nástrojů Apache, které umí třídit a analyzovat data. Jednou z ústředních technologií je Apache Hadoop, velký nástroj pro analýzu dat, který je v obchodní komunitě velmi populární.

Spolu s nástroji, jako je Apache Hadoop a funkcemi pro ukládání souborů, analýzu a další, je úkolem Nutch shromažďovat a ukládat data z webu pomocí algoritmů procházení webu.

Uživatelé mohou využít jednoduché příkazy v Apache Nutch ke shromažďování informací pod URL. Uživatelé obvykle používají Apache Nutch spolu s dalším otevřeným zdrojovým nástrojem, frameworkem nazvaným Apache Solr, který může sloužit jako úložiště pro data shromážděná pomocí Apache Nutch.