7 kroků pro učení se těžbě a vědě o datech

Autor: Eugene Taylor
Datum Vytvoření: 12 Srpen 2021
Datum Aktualizace: 22 Červen 2024
Anonim
7 kroků pro učení se těžbě a vědě o datech - Technologie
7 kroků pro učení se těžbě a vědě o datech - Technologie

Obsah


Zdroj: Paul Fleet / Dreamstime.com

Odnést:

Věda o datech se nejlépe naučí tím, že dělá, ale dobré základy statistiky a strojového učení záleží také.

Často se mě ptám, jak se naučit získávání dat a vědu o datech. Zde je moje shrnutí.

Můžete se nejlépe naučit získávání dat a vědu o údajích tím, že začnete analyzovat data co nejdříve! Nezapomeňte se však naučit teorii, protože potřebujete dobrý statistický základ a základy strojového učení, abyste porozuměli tomu, co děláte, a našli skutečné nucené hodnoty v hluku velkých dat.

Zde je sedm kroků pro učení se získávání dat a vědě o datech. Přestože jsou očíslovány, můžete je provádět paralelně nebo v jiném pořadí.

  1. Jazyky: Naučte se R, Python a SQL
  2. Nástroje: Naučte se používat nástroje pro dolování a vizualizaci dat
  3. knihy: Přečtěte si úvodní knihy, abyste porozuměli základům
  4. Vzdělání: Sledujte webináře, účastněte se kurzů a zvažte certifikát nebo titul v oboru datových dat (Přečtěte si více v Ben Loricas Jak vychovávat vědce v oboru dat.)
  5. Data: Zkontrolujte dostupné zdroje dat a tam něco najdete
  6. Soutěže: Účastněte se soutěží v oblasti dolování dat
  7. Komunikujte s dalšími vědci v oblasti dat prostřednictvím sociálních sítí, skupin a setkání

V tomto článku používám data mining a data science zaměnitelně. Podívejte se na mou prezentaci, Přehled průmyslového odvětví Analytics, kde se podívám na vývoj a popularitu různých termínů, jako jsou statistiky, získávání znalostí, dolování dat, prediktivní analýza, věda o datech a velká data.


1. Výuka jazyků

Nedávný průzkum KDnuggets zjistil, že nejoblíbenějšími jazyky pro dolování dat jsou R, Python a SQL. Pro každého existuje mnoho zdrojů, například:

  • Zdarma e-kniha o Data Science s R
  • Začínáme s programem Python For Data Science
  • Python pro analýzu dat: Agilní nástroje pro data reálného světa
  • Nepostradatelný Python: Zdroj dat pro vědu o údajích
  • W3 Školy učící se SQL

2. Nástroje: Data Mining, Data Science a Visualization Software

Existuje mnoho nástrojů pro dolování dat pro různé úkoly, ale je nejlepší se naučit, jak používat sadu pro dolování dat, která podporuje celý proces analýzy dat. Můžete začít s otevřenými (bezplatnými) nástroji, jako jsou KNIME, RapidMiner a Weka.

Pro mnoho analytických úloh však musíte znát SAS, což je přední komerční nástroj a je široce používán. Další populární analytický software a software pro dolování dat zahrnují MATLAB, STATSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler a Rattle.


Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Vizualizace je nezbytnou součástí jakékoli analýzy dat. Naučte se používat Microsoft Excel (vhodný pro mnoho jednodušších úkolů), grafiku R (zejména ggplot2) a také Tableau - vynikající balíček pro vizualizaci. Mezi další dobré nástroje vizualizace patří TIBCO Spotfire a Miner3D.

3. knihy

K dispozici je mnoho knih o těžbě a vědecké práci s údaji, ale můžete je zkontrolovat:

  • Těžba a analýza dat: Základní pojmy a algoritmy, bezplatné stažení PDF (pracovní verze), Mohammed Zaki a Wagner Meira Jr.
  • Dolování dat: Praktické nástroje a techniky strojového učení, Ian Witten, Eibe Frank a Mark Hall, od autorů společnosti Weka a rozsáhlé používání Weka v příkladech
  • Prvky statistického učení, dolování dat, inference a predikce, Trevor Hastie, Robert Tibshirani, Jerome Friedman. Skvělý úvod pro matematicky orientované
  • LIONbook: Learning and Intelligent Optimization, Roberto Battiti a Mauro Brunato, volně dostupné na webu, kapitola po kapitole
  • Mining of Masive Datasets Book, A. Rajaramanem, J. Ullmanem
  • Kniha Elektronická statistika StatSoft (zdarma) obsahuje mnoho témat těžby dat

4. Vzdělávání: Webináře, kurzy, certifikáty a stupně

Můžete začít sledováním některých z mnoha bezplatných webinářů a webcastů o nejnovějších tématech v analytice, velkých datech, těžbě dat a vědě o datech.

Existuje také mnoho online kurzů, krátkých i dlouhých, mnoho z nich zdarma. (Viz KDnuggets online vzdělávací adresář.)

Podívejte se zejména na tyto kurzy:

  • Machine Learning, na Coursera, učil Andrew Ng
  • Učíme se od Data na edX, vyučuje profesor Caltech Yaser Abu-Mostafa
  • Otevřete online kurz Aplikovaná data z Syracuse iSchool
  • Dolování dat s Wekou, online kurz zdarma
  • Podívejte se také na bezplatné online snímky z mého kurzu dolování dat, semestrálního úvodního kurzu dolování dat

Nakonec zvažte získání certifikátů v těžbě dat a vědě o datech nebo pokročilých hodnostech, jako je magisterský titul ve vědě o datech.

5. Data

K analýze budete potřebovat data - viz adresář KDnuggets datových sad pro dolování dat, včetně:

  • Vládní, federální, státní, městské, místní a veřejné datové weby a portály
  • Datová API, rozbočovače, tržiště, platformy, portály a vyhledávače
  • Zdarma veřejné datové soubory

6. Soutěže

Opět se nejlépe naučíte tím, že se účastníte soutěží Kaggle. Začněte se soutěžemi pro začátečníky, jako je předpovídání přežití Titanic pomocí strojového učení.

7. Interakce: Setkání, skupiny a sociální sítě

Můžete se připojit k mnoha skupinám vrstevníků. Podívejte se na 30 nejlepších skupin LinkedIn pro Analytics, velká data, těžba dat a věda o datech.

AnalyticBridge je aktivní komunita pro analytiku a vědu o datech.

Můžete se zúčastnit několika z mnoha schůzek a konferencí o Analytics, velkých datech, těžbě dat, vědě o datech a získávání znalostí.

Zvažte také připojení ACM SIGKDD, který pořádá výroční konferenci KDD - přední vědeckou konferenci v oboru.

Tento článek vychází z webu KDNuggets.com. Používá se se svolením autora.