Proč spouštět školení ML na místním počítači a poté spouštět pravidelné spouštění na serveru?

Obsah

Q:

Proč spouštět strojové učení (ML) na místním počítači a poté spouštět pravidelné provádění na serveru?

A:

Otázka, jak strukturovat projekt strojového učení a jeho tréninkovou a testovací fázi, má hodně společného s tím, jak se pohybujeme v „životním cyklu ML“ a přinášíme program z tréninkového prostředí do produkčního prostředí.

Jedním z nejjednodušších důvodů pro použití výše uvedeného modelu umístění školení ML na lokálním počítači a poté přesunutí provádění do systému založeného na serveru je výhoda nezbytného oddělení povinností. Obecně chcete, aby byl tréninkový soubor izolován, abyste měli jasnou představu o tom, kde se trénink začíná a jak se zastavuje a kde začíná testování. Tento článek KDNuggets hovoří o principu hrubým způsobem a zároveň prochází některými dalšími důvody, jak izolovat tréninkové sady na místním stroji. Jedním z dalších návrhů na základní hodnotu tohoto modelu je to, že s tréninkovými a testovacími sadami na velmi odlišných architekturách se nikdy nebudete zaměňovat za společné přidělování vlaků / testů!

Další zajímavou výhodou je kybernetická bezpečnost. Odborníci poukazují na to, že pokud máte počáteční procesy vlaku na místním počítači, nemusí být připojeny k internetu! To zásadním způsobem rozšiřuje zabezpečení, „inkubuje“ proces, dokud nenarazí na svět výroby, kde pak musíte do modelu serveru zabudovat odpovídající zabezpečení.

Navíc některé z těchto „izolovaných“ modelů mohou pomoci s problémy, jako je drift konceptů a skryté nevýhody - princip „nestacionality“ varuje vývojáře, že data „v průběhu času (v závislosti na tom, co se měří)“ že to může trvat hodně adaptability, aby se testovací fáze shodovala s vlakovou fází. Nebo, v některých případech, se procesy vlaku a zkoušky spojí dohromady, což způsobí zmatek.

První nasazení testovací fáze na server může usnadnit různé modely „černé skříňky“, kde vyřešíte problém s adaptabilitou dat. V některých případech eliminuje zbytečný proces zadávání změnových objednávek na více platforem.

Pak také serverové prostředí samozřejmě slouží real-time nebo dynamickým procesům, ve kterých inženýři budou chtít získat přístup k datovým přenosovým a kódovým modelům, které nejlépe fungují pro výrobu v ML. Například AWS Lambda může být atraktivní možností pro manipulaci s mikrofunkcemi výroby (nebo kombinací úložiště objektů Lambda a S3) a bez možnosti připojení (bez serveru), což se stává nemožným.

To jsou některé z problémů, na které se mohou vývojáři zamyslet, když uvažují, jak rozdělit fáze školení ML od testování a výroby.