Google e il beta di Cloud AI Platform Pipelines, un servizio progettato per distribuire pipeline AI robuste e ripetibili insieme al monitoraggio, auditing, monitoraggio delle versioni e riproducibilità nel cloud. Google lo propone come un modo per offrire un ambiente di esecuzione sicuro "facile da installare" per i flussi di lavoro di machine learning, che potrebbe ridurre il tempo impiegato dalle aziende per portare i prodotti in produzione.

Quando si sta solamente creando un  prototipo di un modello di apprendimento automatico, se si usa un pc locale può sembrare abbastanza semplice. Ma quando è necessario iniziare a prestare attenzione agli altri elementi necessari per rendere un flusso di lavoro sostenibile e scalabile, le cose diventano più complesse.

Un flusso di lavoro di apprendimento  può comportare molti passaggi con dipendenze reciproche:
- la preparazione e analisi dei dati
- la formazione
- la valutazione
- la distribuzione

È difficile comporre e tenere traccia di questi processi in modo corretto e performante.

Le pipeline della piattaforma AI hanno due parti principali:
-  l'infrastruttura per l'implementazione e l'esecuzione di flussi di lavoro AI strutturati integrati con i servizi della piattaforma Google Cloud;
- gli strumenti della pipeline per la creazione, il debug e la condivisione di pipeline e componenti.

Il servizio viene eseguito su un cluster di Google Kubernetes che viene creato automaticamente come parte del processo di installazione ed è accessibile tramite la dashboard della piattaforma AI cloud. Con le pipeline della piattaforma AI, gli sviluppatori specificano una pipeline utilizzando il kit di sviluppo software (SDK) Kubeflow Pipelines o personalizzando il modello di pipeline TensorFlow Extended (TFX) con l'SDK TFX.

Questo SDK compila la pipeline e la invia al server API REST Pipeline, che memorizza e pianifica la pipeline per l'esecuzione.

Google afferma che nel prossimo futuro, le pipeline della piattaforma AI otterranno l'isolamento multiutente, il che consentirà a ogni persona che accede al cluster di pipeline di controllare chi può accedere alle proprie pipeline e ad altre risorse. Altre funzionalità imminenti includono l'identità del carico di lavoro per supportare l'accesso trasparente ai servizi cloud di Google;

Credo che una configurazione basata sull'interfaccia utente di archiviazione off-cluster di dati di back-end, inclusi metadati, dati del server, cronologia dei lavori e metriche; con aggiornamenti del cluster più semplici; e altri modelli per la creazione di flussi di lavoro.

Google Cloud AI Platform Pipelines
Google Cloud AI Platform Pipelines