Vision ML è una categoria di Machine Learning che si occupa dell'analisi e dell'interpretazione di immagini e flussi video.

Le telecamere sono sempre più utilizzate come metodi di input, consentendo agli utenti di comunicare visivamente ciò che è difficile da descrivere nel testo. Le API di ML Kit consentono di offrire esperienze ottimizzate come la ricerca visiva o l'estrazione di testo come mezzo per sviluppare esperienze con la fotocamera.

Il Riconoscimento facciale

È possibile rilevare i volti in un'immagine, identificare le principali caratteristiche del viso e ottenere i contorni delle facce rilevate.

Con il rilevamento del volto, si possono ottenere le informazioni necessarie per eseguire attività: come abbellire selfie e ritratti o generare avatar dalla foto di un utente. ML Kit è in grado di eseguire il rilevamento del volto in tempo reale, è possibile utilizzarlo in applicazioni come la chat video o i giochi che rispondono alle espressioni del giocatore.

Affinché ML Kit rilevi accuratamente i volti, le immagini di input devono contenere un numero di pixel sufficienti. In generale, ogni volto che si desidera rilevare in un'immagine dovrebbe essere almeno 100x100 pixel. Se si desidera rilevare i contorni dei volti: ML Kit richiede input con una risoluzione più elevata di almeno 200x200 pixel.

Se si rilevano volti in un'applicazione in tempo reale, è possibile anche prendere in considerazione le dimensioni complessive delle immagini di input. Le immagini più piccole possono essere elaborate più rapidamente, in modo da ridurre la latenza, catturare immagini a risoluzioni più basse (tenendo presente i requisiti di precisione sopra indicati) e garantire che il volto del soggetto occupi il più possibile l'immagine.

In ogni modo è necessario tenere in considerazione anche i suggerimenti per migliorare le prestazioni in tempo reale.

Una scarsa messa a fuoco dell'immagine può compromettere la precisione. Se non si ottengono risultati accettabili, è meglio riacquistare l'immagine.

L'orientamento di un viso rispetto alla fotocamera può anche influire sulle caratteristiche del viso che ML Kit rileva. Per questo è meglio guardare anche i concetti di Face Detection.