Skip to content

Creazione di un dataset testo-immagine per human analysis

Course: Laurea Triennale in Ingegneria e Scienze Informatiche

Type: Progetto

Abstract: CLIP è un modello introdotto da OpenAI nel 2021 in grado di misurare la correlazione fra un’immagine e una didascalia; questa sua caratteristica lo rende uno strumento interessante per effettuare classificazione zero-shot (cioè senza addestramenti specifici per un certo compito). Tuttavia, per compiti particolarmente specializzati come la human analysis (es. gaze estimation, pose estimation, face recognition, emotion recognition, eccetera), le prestazioni possono essere limitate. Pertanto, la tesi ha in primis l’obiettivo di misurare le prestazioni di questo modello in un sottoinsieme dei task di human analysis, e successivamente di raccogliere ed etichettare in maniera automatica un dataset formato da coppie testo-immagine per addestrare da zero un modello con la stessa architettura che abbia prestazioni superiori nei task menzionati.

Advisor/Co-Advisor: Prof.ssa Annalisa Franco / Nicolò Di Domenico

Note: I task che dovranno essere coperti dal dataset verranno decisi in fase di discussione del progetto di tesi. È necessaria dimestichezza con la programmazione in Python. Essendo particolarmente complesso, l’addestramento di CLIP non sarà parte della tesi triennale.
Inoltre, si consiglia di leggere il seguente articolo scientifico: