Si Apple Intelligence se fait attendre, Cupertino continue de régulièrement publier ses avancées en matière d’IA. L’entreprise a récemment levé le voile sur un nouvel algorithme permettant aux ordinateurs de mieux comprendre la profondeur d’une image. Baptisé Depth Pro, celui-ci peut se baser sur une simple image 2D pour créer des cartes de profondeurs 3D en une fraction de seconde. Une note de recherche a été mise en ligne tandis que le modèle est disponible sur Github.
Pour un ordinateur, établir une profondeur est une tâche compliquée : il faut habituellement plusieurs images ou bien des métadonnées spécifiques pour espérer obtenir quelque chose de précis. Ici, le modèle n’a pas besoin de ce type d'informations ou d’un entrainement sur un jeu de donnée particulier, ce qui le rend très polyvalent. Les ingénieurs d’Apple estiment pouvoir « synthétiser des cartes de profondeur en haute résolution avec une netteté et des détails à haute fréquence inégalés ».
Le modèle peut analyser et estimer précisément une profondeur afin de fournir des mesures réelles, une capacité très intéressante dans le domaine de la réalité augmentée. Apple affirme que Depth Pro est très rapide, pouvant créer des cartes de 2,25 Mpx en seulement 0,3 seconde à l’aide d’un GPU standard. Si les chercheurs affirment obtenir une « estimation de la profondeur métrique à la pointe », ils notent que le modèle reste limité dans le traitement des surfaces translucides, où la profondeur d'un seul pixel est ambigue. Une démo en ligne est disponible via Hugging Face pour les curieux.
Il est possible d’imaginer plusieurs utilisations à un tel modèle, que ce soit pour l’aide à la conduite sur une voiture ou pour des applications en AR impliquant de poser des objets dans un salon. Sur un autre registre, visionOS 2 apporte par exemple la possibilité de transformer ses photos 2D en images « spatiales » en créant un faux effet de profondeur, une fonction qui pourrait profiter de ce type d’algorithme.
Source : Venture Beat