Bird's eye view - ce que l'autopilot prédit en vidéo (par un ingénieur de chez Tesla)

Anakil · avril 22, 2020

Bonjour à tous,

J'ai vu dans un article d'electrek qu'ils parlaient d'une vidéo - en anglais - d'un ingénieur de Tesla (sur youtube) qui décrivait à une conférence sur l'IA en février 2020 ce que l'autopilot voit, ce qu'il prédit, et ce qu'ils développent là-dessus. Le présentateur décrit plein de choses super intéressantes : l'arrêt d'urgence et détection des piétons (au début de la vidéo), puis il parle de la détection des panneaux stop et de leurs dizaines de variantes (le fait qu'il soit visible ou obstrué par un arbre, un panneau ou autre ; le fait qu'il soit temporaire ou non; ainsi que les panneaux additionnels situés en-dessous), et enfin un point sur l'évolution de la détection de l'environnement par les caméras pour le full self-driving.

Un point qui m'a semblé intéressant c'est leur façon de créer une vue du dessus ("bird's eye view") via les caméras (pseudo-lidar comme ils disent). Ils s'en servent déjà d'une version basique pour prédire les bordures et les obstacles pour le smart summon (voir vidéo à 17 minutes), mais ils ont des versions bien plus développées permettant de prédire les choses avec grande précisions et notamment les positions des objets (et la profondeur de champ ce qui est logiquement compliqué comme on travaille avec des images en 2D). Regardez à 21 minutes environ, ils montrent un exemple d'abord avec la version actuelle basée sur l'image 2D basique (comme pour le smart summon) et puis avec la version améliorée où le neural network prédit le type de lignes, l'usage de la bande, les objets...

Je me dis que dans le futur pas trop éloigné, ça pourrait permettre d'avoir une vrai vision vue du dessus sur la visualisation comme on aurait avec un lidar, sauf qu'ici on n'en a pas ! En plus de montrer que leur système détecte bien les objets, véhicules, obstacles... et pourraient bien le montrer de façon très précise dans le futur (j'espère proche ! ).

Autre point important : il mentionne bien que les voitures aujourd'hui tournent encore majoritairement sur un code 1.0 comme ils l'appellent, qui correspond à un code déterministe créé en bon vieux C++ avec des commandes claires pour chaque situation (mais peu d’adaptabilité et très rigide dans les décisions). Cela détecte les lignes des bandes de circulation et les suit par exemple. La partie neural network (2.0), ne couvre qu'une petite partie encore des capacités de conduite de la voiture, et s'étend progressivement chaque fois qu'ils ajoutent un élément (détection des obstacles, stops, ...). On n'est pas encore sur une version de la conduite gérée entièrement par le neural network.

Si j'ai bien compris aussi ce qu'il en dit (et en extrapolant un peu), c'est aussi une chose qui limite les possibilités d'homologation vers des principes de "full self-driving" car la voiture tel qu'on l'utilise a encore une grosse partie de décision rigide et déterministe. Mais, c'est peut-être juste moi qui comprend cela comme ça. 😛

C'est toujours intéressant de voir ce qu'ils font et sont capable de faire dans leurs versions de développement en tout cas, car ça promet pour le futur.

Yann73 · avril 22, 2020

J'avais parlé d'une video très similaire (le même gars dans une autre conférence de ce type : https://www.youtube.com/watch?v=oBklltKXtDE) dans un autre sujet car on y voit les 8 caméras filmer, c'est pas souvent que l'on voit les "dessous" techniques donc c'est très intéressant !

Comme tu dis ils arrivent à bien gérer la profondeur de champ malgré les images en 2D, et le labeling qui va avec (identifier les objets), j'étais tombé sur une autre video qui expliquait comment de l'analyse d'image 2D arrive à sortir des choses aussi précises qu'un Lidar à 360° (sans la contrainte mécanique de la rotation du Lidar et son coût exhorbitant), faudrait que je la retrouve ça complète pas mal le sujet.

Tout la partie neurale est gérée/construite par une librairie de machine learning nommée PyTorch (développé par Facebook).

En tout cas merci pour la video, je la regarde en entier bientôt elle parait plus complète que l'autre !

cr1cr1 · avril 22, 2020

Ce qui est intéressant avec ces vidéos expliquant le back-stage de l'AP - outre l'aspect purement technique - est le nombre incroyablement élevé des "use cases", c'est à dire des cas particuliers à prendre en compte dans les décisions.

Celui qui m'avait marqué est le vélo attaché derrière une voiture ! Un peu comme ici le stop accroché au bus !

On peut être un peu compréhensif lorsque notre voiture agit bizarrement face à certaines situations !

Je n'ai cependant toujours pas la certitude que les caméras de nos véhicules soient adaptées aux voies de circulation européennes : après un premier faux espoir, j'ai pu constater ce matin que les feux ne sont pas visibles si l'on est à moins de 4 - 5 m !

Yann73 · avril 22, 2020

C'est clair qu'il existe tellement de cas différents pour le moment on peut légitimement se poser la question de comment ils vont gérer tout ça !

En plus de ça on ne parle pas des cas du genre "la voiture doit éviter une famille de 4, mais pour ça elle doit renverser 2 gamins" (bon ok le choix est rude mais c'est pour l'exemple), que va choisir l'autopilot comme décision ? Un humain dans la panique fait ce qu'il peut on va dire pour limiter les dégats, mais une IA c'est un choix qui aura été déterminé plus ou moins d'avance dans le code.

Pour en revenir aux caméras, dans la video que j'ai linké on voit ce qu'elles filment, normalement elles sont bien censées couvrir 360° donc en pratique voir les feux peu importe la distance (enfin très proche ou a moyenne distance quoi), le cas à forcément du être pris en compte par les ingénieurs. On en a parlé déjà dans un sujet concernant les feux

Yann73 · avril 22, 2020

J'ai regardé la video complète, c'est vraiment intéressant la manière dont ils font apprendre au réseau neural les dizaines/centaines de cas différents rien que pour un panneau stop, la tâche est complexe !

Une des notions les plus importantes et la base de l'analyse reste la profondeur, grâce à plusieurs frames d'une même caméra ils arrivent à en extraire les distances par comparaison et d'autres techniques pour en faire une vue type Lidar, c'est vraiment balèze !

zeta · avril 22, 2020

Le point qui échappe sûrement le plus aux novices de l'informatique, car très peu visuel contrairement au reste, mais qui est une idée de génie est la possibilité de la flotte de remonter les données pour l'apprentissage.

Il en parle un peu dans le milieu de la présentation (à partir de 10:36), avec le mode "shadow" (ombre), où l'ensemble de la flotte exécute le réseau de neurone (mais sans prendre de décision dessus), et selon certains critères sur les résultats (stop aperçu au dernier moment par exemple), remonte les données vidéo au serveur.

Le problème du "machine learning" comme technique est que le résultat n'est aussi bon que le sont les données d'entrées. Grâce à leur système, ils peuvent utiliser l'ensemble de la flotte pour trouver tous les cas tordus qu'on peut rencontrer dans la nature, les panneaux stop recouverts partiellement par des branches en étant un exemple, pour améliorer la couverture des données d'entrées, et donc la fiabilité des résultats.

Comme il le dit, il ne voit pas comment ils pourraient avoir autant d'images/vidéos si ce n'était pas grâce à leur flotte.

C'est LE point qui me fait penser que Tesla sera dans les tous premiers (probablement le premier même) à avoir un FSD fonctionnel.

Et l'abandon du Lidar, trop coûteux en production, fait que si ils atteignent ce point, ils auront aussi la solution la moins coûteuse du marché.

Anakil · avril 23, 2020

Il y a 19 heures, zeta a dit :

Il en parle un peu dans le milieu de la présentation (à partir de 10:36), avec le mode "shadow" (ombre), où l'ensemble de la flotte exécute le réseau de neurone (mais sans prendre de décision dessus), et selon certains critères sur les résultats (stop aperçu au dernier moment par exemple), remonte les données vidéo au serveur.

Je suis d'accord avec toi, c'est vraiment leur avantage. Surtout que cette demande aux voitures peut se faire sans mise à jour (juste en temps réel pour eux).

Yann73 · avril 23, 2020

Mine de rien ça doit consommer un peu de data tout ça si ça upload des photos/videos en permanence, espérons que leur algo de compression soit au top !

Effectivement il y a ce mode shadow mais il précise quand même à un moment qu'il n'y a qu'une poignée de personnes qui font des actions pour améliorer le réseau neural en "triant" les données.

Kratus · avril 24, 2020

Le 22/04/2020 à 11:05, Anakil a dit :

un ingénieur de Tesla

Le 22/04/2020 à 14:53, Yann73 a dit :

le même gars

On parle d'Andrej Karpathy. Ce n'est pas juste "un gars". C'est l'une des sommités mondiales dans la recherche intelligence artificielle, notamment appliquée à la vision.

https://cs.stanford.edu/people/karpathy/

Il a été embauché par Elon Musk pour diriger les programmes "Tesla vision" et autopilot.

Kratus · avril 24, 2020

Je vous invite à consulter les sujets suivants, qui parlent déjà du même sujet.

Bird's eye view - ce que l'autopilot prédit en vidéo (par un ingénieur de chez Tesla)

Messages recommandés

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites

Partager ce message

Lien à poster

Partager sur d’autres sites