Une IA qui évalue le prix d’un logement neuf : comment ça marche ?

ADEQUATION lance Estimmo, un algorithme qui permet d’évaluer le prix d’un appartement neuf à une adresse donnée. Cette nouvelle brique vient enrichir la solution e-focus, à l’intention des professionnels qui cherchent une première estimation fiable et rapide. Explication technique, mais pas trop.

Nous avons interviewé le développeur d’Estimmo au sein du pôle Données et Numérique d’ADEQUATION, le statisticien Antonin Balle.

photo portrait d'Antonin Balle statisticien chez ADEQUATION

 

Quelle est la philosophie d’Estimmo ?

Antonin Balle. Nous savons que le prix de vente d’un logement neuf est déterminé par un certain nombre de facteurs intrinsèques et extrinsèques, mais dans des proportions qui ne sont pas les mêmes partout et tout le temps : le sujet ne peut pas se ramener à une équation. Or l’intelligence artificielle n’en a pas besoin. Elle sait reconstituer un prix de vente à partir d’un jeu approprié de données avec une certaine exactitude.

 

Sur quelles données l’outil s’appuie-t-il ?

AB. Sur environ 350.000 références de prix de vente d’appartements neufs au détail en TVA à 20 % en France métropolitaine, depuis 2020. Pour chaque référence de prix de vente, nous avons renseigné une dizaine de variables explicatives du prix. Elles caractérisent soit le programme (taille, typologie, surface), soit l’environnement (adresse, revenu des ménages, dynamisme du marché[1] et prix de vente de l’ancien). Pour l’ancien nous sommes allés chercher les transactions effectuées dans un rayon de 500 m dans la même typologie. Les données sont datées pour pouvoir tenir compte de l’évolution des prix depuis 2020.

 

Comment fonctionne-t-il ?

AB. Quand l’utilisateur a saisi les données de sa requête, c’est-à-dire l’adresse, la typologie, la surface et la taille du programme immobilier, l’algorithme va chercher des références comparables sur ces critères ainsi que sur toutes les autres variables liées à l’adresse que je viens d’évoquer. Il va trouver de très nombreux cas de figure « comparables » dont il connaît les prix de vente, et en calculer la moyenne. Mais cela est très schématique, les choses sont en réalité un peu plus complexes.

 

Plus complexes, c’est-à-dire ?

AB. L'algorithme ne va pas se contenter de retrouver les références « brutes » que nous lui avons fournies au départ. Ces références, il les a déjà soumises à environ un millier «d’interrogatoires» qui lui ont permis de les organiser selon une logique appropriée à sa tâche, qui est de prédire des prix de vente à partir des variables explicatives avec le moins d’erreur possible. Il va donc en réalité aller chercher seulement des références dont la pertinence est maximisée par rapport à la requête. 

 

C’est ce que l'on appelle l’apprentissage, ou le machine learning ?

AB. Oui, la machine construit ce que l’on appelle des arbres de décision : ce sont des arborescences appelant des réponses par oui ou par non. Il y en a environ un millier. La finalité est de créer au bout de chaque branche des sous-ensembles de références dans lesquels les variables explicatives du prix – l’adresse, la typologie, etc. – fonctionnent de la même manière, avec le plus de prédictibilité possible. 
Lors de l’apprentissage, la machine connaît les prix de vente. Ensuite, on lui soumet d’autres références dans lesquelles on a masqué le prix pour voir si elle arrive à le re-constituer en soumettant ces données au même cheminement analytique. 

 

Et donc, quelle est sa fiabilité ?

Aujourd’hui, le modèle permet de calculer le prix/m2 avec un coefficient de détermination R² égal à 0,91. Sachant que R2 varie entre 0 et 1, cela veut dire que le modèle explique 91% du prix/m² en France métropolitaine.

 

La performance prédictive est-elle liée à la qualité des données ?

En effet, si les données de travail étaient de mauvaise qualité, il serait impossible d’obtenir un tel résultat. Dans notre cas, les prix « témoins » et les variables explicatives (typologies, surfaces/taille, années) sont bien renseignés à l’échelle des programmes et des lots, ce qui est précieux pour cette modélisation.   

Mais la qualité intrinsèque de départ de la base données ne suffit pas : il faut aussi écarter les références extrêmes, pour lesquelles on sait que les variables explicatives du prix sont en grande partie ailleurs. C’est le cas par exemple quand la surface est atypique pour la typologie (un T1 de 75m²). On élimine aussi les transactions dans l’ancien très éloignées de la valeur médiane observée sur l’ensemble de la commune.

 

Quelles sont les parts respectives du programme et de sa localisation dans la formation du prix ?

AB. L’environnement du projet explique 75% du prix, le reste est lié au programme. Nous avons pu vérifier que l’outil prend bien en compte l’effet d’adresse car, toutes choses égales par ailleurs, deux adresses proches fournissent des résultats différents. En la matière, le prix de l’ancien est une variable très utile car elle « embarque » l’effet d’adresse avec une certaine précision. 

 

Comment obtenir une estimation de prix dans le neuf dans une commune où il n’existe pas de référence de commercialisation ?

AB. Qu’il existe ou non des références de programmes neufs autour de l’adresse considérée est indifférent : l’algorithme n'en a pas besoin pour faire sa prédiction. Il va regarder les variables explicatives liées à la localisation – latitude et longitude, revenu des ménages, profil de marché et prix de l’ancien – et se baser dessus pour déduire la part du prix liée à l’adresse de la requête. La seule chose qui change, par rapport aux cas où il existe suffisamment de références de prix dans le neuf, c’est la note de confiance attribuée à la commune.

 

Qu’est-ce que cette note de confiance ?

AB. Une note de confiance est attribuée à chaque commune : elle tient compte du nombre de références de prix dans le neuf utilisées sur ce territoire lors de l’apprentissage et de la marge d’erreur observée lors du test du modèle. Par défaut, si aucune référence n’a été utilisée sur la commune, la note de confiance sera de 1/5.

 

Estimmo peut-il évaluer le prix de tout type de projet ?

AB. Par définition, il ne peut pas évaluer le prix de projets atypiques, ou présentant une qualité remarquable qui ne fait pas partie des variables explicatives avec lesquelles il travaille. Par exemple, s’il sait valoriser la proximité de la mer, il ne va pas jusqu’à différencier l’appartement qui a la vue mer de celui qui ne l’a pas. De manière plus générale, il ne faut pas demander à l’intelligence artificielle ce qu’elle ne sait pas faire : son raisonnement est de type prédictif (les mêmes « causes » produisent les mêmes effets) mais pas prospectif. 

 

Pas prospectif, c’est-à-dire ?

AB. Il s’appuie exclusivement sur des données historiques régulièrement mises à jour. Imaginons un quartier où un tramway a été annoncé. Les prix du neuf et de l’ancien vont en tenir compte, mais l’algorithme n’a aucun moyen de le savoir, tant que les données correspondantes ne sont pas encore dans sa base d’apprentissage. D’une manière générale, il n’a aucune vision de l’avenir, il extrapole des valeurs à partir de données qu’il connaît en s’appuyant sur des corrélations étroites.

C’est en cela qu’Estimmo ne peut proposer qu’une première approche du prix : même s’il est très performant, son domaine de compétence est limité. Il faut d’autres expertises pour analyser l’environnement des projets, la concurrence ou encore la demande, et pour élaborer des stratégies de positionnement.

 


Propos recueillis par Jeanne Bazard

[1] Cet indicateur construit par ADEQUATION est défini à travers plusieurs variables telles que la production annuelle de logements neufs, le nombre d’habitants, la part de collectif, la part de locataires, la part des résidences secondaires.

@pexels-cottonbro

Coralie Henry-Princemar, 03/18/2025 - 14:16

Bonjour, j'aimerai avoir plus d'informations sur Estimmo. Pouvez-vous me contacter ? Merci

Réagissez