Données immobilières, études et conseil

Une IA qui évalue le prix d’un logement neuf : comment ça marche ?

ADEQUATION lance Estimmo, un algorithme qui permet d’évaluer le prix d’un appartement neuf à une adresse donnée. Cette nouvelle brique vient enrichir la solution e-focus, à l’intention des professionnels qui cherchent une première estimation fiable et rapide. Explication technique, mais pas trop.

Nous avons interviewé le développeur d’Estimmo au sein du pôle Données et Numérique d’ADEQUATION, le statisticien Antonin Balle.

photo portrait d'Antonin Balle statisticien chez ADEQUATION

 

Quelle est la philosophie d’Estimmo ?

Antonin Balle. Nous savons que le prix de vente d’un logement neuf est déterminé par un certain nombre de facteurs intrinsèques et extrinsèques, mais dans des proportions qui ne sont pas les mêmes partout et tout le temps : le sujet ne peut pas se ramener à une équation. Or l’intelligence artificielle n’en a pas besoin. Elle sait reconstituer un prix de vente à partir d’un jeu approprié de données avec une certaine exactitude.

 

Sur quelles données l’outil s’appuie-t-il ?

AB. Sur environ 350.000 références de prix de vente d’appartements neufs au détail en TVA à 20 % en France métropolitaine, depuis 2020. Pour chaque référence de prix de vente, nous avons renseigné une dizaine de variables explicatives du prix. Elles caractérisent soit le programme (taille, typologie, surface), soit l’environnement (adresse, revenu des ménages, dynamisme du marché[1] et prix de vente de l’ancien). Pour l’ancien nous sommes allés chercher les transactions effectuées dans un rayon de 500 m dans la même typologie. Les données sont datées pour pouvoir tenir compte de l’évolution des prix depuis 2020.

 

Comment fonctionne-t-il ?

AB. Quand l’utilisateur a saisi les données de sa requête, c’est-à-dire l’adresse, la typologie, la surface et la taille du programme immobilier, l’algorithme va chercher des références comparables sur ces critères ainsi que sur toutes les autres variables liées à l’adresse que je viens d’évoquer. Il va trouver de très nombreux cas de figure « comparables » dont il connaît les prix de vente, et en calculer la moyenne. Mais cela est très schématique, les choses sont en réalité un peu plus complexes.

 

Plus complexes, c’est-à-dire ?

AB. L'algorithme ne va pas se contenter de retrouver les références « brutes » que nous lui avons fournies au départ. Ces références, il les a déjà soumises à environ un millier «d’interrogatoires» qui lui ont permis de les organiser selon une logique appropriée à sa tâche, qui est de prédire des prix de vente à partir des variables explicatives avec le moins d’erreur possible. Il va donc en réalité aller chercher seulement des références dont la pertinence est maximisée par rapport à la requête. 

 

C’est ce que l'on appelle l’apprentissage, ou le machine learning ?

AB. Oui, la machine construit ce que l’on appelle des arbres de décision : ce sont des arborescences appelant des réponses par oui ou par non. Il y en a environ un millier. La finalité est de créer au bout de chaque branche des sous-ensembles de références dans lesquels les variables explicatives du prix – l’adresse, la typologie, etc. – fonctionnent de la même manière, avec le plus de prédictibilité possible. 
Lors de l’apprentissage, la machine connaît les prix de vente. Ensuite, on lui soumet d’autres références dans lesquelles on a masqué le prix pour voir si elle arrive à le re-constituer en soumettant ces données au même cheminement analytique. 

 

Et donc, quelle est sa fiabilité ?

Aujourd’hui, le modèle permet de calculer le prix/m2 avec un coefficient de détermination R² égal à 0,91. Sachant que R2 varie entre 0 et 1, cela veut dire que le modèle explique 91% du prix/m² en France métropolitaine.

 

La performance prédictive est-elle liée à la qualité des données ?

En effet, si les données de travail étaient de mauvaise qualité, il serait impossible d’obtenir un tel résultat. Dans notre cas, les prix « témoins » et les variables explicatives (typologies, surfaces/taille, années) sont bien renseignés à l’échelle des programmes et des lots, ce qui est précieux pour cette modélisation.   

Mais la qualité intrinsèque de départ de la base données ne suffit pas : il faut aussi écarter les références extrêmes, pour lesquelles on sait que les variables explicatives du prix sont en grande partie ailleurs. C’est le cas par exemple quand la surface est atypique pour la typologie (un T1 de 75m²). On élimine aussi les transactions dans l’ancien très éloignées de la valeur médiane observée sur l’ensemble de la commune.

 

Quelles sont les parts respectives du programme et de sa localisation dans la formation du prix ?

AB. L’environnement du projet explique 75% du prix, le reste est lié au programme. Nous avons pu vérifier que l’outil prend bien en compte l’effet d’adresse car, toutes choses égales par ailleurs, deux adresses proches fournissent des résultats différents. En la matière, le prix de l’ancien est une variable très utile car elle « embarque » l’effet d’adresse avec une certaine précision. 

 

Comment obtenir une estimation de prix dans le neuf dans une commune où il n’existe pas de référence de commercialisation ?

AB. Qu’il existe ou non des références de programmes neufs autour de l’adresse considérée est indifférent : l’algorithme n'en a pas besoin pour faire sa prédiction. Il va regarder les variables explicatives liées à la localisation – latitude et longitude, revenu des ménages, profil de marché et prix de l’ancien – et se baser dessus pour déduire la part du prix liée à l’adresse de la requête. La seule chose qui change, par rapport aux cas où il existe suffisamment de références de prix dans le neuf, c’est la note de confiance attribuée à la commune.

 

Qu’est-ce que cette note de confiance ?

AB. Une note de confiance est attribuée à chaque commune : elle tient compte du nombre de références de prix dans le neuf utilisées sur ce territoire lors de l’apprentissage et de la marge d’erreur observée lors du test du modèle. Par défaut, si aucune référence n’a été utilisée sur la commune, la note de confiance sera de 1/5.

 

Estimmo peut-il évaluer le prix de tout type de projet ?

AB. Par définition, il ne peut pas évaluer le prix de projets atypiques, ou présentant une qualité remarquable qui ne fait pas partie des variables explicatives avec lesquelles il travaille. Par exemple, s’il sait valoriser la proximité de la mer, il ne va pas jusqu’à différencier l’appartement qui a la vue mer de celui qui ne l’a pas. De manière plus générale, il ne faut pas demander à l’intelligence artificielle ce qu’elle ne sait pas faire : son raisonnement est de type prédictif (les mêmes « causes » produisent les mêmes effets) mais pas prospectif. 

 

Pas prospectif, c’est-à-dire ?

AB. Il s’appuie exclusivement sur des données historiques régulièrement mises à jour. Imaginons un quartier où un tramway a été annoncé. Les prix du neuf et de l’ancien vont en tenir compte, mais l’algorithme n’a aucun moyen de le savoir, tant que les données correspondantes ne sont pas encore dans sa base d’apprentissage. D’une manière générale, il n’a aucune vision de l’avenir, il extrapole des valeurs à partir de données qu’il connaît en s’appuyant sur des corrélations étroites.

C’est en cela qu’Estimmo ne peut proposer qu’une première approche du prix : même s’il est très performant, son domaine de compétence est limité. Il faut d’autres expertises pour analyser l’environnement des projets, la concurrence ou encore la demande, et pour élaborer des stratégies de positionnement.

 


Propos recueillis par Jeanne Bazard

[1] Cet indicateur construit par ADEQUATION est défini à travers plusieurs variables telles que la production annuelle de logements neufs, le nombre d’habitants, la part de collectif, la part de locataires, la part des résidences secondaires.

@pexels-cottonbro

-19%

C’est la baisse de l’offre de logements neufs disponibles à la vente en un an. Fin février, moins de 82.000 logements étaient encore sur le marché ; un niveau historiquement bas qui n’avait pas été atteint depuis près de 15 ans. 

Issu de FIL - ADEQUATION

Logo AD'LAB

/ Tendance
mar 2025

Une IA qui évalue le prix d’un logement neuf : comment ça marche ?

Antonin Balle, statisticien chez ADEQUATION

ADEQUATION lance Estimmo, un algorithme qui permet d’évaluer le prix d’un appartement neuf à une adresse donnée. Cette nouvelle brique vient enrichir la solution e-focus, à l’intention des professionnels qui cherchent une première estimation fiable et rapide. Explication technique, mais pas trop.

L'équipe ADEQUATION

52.300

Ce sont le nombre de logements vendus en bloc en 2024. Un chiffre stable (vs 2023), pour une activité qui a représenté 48% des ventes de logements ordinaires en promotion sur l’exercice. 

Issu de FIL - ADEQUATION

/ Décryptage
mar 2025

Les metadonnées : un aspect crucial de la qualité des données foncières-immobilières

Dis-moi comment tes données sont construites (métadonnées) et je te dirai ce que tu peux en faire. Échantillonnage, localisation, codage et autres subtilités sont loin d'être anodins pour le statisticien ou le chercheur qui utilisent des données au quotidien. C'est le cas de Guilhem Boulay, co-animateur de la chaire GIF (Geodata, Immobilier, Foncier) dont ADEQUATION est partenaire.

Guilhem Boulay

4.900

C’est le nombre de nouveaux logements neufs mis en vente, pendant les 2 premiers mois de 2025. Un volume très faible, avec des opérateurs qui font face à un recul très net des autorisations partout en France, en attente de signaux de reprise.

Issu de FIL - ADEQUATION

2.400

C’est le nombre de logements neufs réservés par les investisseurs depuis le 1er Janvier. Un volume toujours très modeste, mais qui ne s’est pas effondré totalement avec la fin du dispositif Pinel au 31 décembre 2024.

Issu de FIL - ADEQUATION

47.500

C’est le nombre de logements neufs autorisés en 2024 sous formes de logements en « résidences ». Un volume qui intègre l’ensemble des segments (libres et sociaux) et des destinations (étudiants, seniors, CROUS, FJT, EHPAD, etc …). Un chiffre en baisse de 10% par rapport au pic de 2022, mais qui affiche une bien moindre régression par rapport aux logements « ordinaires » (-36%). 

Issu de FIL - ADEQUATION

 

+1%

C’est la hausse des prix des logements neufs sur les 12 derniers mois. Une valeur (5350 €/m²) quasiment stable depuis plus de 24 mois, qui conjuguée à la baisse des taux, permet une hausse du pouvoir d’achat immobilier des ménages, avant même l’extension du PTZ acté en janvier 2025. 

Issu de FIL - ADEQUATION

82.000

C’est le nombre de logements disponibles à la vente au 31 janvier 2025. Un volume faible, compte tenu de la raréfaction de nouveaux programmes depuis plusieurs mois. Ce qui nous ramène aux volumes enregistrés en 2011. 

Issu de FIL - ADEQUATION

+2,4%

C’est la progression des loyers à l’offre à l’échelle nationale en 2024, soit 13 €/m² en moyenne (en logement libre, non meublé, hors charges). Une hausse qui ne faiblit pas, après la hausse identique l’année précédente. 

Issu de FIL - ADEQUATION