Données immobilières, études et conseil

Une IA qui évalue le prix d’un logement neuf : comment ça marche ?

ADEQUATION lance Estimmo, un algorithme qui permet d’évaluer le prix d’un appartement neuf à une adresse donnée. Cette nouvelle brique vient enrichir la solution e-focus, à l’intention des professionnels qui cherchent une première estimation fiable et rapide. Explication technique, mais pas trop.

Nous avons interviewé le développeur d’Estimmo au sein du pôle Données et Numérique d’ADEQUATION, le statisticien Antonin Balle.

photo portrait d'Antonin Balle statisticien chez ADEQUATION

 

Quelle est la philosophie d’Estimmo ?

Antonin Balle. Nous savons que le prix de vente d’un logement neuf est déterminé par un certain nombre de facteurs intrinsèques et extrinsèques, mais dans des proportions qui ne sont pas les mêmes partout et tout le temps : le sujet ne peut pas se ramener à une équation. Or l’intelligence artificielle n’en a pas besoin. Elle sait reconstituer un prix de vente à partir d’un jeu approprié de données avec une certaine exactitude.

 

Sur quelles données l’outil s’appuie-t-il ?

AB. Sur environ 350.000 références de prix de vente d’appartements neufs au détail en TVA à 20 % en France métropolitaine, depuis 2020. Pour chaque référence de prix de vente, nous avons renseigné une dizaine de variables explicatives du prix. Elles caractérisent soit le programme (taille, typologie, surface), soit l’environnement (adresse, revenu des ménages, dynamisme du marché[1] et prix de vente de l’ancien). Pour l’ancien nous sommes allés chercher les transactions effectuées dans un rayon de 500 m dans la même typologie. Les données sont datées pour pouvoir tenir compte de l’évolution des prix depuis 2020.

 

Comment fonctionne-t-il ?

AB. Quand l’utilisateur a saisi les données de sa requête, c’est-à-dire l’adresse, la typologie, la surface et la taille du programme immobilier, l’algorithme va chercher des références comparables sur ces critères ainsi que sur toutes les autres variables liées à l’adresse que je viens d’évoquer. Il va trouver de très nombreux cas de figure « comparables » dont il connaît les prix de vente, et en calculer la moyenne. Mais cela est très schématique, les choses sont en réalité un peu plus complexes.

 

Plus complexes, c’est-à-dire ?

AB. L'algorithme ne va pas se contenter de retrouver les références « brutes » que nous lui avons fournies au départ. Ces références, il les a déjà soumises à environ un millier «d’interrogatoires» qui lui ont permis de les organiser selon une logique appropriée à sa tâche, qui est de prédire des prix de vente à partir des variables explicatives avec le moins d’erreur possible. Il va donc en réalité aller chercher seulement des références dont la pertinence est maximisée par rapport à la requête. 

 

C’est ce que l'on appelle l’apprentissage, ou le machine learning ?

AB. Oui, la machine construit ce que l’on appelle des arbres de décision : ce sont des arborescences appelant des réponses par oui ou par non. Il y en a environ un millier. La finalité est de créer au bout de chaque branche des sous-ensembles de références dans lesquels les variables explicatives du prix – l’adresse, la typologie, etc. – fonctionnent de la même manière, avec le plus de prédictibilité possible. 
Lors de l’apprentissage, la machine connaît les prix de vente. Ensuite, on lui soumet d’autres références dans lesquelles on a masqué le prix pour voir si elle arrive à le re-constituer en soumettant ces données au même cheminement analytique. 

 

Et donc, quelle est sa fiabilité ?

Aujourd’hui, le modèle permet de calculer le prix/m2 avec un coefficient de détermination R² égal à 0,91. Sachant que R2 varie entre 0 et 1, cela veut dire que le modèle explique 91% du prix/m² en France métropolitaine.

 

La performance prédictive est-elle liée à la qualité des données ?

En effet, si les données de travail étaient de mauvaise qualité, il serait impossible d’obtenir un tel résultat. Dans notre cas, les prix « témoins » et les variables explicatives (typologies, surfaces/taille, années) sont bien renseignés à l’échelle des programmes et des lots, ce qui est précieux pour cette modélisation.   

Mais la qualité intrinsèque de départ de la base données ne suffit pas : il faut aussi écarter les références extrêmes, pour lesquelles on sait que les variables explicatives du prix sont en grande partie ailleurs. C’est le cas par exemple quand la surface est atypique pour la typologie (un T1 de 75m²). On élimine aussi les transactions dans l’ancien très éloignées de la valeur médiane observée sur l’ensemble de la commune.

 

Quelles sont les parts respectives du programme et de sa localisation dans la formation du prix ?

AB. L’environnement du projet explique 75% du prix, le reste est lié au programme. Nous avons pu vérifier que l’outil prend bien en compte l’effet d’adresse car, toutes choses égales par ailleurs, deux adresses proches fournissent des résultats différents. En la matière, le prix de l’ancien est une variable très utile car elle « embarque » l’effet d’adresse avec une certaine précision. 

 

Comment obtenir une estimation de prix dans le neuf dans une commune où il n’existe pas de référence de commercialisation ?

AB. Qu’il existe ou non des références de programmes neufs autour de l’adresse considérée est indifférent : l’algorithme n'en a pas besoin pour faire sa prédiction. Il va regarder les variables explicatives liées à la localisation – latitude et longitude, revenu des ménages, profil de marché et prix de l’ancien – et se baser dessus pour déduire la part du prix liée à l’adresse de la requête. La seule chose qui change, par rapport aux cas où il existe suffisamment de références de prix dans le neuf, c’est la note de confiance attribuée à la commune.

 

Qu’est-ce que cette note de confiance ?

AB. Une note de confiance est attribuée à chaque commune : elle tient compte du nombre de références de prix dans le neuf utilisées sur ce territoire lors de l’apprentissage et de la marge d’erreur observée lors du test du modèle. Par défaut, si aucune référence n’a été utilisée sur la commune, la note de confiance sera de 1/5.

 

Estimmo peut-il évaluer le prix de tout type de projet ?

AB. Par définition, il ne peut pas évaluer le prix de projets atypiques, ou présentant une qualité remarquable qui ne fait pas partie des variables explicatives avec lesquelles il travaille. Par exemple, s’il sait valoriser la proximité de la mer, il ne va pas jusqu’à différencier l’appartement qui a la vue mer de celui qui ne l’a pas. De manière plus générale, il ne faut pas demander à l’intelligence artificielle ce qu’elle ne sait pas faire : son raisonnement est de type prédictif (les mêmes « causes » produisent les mêmes effets) mais pas prospectif. 

 

Pas prospectif, c’est-à-dire ?

AB. Il s’appuie exclusivement sur des données historiques régulièrement mises à jour. Imaginons un quartier où un tramway a été annoncé. Les prix du neuf et de l’ancien vont en tenir compte, mais l’algorithme n’a aucun moyen de le savoir, tant que les données correspondantes ne sont pas encore dans sa base d’apprentissage. D’une manière générale, il n’a aucune vision de l’avenir, il extrapole des valeurs à partir de données qu’il connaît en s’appuyant sur des corrélations étroites.

C’est en cela qu’Estimmo ne peut proposer qu’une première approche du prix : même s’il est très performant, son domaine de compétence est limité. Il faut d’autres expertises pour analyser l’environnement des projets, la concurrence ou encore la demande, et pour élaborer des stratégies de positionnement.

 


Propos recueillis par Jeanne Bazard

[1] Cet indicateur construit par ADEQUATION est défini à travers plusieurs variables telles que la production annuelle de logements neufs, le nombre d’habitants, la part de collectif, la part de locataires, la part des résidences secondaires.

©pexels-cottonbro

9.800

C’est le nombre de logements neufs réservés en promotion immobilière par les particuliers au 3ème trimestre 2024. Le volume le plus bas jamais enregistré depuis plus de 30 ans.

Issu du FIL Résidentiel - ADEQUATION

/ Décryptage
sep 2024

Employeur cherche travailleur temporaire qui cherche logement

De plus en plus de collectivités prennent conscience de l’imbrication des enjeux de recrutement pour les entreprises et d’accès au logement pour les salariés. Les travailleurs temporaires, à la fois très demandés et difficiles à loger, sont un sujet sensible qui mérite toute leur attention. 

Marie DEMANESSE

-26%

C'est la diminution de la surface des terrains aménagés vendus entre 2010 et 2023 en France : elle frôle désormais 500m² moyen. Sur la même période, le prix des terrains a progressé de +16%, pour atteindre en moyenne 80 000€.

Observatoire ADEQUATION

34.200

C’est le nombre de logements neufs réservés en promotion immobilière par les particuliers entre le 1er janvier et le 31 août 2024. Un volume toujours en baisse, de -18% par rapport à l’année dernière.

Issu du FIL Résidentiel - ADEQUATION

95.000

C’est le nombre de logements disponibles à l’offre en promotion immobilière au 31 août 2024. Un retour à la situation d’août 2022, après un pic à près de 109.000 logements à fin juillet 2023.

Issu du FIL Résidentiel - ADEQUATION

/ Tendance
sep 2024

Faire construire : un « rêve français » qui s’éloigne

La construction de maisons individuelles est dans la tourmente et rien ne permet d’envisager un rebond. Sur les 20 dernières années, les vicissitudes de ce marché ressemblent, en moins heurté, à celles de la promotion immobilière. Dans l’avenir, les défis à relever sont en partie comparables. 

Olivier Conus

54%

C’est la part des ventes en promotion immobilière réalisée sur le 1er semestre 2024 portée par les particuliers en France. Soit 46% des réservations réalisées en bloc, par les bailleurs sociaux et institutionnels.

Issu du FIL Résidentiel - ADEQUATION

4

C’est le nombre de territoires français (hors IDF) qui ont enregistré plus de 1.000 nouveaux logements neufs mis en vente en promotion immobilière sur les 8 premiers mois de l’année : Toulouse, Franco-Genevois, Lyon et Rennes.

Issu du FIL Résidentiel - ADEQUATION

5.400

C’est le prix de vente moyen (en €/m², stationnement compris) en promotion immobilière sur l’été 2024 en France. Une valeur stable depuis 18 mois. 

Issu du FIL Résidentiel - ADEQUATION

17.700

C’est le volume de logements neufs disponibles au 30 juin 2024 en région Ile-de-France. Soit près de 7 000 de logements de moins qu’un juin 2023.  

Issu du FIL Résidentiel - ADEQUATION