Menu

BigData : vous proposer des meilleurs prix avec des combinaisons inédites de trajet

Gilles de richemond id

Rédigé par Gilles De Richemond - Techno - #big data #tech #VSCTRédigé par Gilles De Richemond

PARTAGES

header_voyagessncf_trajetalternatif.jpg

Comment Voyages-sncf.com utilise le Big Data pour proposer de meilleurs prix et des combinaisons inédites de trajet ? Gilles de Richemond, directeur de VSC Technologies, revient sur les nouvelles fonctionnalités que le Big Data permet de développer.

Si on parle beaucoup du Big Data, chez Voyages-sncf.com c’est une réalité que nous vivons quotidiennement avec les équipes. En effet, les chiffres donnent le tournis avec 1,5 milliard de recherches par an, 33 millions de propositions de voyages possibles, 1 milliard d’emails envoyés et 100 téraoctets de données gérées par mois par nos infrastructures. Nous utilisons au quotidien les technologies Big Data. Elles nous servent d’abord à assurer la qualité de service du site et à personnaliser nos services.

Aujourd’hui, nous allons plus loin en utilisant ces technologies pour développer de nouvelles fonctionnalités et enrichir notre palette d’itinéraires. Le résultat : de nouveaux trajets, moins chers.

 

Il nous a fallu moins de deux ans pour mettre en place une structure solide et exclusive nous permettant de créer de nouvelles fonctionnalités pour que nos clients qui le souhaitent puissent voyager moins cher, quitte à voyager un peu plus longtemps. C’est un excellent exemple de l’évolution des DSI qui contribuent aujourd’hui au développement de l’entreprise et son offre.

 

Pourquoi a-t-on besoin des technos Big Data ?

 

Une recherche d’itinéraires suppose différents paramètres à régler (temps de correspondance acceptable, lieu de correspondances à prendre en compte, transit dans les grandes agglomérations, etc.). Cela actionne des masses de données gigantesque en agrégeant plus de 33 millions de possibilités de voyages. Cette recherche doit tenir compte de nombreux facteurs : le nombre de trains qui circulent chaque jour X le nombre de destinations X le nombre d’itinéraires par jour X le nombre de tarifs en fonction des cartes de réductions et des places associées. Voyages-sncf.com répond aux requêtes de 14 millions de Visiteurs Uniques par mois et leur propose 100 000 trajets par minute en moyenne. Le challenge technique est donc important ! Heureusement, nous maîtrisons les technos Big Data.

 

Comment a-t-on fait ?

 

1ère étape : les équipes de VSC Technologies ont d’abord mis en place un moteur de recherche d’itinéraires reposant sur un système de cache intelligent des prix et de disponibilité des offres distribuées par Voyages-sncf.com, construit sur la base des consultations effectuées par les clients web et mobile. Ce système de cache s’appuie sur une analyse des réponses aux devis demandés par les clients (des logs, constituant un échantillon suffisamment représentatif pour en tirer une représentation statistique) et sur l’application de règles prédictives en complément (Machine Learning, règles conçues et maintenues par le Data Scientist).

 

2ème étape : une fois ce système de cache stabilisé, les équipes ont pu travailler sur d’autres applications comme les « Trajets alternatifs ». Pour ces trajets, le paramétrage de l’algorithme est différent ; ce sont des destinations où le premier critère de sélection est le prix devant le critère d’attente dans les correspondances. Cela permet la création de nouvelles combinaisons et l’apparition de trajets à des prix plus bas avec un temps de transport un peu plus long. Aujourd’hui, cela concerne 10 destinations, généralement très demandées pour l’été et bien souvent complètes à cette période :

     - Déjà disponibles : Paris <> Arcachon,  Lille <> Marseille, Lille <> Avignon, Lille <> Aix en Provence

     - Dans les prochains jours : Paris <> Biarritz (via Bordeaux), Paris <> La Baule (via Nantes),  Paris <> La Rochelle (via Poitiers), Paris <> Vannes (via Rennes), Paris <> Marseille (via Lyon),  Paris <> Montpellier (via Lyon).

Cette dizaine de destinations proposée devrait au moins tripler dans les prochains mois.

Les itinéraires alternatifs sont indiqués par un picto orange, ici sur l'exemple d'un trajet Paris > Arcachon le 15 juillet 2017. Le tarif du trajet est bien inférieur aux tarifs habituels à cette date :

 

 

Sur cet autre exemple Lille > Marseille le trajet est certes plus lon mais évite une correspondance, pour un tarif plus intéressant :

 

 

Les technos que nous utilisons pour ce projet : Flume (collecteur de logs), Green Plum (exploration de données), Hadoop/ Hive / Spark (pour le stockage et le traitement des données), Elastic Search (moteur de recherche et d’indexation distribué), HDF (ingestion de données, composant DataFlow qui permet de manipuler les flux de données en amont et en aval du stockage/traitements) et SAS, Qlik et ElastichSearch (outils de restitution).

 

Nous sommes très satisfaits de ce projet car aujourd’hui, l’ensemble de nos équipes maîtrise et utilise ces technos (la « data » est disponible via divers API au sein du SI), une trentaine de personnes y sont-même dédiées.