big data word cloud

Depuis 2013, Thémis Conseil, filiale du groupe ITS, a engagé une réflexion sur le Big Data. Plusieurs publications ont vu le jour dont un Livre Blanc. Fin 2016, Thémis Conseil décide d’investir dans la construction d’une vitrine digitale. Une cellule de Recherche et Développement Thémis Lab est créée et Georges Bressange, Data Scientist et docteur en Mathématiques a été recruté pour mener à bien des études de cas d’usage dans le domaine du Big Data.

Dans un premier temps, ces études ont été menées dans le cadre de problématiques de santé et de prévoyance pour développer la construction d’une offre digitale autour de quatre axes :

  • La valorisation du Portefeuille Clients par une segmentation adaptée (application des techniques de la Data Science) pour cibler des actions Marketing et pour aider les décideurs à choisir les segments d’investissement rentables
  • L’anticipation du risque de départ d’un Client (vers la concurrence ou pour retraite) par la connaissance du Cycle de vie Client
  • L’anticipation du coût Client ou de la Fraude par le biais d’un Scoring
  • La réduction de l’insatisfaction Client et sa fidélisation par la construction et le monitoring d’indicateurs en lien avec les données du CRM

Progressivement, Thémis Lab a étendu son terrain d’expérimentation au groupe ITS dans son ensemble en conduisant des applications de la Data Science aux secteurs de la mobilité (services managés) et des serveurs web (analyse de logs de serveurs).

Thémis Lab souhaite désormais élargir son champ d'application à d'autres domaines (Energie, Banque, Industrie, Logistique,...).

big data word cloud

L’expression le Big Data en français a un sens un peu différent de « the Big Data » utilisé en langue anglaise. En effet, le terme anglais se réfère aux données massives ou « méga-données » elles-mêmes alors que le Big Data, en français, désigne à la fois les données massives, le problème d’y accéder et de les traiter efficacement ainsi que la solution à ce problème.

Le terme Big Data a été forgé à la fin des années 90 alors que l’accumulation d’informations sur Internet commençait à atteindre des volumes suffisamment importants pour nécessiter le développement de technologies adaptées pour les analyser en un temps raisonnable. Il n’existe pas de définition universelle du Big Data mais depuis 2001, il est caractérisé par la règle tridimensionnelle dite des « 3V » :

  • Volume : Le volume des données à traiter est considérable
  • Variété : Les données proviennent de sources très différentes aussi bien structurées (base de données traditionnelles) que non structurées (données issues de réseaux sociaux, données issues de capteurs, données audio et vidéo …)
  • Vitesse : la vitesse avec laquelle ces données nous parviennent est très élevée

themis lab image 01

L’enjeu consiste à analyser les masses de données accumulées au cours des années passées pour modéliser des phénomènes, extraire des corrélations pertinentes qui pourront permettre de prédire et d’agir en conséquence.

Quelques retours d'expériences

Nos EXPERTISES

  • Valorisation d'un portefeuille

    Valorisation d'un portefeuille

    Thémis Lab a sollicité de la part des clients santé de Thémis Conseil des données test afin de réaliser une segmentation comportementale de leur portefeuille d’adhérents. Rappelons qu’une complémentaire santé verse des prestations à ses adhérents qui versent une cotisation en fonction du produit d’assurance choisi. En utilisant les techniques de Data Science (Clustering, Analyse factorielle,...) et des algorithmes propriétaires, un nombre restreint de groupes d’individus de caractéristiques similaires ou segments a été mis en évidence (Catégorie socio-professionnelle, situation familiale,...). Nous en déduisons les profils des clients les plus à risque en termes de sinistralité et ceux à fort potentiel auxquels de nouveaux produits pourraient être proposés. Cette segmentation permet de modifier et/ou de redistribuer la gamme de contrats proposés afin d’assurer une meilleure rentabilité de l’entreprise. La connaissance de ces profils permet également de prédire le profil de risque et de consommation d’un prospect et d’être en mesure de lui proposer le contrat le mieux adapté. Au cours du temps, nous pouvons suivre l’évolution des segments et modéliser le risque d’attrition (ou risque de churn) de l’adhérent et mettre au point une stratégie adaptée pour le retenir.

  • Migration SI

    Migration SI

    Dans le SI d'une entreprise finale, une migration entre le système d'information SI1 vers le système d'informations SI2 doit être effectuée. Comment vérifier la cohérence des données à l'issue de cette migration ?

    Au lieu, dans un premier temps, de comparer une à une les données, on commence par comparer les distributions statistiques par type de données. Le repérage d’anomalies dans ces distributions (statistiques) a permis de cibler rapidement les failles de migration et de gagner un temps considérable.

  • Analyse des flux

    Analyse des flux

    Dans le cadre d'une complémentaire santé qui verse des prestations à ses assurés, il est nécessaire d'établir en fin d'année les provisions sur charge pour anticiper les risques de l’année suivante. Or, dans le cas de cette complémentaire santé, les provisions de l’année n pour l’année n+1 se sont révélées beaucoup trop élevées.

    Grâce à une analyse statistique des flux de données, en reprenant la chronologie des flux de cette complémentaire (dont les données ont résulté de diverses fusions et migrations sur plusieurs années), nous avons pu repérer les flux qui n'avaient pas correctement été reconnectés.

  • Analyse des logs

    Analyse des logs

    Chaque internaute laisse des traces de son passage sur un serveur web. L'ensemble de ces traces s'accumule dans des logs de serveur (adresse IP, clics de souris, temps passé à consulter les pages ...). Pour certains clients, des Go de données log s'accumulent quotidiennement sans qu'une analyse de ces logs soit effectuée. Or, analyser ces logs permet d'en déduire des informations vitales sur le trafic du site, les habitudes des internautes, les failles de sécurité ...

    Grâce à des données test fournies par une des filiales du groupe ITS, nous avons développé des algorithmes propriétaires pour lire ces logs et automatiser la création de rapports pour analyser le trafic des sites web correspondants. Cette étude est encore en phase expérimentale mais nous travaillons avec la filiale pour approfondir l'analyse et utiliser la Data Science pour valoriser ces data au maximum. Au final, les objectifs principaux sont, entre autres : mieux dimensionner l’infrastructure, optimiser la bande passante, améliorer l’expérience client, prévenir les brèches de sécurité.

  • 1

Beaucoup d’entreprises, emballées par les promesses du Big Data, accumulent aujourd’hui des données pour demain dans l’espoir d’en extraire la perle rare et de se démarquer définitivement de la concurrence. Machine Learning et Intelligence Artificielle (IA) apparaissent comme les techniques miracles sensées révolutionner le monde de la data dans l’entreprise. Mais quelle entreprise peut véritablement mettre en place ces techniques dont certaines, comme l’IA, sont encore balbutiantes ?

Chez Thémis Lab, nous pensons que c’est par des cas d’usage Big Data immédiatement applicables aujourd’hui, en partant d’une véritable réflexion métier sur la problématique de l’entreprise et en analysant des données pertinentes, que cette dernière tirera un avantage commercial par une mise en œuvre opérationnelle à court terme de ces cas d’usage.

Les deux piliers sur lesquels une entreprise devrait s’appuyer pour initier sa stratégie Big Data sont : Le développement d’une véritable culture de la transversalité de la data et une visualisation métier multidimensionnelle de ses données.

themis lab image 02

Dans nos études de cas d'usage, nous appliquons une méthodologie rigoureuse qui part d'une analayse métier vers une solution métier.

themis lab methodology

Data Scientist : Il doit être capable de construire des algorithmes pour extraire des informations pertinentes et utiles à partir des masses de données non structurées. Il doit allier de solides compétences mathématiques (en probabilités et statistiques notamment), en informatique (programmation dans des langages tels que Python, R, SAS) et au niveau métier (il faut une bonne connaissance du métier où l'on prétend appliquer la Data Science). Il doit être capable de conseiller une entreprise sur les stratégies Big Data à mener.

Chief Data Officer (CDO) : C'est le responsable des données au sein d'une entreprise ainsi que de leur gouvernance. Ces données peuvent être d'origine interne ou externe, privée ou publique. Il peut être chargé d'acquérir de nouvelles données. Cette fonction peut être assortie d'un rôle de protection des données personnelles (Data Protection Officer - DPO).

Architecte Big Data : Il conçoit des solutions techniques capables de gérer des gros volumes de données. Il est chargé de la collecte de la donnée brute qui peut-être plus ou moins structurée, en plus ou moins grande quantité et qui peut provenir de sources différentes (internes, externes). Dans un deuxième temps, il crée et optimise les infrastructures de stockage, de manipulation et de restitution des données brutes. Il doit maîtriser les principales technologies de big data en terme de bases de données NoSQL. Il fournit au Data Scientist les données brutes que celui-ci va traiter.

Data Analyst : Sa tâche consiste à traiter les différentes données concernant les clients, les produits ou les performances de l’entreprise afin de dégager des indicateurs utiles aux décideurs. Ainsi, les informations fournies par le data analyst permettent aux entreprises de définir les produits à proposer aux clients en fonction de leurs besoins, la stratégie marketing à adopter ou les améliorations à apporter au processus de production. Il doit posséder des compétences en ingénierie informatique, en marketing et il sera amené à utiliser des outils Big Data spécifiques.

Vos compétences : 

- Savoir analyser les besoins métier et développer/utiliser des algorithmes pour y répondre en repérant et en valorisant les données appropriées.
- Connaître les grandes stratégies Big Data du marché pour conseiller les entreprises
- Appéhender de nouveaux modèles de données (comme MapReduce, par exemple).
- Se familiariser avec de nouvelles méthodes de modélisation (bases NoSQL par exemple)
- Maîtriser le développement de Hadoop ou utiliser une solution cloud
- Découvrir de nouveaux outils d'analyse de données (notamment des outils de visualisation open source)
- Faire preuve d'ouverture d'esprit et savoir élargir ses champs d'investigation
- Etre doté d'un grand sens de la communication et de qualités pédégogiques
- Développer une culture de la data au cours de ses missions
- Instaurer une culture du prototypage (POC) et à l'apprentissage par l'erreur.

Nous rejoindre

RELEVONS ENSEMBLE DE NOUVEAUX DÉFIS

Merci d'entrer NOM / Prénom
Invalid email address.
Please tell us how big is your company.
Entrée non valide
Entrée non valide
Entrée non valide