Evidency / Blog / Scraping : face à un encadrement juridique complexe, quelles bonnes pratiques mettre en œuvre ?

Scraping : face à un encadrement juridique complexe, quelles bonnes pratiques mettre en œuvre ?

Temps de lecture : 17 min
Date de modification : 30 janvier 2026

À l’ère de l’intelligence artificielle et de l’hyper-connectivité, le scraping incarne à la fois la promesse d’un accès illimité à l’information et le risque d’une captation silencieuse ce qui, hier encore, relevait de la sphère privée.

scraping bonnes pratiques

Points clés à retenir

  • Le scraping n’est pas interdit en soi, mais il est soumis à un encadrement juridique strict, et l’accessibilité publique des données ne suffit pas à autoriser leur exploitation.
  • Le droit des bases de données limite les extractions automatisées, en n’autorisant que des usages ciblés, non substantiels ou réalisés dans des cadres très précisément définis par la loi.
  • Lorsque le scraping porte sur des données permettant d’identifier des personnes, le RGPD s’applique et impose le respect de principes essentiels comme la licéité, la transparence, la minimisation et la proportionnalité.
  • Les conditions générales d’utilisation des plateformes peuvent interdire explicitement le scraping, et leur violation est susceptible d’engager la responsabilité de l’utilisateur, même lorsque les données sont publiques.
  • Les pratiques de scraping non conformes exposent à des risques importants, allant de sanctions contractuelles et administratives à des sanctions pénales dans les cas les plus graves.

Le « webscraping » (ou « scraping », parfois traduit par « moissonnage » [1]) désigne une technique de collecte automatisée de données disponibles sur Internet, qu’elles soient librement accessibles ou protégées par des barrières techniques, en vue de leur réutilisation ou de leur analyse. Cette méthode, qui repose sur l’utilisation de robots d’indexation ou de scripts automatisés, recouvre une diversité de pratiques : extraction brute de contenus visibles (comme les données de profils publics sur LinkedIn, par exemple), traitement ou enrichissement de ces données pour alimenter des bases, entraînement des algorithmes d’intelligence artificielle (IA), fourniture de services de comparaison, ou encore automatisation de l’accès à des volumes massifs d’informations.

Mais derrière ces usages se cachent des enjeux juridiques complexes. En effet, le simple fait que des données soient publiquement accessibles en ligne ne suffit pas à les rendre librement exploitables. Selon la nature des informations collectées et les modalités techniques de leur extraction, les pratiques de scraping sont susceptibles de porter atteinte à plusieurs droits juridiquement protégés — des atteintes d’autant plus préoccupantes que cette pratique tend à se généraliser, accentuant les risques pour la vie privée, la liberté d’expression et, plus largement, pour les libertés fondamentales.

Dès lors, la légalité de cette pratique dépend d’un faisceau de normes juridiques issues de régimes variés, et notamment le droit de la propriété intellectuelle (et en particulier celui des producteurs de bases de données), le droit au respect de la vie privée et à la protection des données à caractère personnel, ainsi que les règles encadrant l’usage des données à des fins de développement ou d’entraînement des systèmes d’intelligence artificielle. À ce cadre légal s’ajoute un cadre contractuel, tout aussi déterminant. À titre d’illustration, la plateforme LinkedIn a mis à jour ses conditions générales d’utilisation [2] (CGU), renforçant l’interdiction du scraping. Ainsi, se pose la question des obligations s’imposant en matière d’exploitation et d’extraction des données ?

L’encadrement légal du scraping

Si le scraping n’est pas interdit par principe en France et dans la plupart des pays de l’Union européenne (UE), plusieurs référentiels légaux viennent encadrer et limiter cette pratique. Il s’agit plus spécifiquement des règlementations suivantes.

Le droit des bases de données

Encadré notamment par l’article L. 342-3 du code de la propriété intellectuelle (CPI) [3], le droit sui generis du producteur de base de données régit l’extraction et la réutilisation du contenu de la base. Lorsque la base de données est mise à la disposition du public par le titulaire du droit, certaines exceptions légales permettent, sous conditions, de procéder à des extractions – y compris par des moyens automatisés tels que le scraping – sans porter atteinte aux droits de son producteur. Ainsi, le producteur de la base ne peut interdire notamment :

  • L’extraction ou la réutilisation d’une partie non substantielle de la base, par une personne qui « y a licitement accès » [4]. La notion de « partie non substantielle » s’apprécie à la fois de manière quantitative (volume de données extraites) et qualitative (valeur ou importance stratégique de l’information extraite).

Dès lors, un scraping limité, ciblé, non massif, ponctuel, non répétitif et proportionné ; réalisé par exemple par un utilisateur authentifié ou disposant d’un accès autorisé via un abonnement au service (accès licite), pourrait, en principe, s’inscrire dans le cadre de l’exception.

  • L’extraction et la réutilisation d’une partie substantielle du contenu d’une base de données (la substantialité étant toujours appréciée de manière qualitative et quantitative) [5]. Celles-ci peuvent être admises à des fins exclusives d’illustration dans le cadre de la recherche, y compris lorsque la base est conçue à des fins pédagogiques ou issue d’une édition numérique de l’écrit, à condition de respecter des critères cumulatifs : le public destinataire doit être composé majoritairement de chercheurs directement concernés, la source doit être clairement indiquée, l’extraction et la réutilisation ne doivent donner lieu à aucune exploitation récréative, ludique ou commerciale et une rémunération forfaitaire doit être négociée, en particulier lorsque la base provient d’une édition numérique de l’écrit.

  • Les extractions ou copies réalisées dans le cadre de fouilles de textes et de données (« text and data mining », TDM) [6]. Celles-ci sont en effet admises sous certaines conditions, conformément à l’article L.122-5-3 du CPI [7]. D’une part, lorsque ces extractions, copies ou reproductions de bases de données — auxquelles il a été accédé de manière licite — sont réalisées sans autorisation du producteur de la base, par ou pour le compte d’un organisme de recherche, d’une bibliothèque accessible au public, d’un musée, d’un service d’archives ou d’une institution dépositaire du patrimoine cinématographique, audiovisuel ou sonore, et ce aux seules fins de recherche scientifique. Ces opérations peuvent donner lieu à une conservation sécurisée des données, notamment afin de permettre la vérification des résultats scientifiques. Cette exception ne s’applique toutefois pas dans l’hypothèse où une entreprise associée ou actionnaire de l’entité procédant à la fouille bénéficierait d’un accès privilégié aux résultats.[8] D’autre part, toute personne peut réaliser des TDM, à condition d’avoir accédé licitement aux bases de données concernées, quelle que soit la finalité poursuivie, sauf si le titulaire des droits s’y est opposé de manière appropriée, notamment au moyen de dispositifs lisibles par machine pour les contenus mis à disposition du public en ligne. Les copies ou reproductions numériques effectuées à cette fin doivent être stockées de manière sécurisée pendant toute la durée de l’opération, puis détruites une fois la fouille terminée [9].

En outre, toute clause contractuelle qui interdirait les exceptions relatives à l’extraction non substantielle d’une base de données ou au TDM est réputée nulle [10].

Enfin, il demeure que ces exceptions ne doivent ni compromettre l’exploitation normale de la base de données, ni causer un préjudice injustifié aux intérêts légitimes de son producteur [11]. En d’autres termes, même en présence d’un usage encadré (ex : à des fins de recherche, pédagogique ou via le TDM), l’usage des données extraites doit rester proportionné, limité dans sa portée, et ne pas entrer en concurrence directe avec les usages commerciaux ou institutionnels du producteur.

En dehors de ces cas extrêmement stricts, une opération de scraping pourra être qualifiée d’extraction illicite.

Le droit des données à caractère personnel

Dès lors que les données collectées par le biais du scraping permettent d’identifier, directement ou indirectement, une personne physique, le régime juridique applicable est celui de la protection des données à caractère personnel, régi principalement par le Règlement général sur la protection des données (Règlement (UE) 2016/679 – RGPD [12]) ainsi que par la loi n°78-17 du 6 janvier 1978 dite « Loi Informatique et Libertés », modifiée. Dans ce cadre, tout traitement de données personnelles doit notamment respecter les principes posés à l’article 5 du RGPD, à savoir : la licéité, la loyauté et la transparence du traitement ; la limitation des finalités (les données doivent être collectées pour des objectifs déterminés, explicites et légitimes) ; la minimisation des données (ne collecter que les données strictement nécessaires) ; l’exactitude, la limitation de la conservation, l’intégrité et la confidentialité des données.

Concernant la licéité du traitement [13], dans le contexte du scraping, la base légale mobilisée sera souvent l’intérêt légitime. Or, ainsi que le souligne régulièrement la Commission nationale de l’informatique et des libertés (Cnil) [14], le recours à l’intérêt légitime est subordonné à la réunion de trois conditions cumulatives :

Premièrement, l’intérêt poursuivi doit revêtir un caractère légitime, c’est-à-dire être licite au regard de l’ensemble des normes applicables, déterminé de manière claire et précise, réel et actuel. Il ne saurait, à ce titre, s’agir d’un objectif hypothétique ou contraire à une réglementation en vigueur — tel que, par exemple, le droit d’auteur — ni d’un traitement dépourvu de lien avec les missions ou l’activité du responsable de traitement. En outre, cet intérêt doit être porté à la connaissance des personnes concernées, dans le respect des obligations de transparence prévues par le RGPD.

Deuxièmement, le traitement envisagé doit être nécessaire à la réalisation de l’intérêt légitime poursuivi. Il appartient ainsi au responsable du traitement de démontrer qu’aucun autre moyen, moins intrusif pour les droits et libertés des personnes concernées, ne permettrait d’atteindre l’objectif visé. Cette exigence doit être appréciée en articulation avec le principe de minimisation des données [15]. En pratique, cela implique de vérifier que le recours à des données à caractère personnel est indispensable, et que leur traitement sous une forme permettant l’identification — directe ou indirecte — est justifié par la finalité poursuivie. Cette analyse doit également intégrer les alternatives technologiques existantes, en tenant compte notamment des avancées permettant le développement de systèmes fondés sur un volume réduit ou sur des données moins identifiantes. À ce titre, les responsables de traitement sont encouragés à privilégier les solutions respectueuses de la vie privée dès la phase de conception, conformément au principe de « privacy by design ».

Troisièmement, le traitement ne doit pas porter une atteinte disproportionnée aux intérêts ou aux droits et libertés fondamentaux des personnes concernées. À cette fin, le responsable du traitement est tenu de procéder à une mise en balance rigoureuse entre l’intérêt qu’il poursuit et les impacts concrets du traitement sur les individus. Cette évaluation suppose non seulement d’identifier les bénéfices attendus, mais également de mesurer les risques encourus par les personnes concernées, en tenant compte notamment du contexte spécifique du traitement, de la nature des données traitées, de leur sensibilité, ou encore de la catégorie des personnes visées (public vulnérable, mineurs, etc.).

Dans ce cadre, la Cnil rappelle que le respect des attentes raisonnables des personnes concernées constitue un critère central dans l’appréciation de la licéité d’un traitement fondé sur l’intérêt légitime. En effet, si les individus peuvent avoir conscience que certaines données publiées en ligne sont susceptibles d’être consultées et/ou réutilisées, ils ne peuvent toutefois raisonnablement pas s’attendre à ce que de tels traitements soient opérés dans toutes les circonstances et pour n’importe quelle finalité.

L’évaluation de ces attentes suppose ainsi de prendre en compte un ensemble d’éléments, tels que notamment le caractère publiquement accessible des données concernées, la nature des sites web sources – qu’il s’agisse de réseaux sociaux, de forums ou de plateformes spécialisées –, les restrictions contractuelles ou techniques imposées par lesdits sites, comme les conditions générales d’utilisation ou encore les protocoles d’exclusion de type robots.txt.

En outre, lorsque cette mise en balance révèle un déséquilibre au détriment des droits des personnes, des garanties additionnelles devront être mises en œuvre afin d’en atténuer les effets et de respecter le principe de proportionnalité. Il appartiendra au responsable du traitement d’apprécier, au cas par cas, la pertinence et la nécessité de ces mesures, en fonction des modalités précises du traitement envisagé. À cet égard, il est donc recommandé d’exclure par défaut la collecte de données issues de certains sites particulièrement sensibles, tels que ceux contenant des contenus à caractère pornographique, des forums de santé ou encore des plateformes généalogiques, dès lors que la nature ou la quantité des informations qu’ils hébergent permettrait d’obtenir des données personnelles particulièrement intrusives. De même, il convient d’écarter la collecte provenant de sites qui s’opposent explicitement au scraping de leurs contenus ou à leur réutilisation à des fins de constitution de bases de données destinées à l’entraînement de systèmes d’IA.

Dans la même logique, la collecte de données doit se limiter aux contenus librement accessibles, c’est-à-dire à ceux consultables sans inscription ni création de compte, et pour lesquels les personnes ont clairement conscience du caractère public, ce qui exclut notamment les contenus publiés dans le cadre d’une utilisation privée sur les réseaux sociaux ou sur des sites dont la dimension publique n’est pas explicite, comme certaines plateformes de pétitions.

En complément, le responsable du traitement devra s’efforcer de diffuser aussi largement que possible une information claire et accessible relative à la collecte et aux droits des personnes concernées, en diversifiant les supports de communication, que ce soit par la publication d’articles sur ses propres canaux, via ses réseaux sociaux, ou encore par la mise en ligne d’une liste régulièrement mise à jour des sites concernés par les pratiques de moissonnage. Dans certains cas, l’information relayée directement par les éditeurs des sites sources peut également constituer une bonne pratique.

Il convient également de prévoir un droit d’opposition préalable et discrétionnaire, permettant aux personnes de refuser l’utilisation de leurs données avant même leur collecte. À ce titre, la Cnil encourage le recours à des solutions techniques facilitant l’exercice de ce droit, telles que des mécanismes d’opt-out ou des « listes repoussoirs » [16], lorsque cela s’avère pertinent. En outre, le traitement des données collectées devrait s’accompagner, dans les meilleurs délais, de procédés d’anonymisation ou, à défaut, de pseudonymisation. Pour prévenir tout recoupement abusif, il est également recommandé de substituer les identifiants directs par des pseudonymes aléatoires propres à chaque contenu – par exemple, à chaque publication sur un forum accessible publiquement – sauf si le responsable du traitement est en mesure de démontrer la nécessité, pour le développement du système ou du modèle d’IA, de regrouper plusieurs données relatives à une même personne.

Le droit pénal

Le scraping, notamment lorsqu’il est mis en œuvre en contournant délibérément des dispositifs techniques de protection, est susceptible de constituer une atteinte aux systèmes de traitement automatisé de données (STAD) [17]. En effet, de telles atteintes incluent notamment l’accès frauduleux à un système, la suppression ou la modification non autorisée de données, ainsi que toute entrave ou altération de son fonctionnement.

Par ailleurs, la violation des droits du producteur d’une base de données, en particulier lorsque les actes d’extraction ou de réutilisation ne respectent pas les conditions posées à l’article L.342-3 du CPI, peut également constituer une infraction spécifique, sanctionnée pénalement au titre de l’article L.343-4 du même code.

Un encadrement contractuel du scraping : Une illustration avec les conditions générales de LinkedIn

L’article 8.2.2 des CGU de LinkedIn prohibe de manière explicite le recours au scraping en stipulant que : « Vous vous engagez à ne pas développer, prendre en charge ou utiliser des logiciels, des dispositifs, des scripts, des robots ou tout autre moyen ou processus (tels que des robots d’indexation, des modules d’extension de navigateur et compléments, ou toute autre technologie) visant à effectuer du web scraping ou copier les Services, y compris des profils et d’autres données des Services. »

Cette formulation témoigne d’une volonté claire de la plateforme d’interdire toute forme d’extraction automatisée, qu’elle porte sur les profils, les contenus, les flux techniques ou les éléments infrastructurels de la plateforme. Cette interdiction générale est par ailleurs étroitement articulée avec d’autres dispositions contractuelles. Ainsi, l’article 8.2.3 interdit de « remplacer toute fonctionnalité de sécurité ou contourner ou éviter tout contrôle d’accès ou utiliser des limites des Services (comme des résultats de recherche, des profils ou des vidéos) ». Pour rappel, le scraping, en tant que méthode automatisée d’extraction massive de données, suppose fréquemment le contournement de dispositifs techniques de protection mis en œuvre par LinkedIn, tels que les CAPTCHA, les fichiers d’exclusion comme robots.txt, ou encore les mécanismes de blocage fondés sur l’adresse IP. Dès lors, l’interdiction énoncée par cet article s’inscrit dans une logique de prévention de toute tentative de neutralisation de ces barrières techniques destinées à protéger l’intégrité du service.

L’article 8.3.4 par ailleurs prohibe explicitement de « copier, utiliser, afficher ou distribuer des informations (y compris du contenu) obtenues à partir des Services, que ce soit directement ou via des tiers […] sans le consentement du propriétaire du contenu ». En cela, toute opération de scraping réalisée sans autorisation préalable est potentiellement constitutive d’une violation contractuelle manifeste de cette clause.

En outre, l’interdiction du scraping par LinkedIn a été matérialisée par l’affaire LinkedIn vs hiQ Labs portée devant les juridictions américaines à partir de 2017. Cette affaire concernait précisément l’exploitation automatisée de profils publics LinkedIn dans un but de profilage prédictif à destination d’employeurs. Si les premières décisions avaient temporairement permis à hiQ Labs de poursuivre ses activités, la procédure s’est finalement soldée en 2022 [18] par un accord favorable à LinkedIn, contraignant la société tierce à cesser toute activité de scraping sur la plateforme.

Quelles sanctions encourues?

Qu’il s’agisse de sanctions contractuelles, administratives, ou encore pénales, les risques encourus par les pratiques de scraping sont significatifs et doivent inciter à une vigilance accrue quant à l’extraction et l’utilisation de données issues de sites ou de plateformes.

Les sanctions et la responsabilité contractuelle

Pour reprendre l’exemple de LinkedIn, alors que les CGU dans leur version antérieure, entrée en vigueur en 2022, limitaient les sanctions à des mesures telles que la restriction, la suspension ou la clôture du compte utilisateur, la version actuellement en vigueur élargit considérablement l’arsenal contractuel de la plateforme. LinkedIn se réserve désormais expressément le droit de limiter, suspendre ou bloquer de manière permanente l’accès à ses services, ainsi que de supprimer tout contenu ou toute donnée partagée par un utilisateur en cas de violation des CGU — notamment en matière de pratiques de scraping [19]. Cette évolution renforce les moyens dont dispose LinkedIn pour prévenir et sanctionner les comportements interdits, tout en assurant la protection de l’intégrité de son écosystème numérique.

Par ailleurs, la responsabilité contractuelle d’un « scraper » [20]/utilisateur d’une plateforme peut être engagée, permettant d’obtenir des dommages et intérêts en réparation des préjudices causés par la violation des CGU, conformément aux règles de droit commun [21]. À ce titre, le Tribunal judiciaire de Paris [22] a notamment rappelé que les CGU d’un site ne peuvent produire d’effet à l’égard d’un tiers qui ne les a ni acceptées ni contractuellement souscrites. Seuls les utilisateurs ayant effectivement adhéré aux CGU peuvent voir leur responsabilité contractuelle engagée en cas de scraping non autorisé, ce qui exclut toute action sur ce fondement à l’encontre d’un tiers non lié.

La responsabilité extracontractuelle

Même en l’absence de contrat avec une plateforme, les pratiques de scraping peuvent engager la responsabilité extracontractuelle de leur auteur. Cela peut notamment résulter d’une violation de l’article L.342-3 du CPI en cas d’extraction illicite de bases de données, comme l’a confirmé la décision précitée [23]. En l’espèce, toutefois, le demandeur a été débouté, faute d’avoir démontré que les extractions en cause compromettaient l’amortissement de ses investissements — condition posée par la Cour de Justice de l’Union Européenne (CJUE) dans l’arrêt CV Online [24].

D’autres fondements juridiques peuvent également être mobilisés à l’appui d’une action contre des pratiques de scraping illicite, notamment le parasitisme économique, lorsqu’un acteur tire indûment avantage des investissements, des ressources techniques ou de la notoriété d’une plateforme tierce pour développer un service concurrent fondé sur l’extraction de ses données. Ce comportement peut également relever de la concurrence déloyale, dès lors qu’il aboutit à la création d’une offre de services similaire, en exploitant les données d’un concurrent pour en reproduire les fonctionnalités, détourner sa clientèle ou affaiblir sa position sur le marché. [25]

À ce titre, le Tribunal de commerce de Paris [26] (devenu le Tribunal des Affaires Economiques) a estimé, dans un jugement rendu le 30 septembre 2024, qu’une société spécialisée dans les logiciels de recrutement, ayant utilisé et collecté massivement des données publiques issues de profils LinkedIn à des fins de sourcing, n’était pas tenue d’obtenir le consentement explicite des personnes concernées, dans la mesure où ces données étaient rendues publiques par les utilisateurs eux-mêmes. Se fondant sur l’article 5 du RGPD, le tribunal a considéré que le fait de publier un profil sur LinkedIn traduit une volonté de le rendre visible auprès de potentiels employeurs, et donc d’accepter implicitement que ces informations soient collectées ou traitées [27]. En revanche, le tribunal a conclu à un acte de concurrence déloyale, dans la mesure où la société défenderesse avait enfreint les CGU de LinkedIn en recourant à des techniques de scraping non autorisées. Elle a, de ce fait, été condamnée à verser des dommages et intérêts à la plateforme.

Les sanctions administratives

Le non-respect du RGPD expose les scrapers notamment à des amendes administratives pouvant atteindre 20 millions d’euros ou 4 % du chiffre d’affaires mondial, la plus élevée des deux options étant retenue [28]. À titre d’illustration, dans une délibération du 5 décembre 2024 [29], la formation restreinte de la Cnil a prononcé une amende administrative de 240 000 euros à l’encontre de la société KASPR pour plusieurs manquements au RGPD, en particulier à l’obligation de disposer d’une base légale [30] et l’obligation de transparence et d’information des personnes [31]. Cette affaire concernait une « aspiration de données » selon l’expression utilisée par la formation restreinte. En l’occurrence, la société proposait une extension pour navigateur permettant de collecter automatiquement les coordonnées professionnelles (notamment numéros de téléphone et adresses électroniques) de personnes notamment à partir de leurs profils LinkedIn, y compris lorsque celles-ci avaient expressément limité la visibilité de leurs informations à leurs relations de premier ou deuxième niveaux, totalisant environ 160 millions de contacts. Or, LinkedIn offre précisément quatre niveaux de paramétrage de confidentialité pour les coordonnées : visibilité uniquement par l’utilisateur, par tout le monde, par les relations de premier niveau, ou par celles de premiers et deuxièmes niveaux. La Cnil a considéré que le contournement de ces réglages de confidentialité excédait les attentes raisonnables des utilisateurs en matière de protection de leurs données personnelles. Dans ces circonstances, la collecte opérée par la société a été jugée illicite et ne pouvait être justifiée ni par le consentement des personnes, ni par un intérêt légitime, ni par aucune autre base légale (contrat, etc..) dès lors que l’intrusion dans la vie privée était disproportionnée.

Dans une autre affaire, par une délibération du 8 décembre 2020 [32], la formation restreinte de l’autorité de contrôle a prononcé une amende de 20 000 euros à l’encontre d’une société, pour avoir utilisé et collecté des données accessibles en ligne, via des pratiques de scraping, pour alimenter une base de prospects utilisée à des fins de prospection commerciale. Dans ces circonstances, la formation restreinte a estimé que cette finalité nécessitait un consentement explicite préalable des utilisateurs, conformément à l’article L.34-5 du code des postes et des communications électroniques (CPCE) [33]. La société a également été sanctionnée pour des pratiques opaques, consistant notamment en l’envoi de courriels sans que les destinataires n’aient été informés ni de la collecte ni des finalités de l’utilisation de leurs données.

Les sanctions pénales

Les articles 323-1 et suivants du code pénal prévoient des sanctions importantes pour les infractions relatives aux STAD. Concernant les personnes physiques, les peines peuvent atteindre 300 000 euros d’amende et dix ans d’emprisonnement dans les cas les plus graves. Pour les personnes morales, les amendes sont multipliées par cinq, pouvant ainsi atteindre 1 500 000 euros, en application de l’article 131-38 du code pénal.

L’infraction spécifique prévue par l’article L343-4 du CPI (qui porte sur la violation des droits du producteur d’une base de données) est sanctionnée quant à elle par une peine pouvant aller jusqu’à trois ans d’emprisonnement et 300 000 euros d’amende pour les personnes physiques (les peines étant portées à sept ans d’emprisonnement et 750 000 euros d’amende lorsque le délit est commis en bande organisée). Pour les personnes morales, conformément à l’article L343-6 du CPI, ces sanctions sont aggravées avec une amende pouvant être multipliée par cinq, soit jusqu’à 1 500 000 euros.

En sus, dans tous les cas, des peines complémentaires peuvent être prononcées.

Conseils et recommandations pratiques

Pour résumer, avant d’initier une démarche pouvant inclure du scraping, des réflexes de bon aloi doivent être pris en compte afin d’assurer la sécurité juridique.

ETAPES  ACTIONS CLES  
Définition des objectifs et des besoins  – Identifier clairement les objectifs du scraping : finalités précises (veille, analyse de marché, recrutement, etc.). 
– Recueillir les besoins spécifiques (type de données, fréquence, volume d’informations à collecter). 
Validation par un audit juridique préalable  Réaliser un audit juridique approfondi des pratiques de scraping envisagées pour évaluer les risques.   
Analyse des CGU et des conditions d’utilisation des méthodes légitimes d’accès aux données (Application Programming Interface – API) – Analyser les CGU afin notamment de déterminer les limites imposées concernant l’utilisation des données de la plateforme et vérifier si le scraping envisagé est expressément interdit ou restreint. 
– S’assurer que les actions de scraping respectent les limitations techniques de la plateforme et ne vous exposent pas à des blocages ou sanctions. 
– Vérifier si les informations nécessaires sont disponibles via des moyens légitimes, tels que les API [34] des plateformes, afin d’éviter toute violation des CGU, et privilégier prioritairement ces canaux d’accès.  
Conformité avec la réglementation applicable (RGPD, PI, etc.)   S’assurer notamment de : 
– Base légale : Justifier le traitement des données par une base légale adéquate. 
– Finalité : Vérifier que la collecte respecte le principe de finalité définie, légitime et explicite. 
– Minimisation des données : Collecter uniquement les données strictement nécessaires à la finalité définie. 
– Respect du droit sui generis du producteur des bases de données : Éviter des extractions substantielles ou répétées portant atteinte aux droits du producteur de base de données.  
Sécurisation des données collectées – Mettre en place des mesures de sécurité pour protéger les données collectées contre tout accès non autorisé. 
– Éviter la conservation prolongée des données et prévoir des mécanismes de suppression ou d’anonymisation une fois la finalité atteinte.  
Documentation des opérations  – Documenter toutes les étapes et décisions liées au projet (analyse des CGU, analyse d’impact sur la vie privée, etc.). 
– Conserver une traçabilité des actions pour démontrer la conformité en cas de contrôle par une plateforme comme LinkedIn ou une autorité de protection des données. 
Formation des équipes  Sensibiliser les collaborateurs impliqués dans le projet aux enjeux juridiques et techniques liés au scraping.  
Surveillance et adaptation  – Mettre en place un mécanisme de veille pour détecter les évolutions des CGU des plateformes (LinkedIn) ou de la réglementation applicable. 
– Prévoir une révision régulière du plan d’action pour maintenir la conformité  

Références

[1] Cnil, La base légale de l’intérêt légitime : fiche focus sur les mesures à prendre en cas de collecte des données par moissonnage (web scraping, 19 juin 2025 (https://www.cnil.fr/fr/recommandations-developpement-ia-interet-legitime)
[2] LinkedIn, Conditions générales d’utilisation, version en vigueur depuis le 20 novembre 2024 (https://fr.linkedin.com/legal/user-agreement)
[3] CPI, art. L. 342-3 (https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000044365654)
[4] CPI, art. L342-3, 1
[5] CPI, art. L342-3, 4 et 4bis
[6] Le TDM est défini comme « la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations?» (CPI, art. L.122-5-3, I- https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000044363192/2025-06-27 )
[7] CPI, art. L342-3, 6
[8] CPI, art. L122-5-3, I
[9] CPI, art. L122-5-3, II
[10] CPI, art. L342-3, al. 10
[11] CPI, art. L342-3, al. 11
[12] Règlement (Ue) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données
[13] RGPD, art. 6
[14] Cnil – « IA : Mobiliser la base légale de l’intérêt légitime pour développer un système d’IA», 19 juin 2025 (https://www.cnil.fr/fr/base-legale-interet-legitime-developpement-systeme) ; Cnil – « La base légale de l’intérêt légitime : fiche focus sur les mesures à prendre en cas de collecte des données par moissonnage (web scraping) », 19 juin 2025 (https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage )
[15] RGPD, art. 5
[16] Cnil, comment utiliser une liste repoussoir pour respecter l’opposition à la prospection commerciale : https://www.cnil.fr/fr/comment-utiliser-une-liste-repoussoir-pour-respecter-lopposition-la-prospection-commerciale
[17] Code pénal (CP), art. 323-1 à 323-8
[18] hiQ Labs, Inc. c. LinkedIn Corp., Cour d’appel du 9e circuit fédéral, 9 septembre 2019, n° 17-16783, ( https://cdn.ca9.uscourts.gov/datastore/opinions/2022/04/18/17-16783.pdf )
[19] LinkedIn, CGU, art. 3.4
[20] Personne ayant recours au scraping
[21] C. civ., art. 1231-1
[22] TJ Paris, 3e ch. 2e sect., 21 févr. 2025, n° 21/09261
[23] Voir note 21
[24] CJUE, 3 juin 2021, CV-Online Latvia SIA c. Melons SIA, aff. C762/19 (https://curia.europa.eu
[25] Le parasitisme et la concurrence déloyale sont fondées sur les articles 120 et 1241 du Code civil.
[26] T. com. Paris, 15e ch., 30 sept. 2024)
[27] Cette interprétation ne semble en revanche pas conforme à celle de la Cnil, voir partie « Le droit des données à caractère personnel. »
[28] RGPD, art. 83
[29] Cnil, formation restreinte, délibération n° SAN-2024-023 du 5 décembre 2024, (https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000050791828)
[30] RGPD, art. 6
[31] RGPD, art. 12 et 14
[32] Cnil, Délibération SAN-2020-018 du 8 décembre 2020 (https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000042848036)
[33] CPCE, Art. L34-5, al. 1 : « Est interdite la prospection directe au moyen de système automatisé de communications électroniques au sens du 6° de l’article L. 32, d’un télécopieur ou de courriers électroniques utilisant les coordonnées d’une personne physique, abonné ou utilisateur, qui n’a pas exprimé préalablement son consentement à recevoir des prospections directes par ce moyen. »
[34] Par exemple, concernant LinkedIn : : l’API officielle LinkedIn

Clause de non-responsabilité

Les opinions, présentations, chiffres et estimations présentés sur le site Web, y compris dans le blog, sont uniquement destinés à des fins d’information et ne doivent pas être considérés comme des conseils juridiques. Pour obtenir un avis juridique, vous devez contacter un professionnel du droit dans votre juridiction.

L’utilisation du contenu de ce site Web, y compris du blog, à des fins commerciales, y compris la revente, est interdite, sauf autorisation préalable de Evidency. La demande d’autorisation doit préciser le but et l’étendue de la reproduction. À des fins non commerciales, tout le matériel

  • Oriane Lafoucrière et Garance Mathias

    Oriane Lafoucrière est juriste en droit du numérique et protection des données chez Mathias Avocats. Elle accompagne organisations et acteurs du numérique sur les enjeux de conformité RGPD, de cybersécurité, de contractualisation et de régulation technologique, avec une approche opérationnelle et pédagogique.

    Garance Mathias est avocate associée et fondatrice du cabinet Mathias Avocats. Spécialiste du droit du numérique, de la protection des données et de la cybersécurité, elle accompagne depuis plus de vingt ans entreprises et institutions dans la gestion de problématiques juridiques complexes et publie régulièrement des analyses faisant autorité sur la conformité et les technologies innovantes.

Recommandés
pour vous