La vidéo sur le harcèlement a suscité beaucoup de commentaires et a amené des questions pertinentes et légitimes. Nous essayons dans cet article de répondre aux interrogations les plus fréquentes.
Sont mis en gras+italique les phrases littéralement extraites du script de la vidéo.

La caractérisation du harcèlement
Votre vidéo prouve-t-elle un harcèlement de la part des ZEM ?
Non. La méthodologie ne permet pas de conclure en ce sens, car le caractère nuisible des actes ou propos répétés doit être apprécié par un juge. Dans une démarche scientifique, nous ne pouvons pas faire de conclusion plus importante que ce que la méthode nous permet. L’enquête nous a permis simplement d’observer des données et de les quantifier pour voir si on observe un intérêt prononcé et une répétition d’actions pouvant potentiellement nuirent à la vie des personnes ciblées, et les conclusions de la vidéo sont très prudentes :
- Concernant le blog de Zet Ethique Métacritique, on observe un intérêt très prononcé et récurrent envers les sceptiques et plus particulièrement Thomas Durand.
- Sur Twitter, on peut remarquer que les comptes ZET tweetent principalement sur des sujets liés au scepticisme, et communiquent très majoritairement avec des personnes au sein de la communauté sceptique.
- Les comptes liés au collectif ZEM tweetent énormément sur les personnalités de la communauté sceptique et les mentions de comptes ZET par des membres de ZEM sont extrêmement nombreuses.
- Le cas du compte de Thomas Durand reçoit certes des notifications de la part de certains membres du collectif, mais celles-ci semblent être anecdotiques lorsqu’on observe le graphique global, car Acermendax se prend un très grand nombre de messages négatifs de la part de la communauté d’Idriss Aberkane.
Les choix de la méthodologie
Pourquoi ne faire que du quantitatif ?
L’objectif était d’analyser le caractère répété puisque l’une des conditions pour caractériser le harcèlement selon le code pénal français est la répétition de comportements ou de propos.
Il n’était pas question d’apprécier la légitimité des critiques de zet éthique meta critique ou les intentions des membres de ce collectif, car ç’aurait été risquer de tomber dans le procès d’intention. D’autre part, cela reviendrait in fine à juger du caractère légitime ou pas d’un potentiel harcèlement.
Pourquoi ne pas avoir pris que les @?
L’idée pour le jeu de données 2 était que, souvent, les personnalités publiques créent des alertes sur leur nom ou leur pseudo afin d’être averti lorsqu’on parle d’eux, nous souhaitions donc capter les notifications relatives à ces alertes. Par ailleurs, nous voulions avoir le même nombre de mots clefs de chaque côté, or ça n’était pas forcément nécessaire.
C’est en conséquence un regret que nous avons, et si c’était à refaire, nous ne collecterions que les @. Néanmoins, ce choix n’a que peu d’incidence sur le résultat final de l’enquête puisque les @ restent très largement majoritaires. En effet, par exemple, on trouve pour Thomas Durand :
@Acermendax 10154 tweets
Harcelmendax 3 tweets
Thomas C. Durand 93 tweets
Merdax 17 tweets
Mendax 820 tweets
Ici les données récoltées viennent à 91,58% du @ lié au compte Twitter de Thomas Durand, la proportion est légèrement inférieure du côté du collectif puisqu’on trouve :
Métacritique 45 tweets
Zet éthique 135 tweets
meta Zet 811 tweets
@ZetEthMeta 281 tweets
@VioletGael 2238 tweets
@CNQTheorie2 2705 tweets
@drsornette 429 tweets
Soit 85,08% des données provenant des @ des membres du collectif.
Mais si on parle de sujets comme le handicap ou la lutte des classes, du coup, on est tout le temps compté comme négatif ?
Non, nous avions vérifié ça en faisant des tests, en réalité, c’est la façon d’en parler qui produit de la négativité.
Par exemple si vous tweetez “La défense des handicapés est un sujet pour lequel nous devons nous mobiliser plus que jamais !” ou encore “Les handicapés ont aussi le droit de mener une vie digne !” l’IA identifiera bien ces tweets comme “positifs”.
Par contre, si vous tweetez “Ces putains de gros cons qui ne prennent pas en compte les handis me gonflent !” alors l’IA identifiera ça comme “négatif”.
Par ailleurs, la négativité et la positivité sont calculées en donnant beaucoup de poids aux valeurs extrêmes, qui laissent peu de place à l’ambiguïté. Lorsque l’IA n’est pas sûre, alors le tweet est affecté au neutre.
Des erreurs de classification sont toujours possibles bien-sûr, mais les quelques tweets concernés sont pondérés par la masse globale.
Pourquoi ne pas avoir cité AG alors que c’est le plus toxique ?
Dans le jeu de données 1 son compte était dans le groupe étiqueté “ZET”, cependant’ AG n’est plus actif sur Twitter depuis 2020. Twitter étant le medium que nous avons analysé, AG n’apparaît logiquement pas dans l’analyse.
Pourquoi HM et Monvoisin ne sont pas comptés comme zet? (Tableau jeu de données 1)
Le groupe des “ZET” ou “vulgarisateurs et vulgarisatrices sceptiques mainstream” est difficile à borner, contrairement à un collectif ou une association, il n’y a pas de liste de membres sur laquelle nous appuyer. Nous avons donc dû faire des choix.
Nous avons choisi d’inclure dans notre groupe les plus gros comptes francophones produisant du contenu vulgarisation étiquetée comme « sceptique ». Pour notre enquête, nous nous sommes intéressés principalement à ceux les plus souvent critiqués sur le blog de Zet éthique et Méta-critique.
Hygiène Mentale et Richard Monvoisin sont très peu critiqués par le collectif et d’autre part sont peu actifs sur Twitter, nous avons donc estimé qu’il serait peu intéressant de se pencher sur leurs comptes.
Les propositions d’amélioration
Pourquoi ne pas prendre en compte les captures d’écran?
Parce que du point de vue d’une machine, avant d’être une capture d’écran, ce n’est qu’une image. Il aurait fallu que nous utilisions une IA capable de faire la distinction entre image random et une capture d’écran Twitter, mais aussi capable d’extraire le nom des comptes et le texte inclus. Cela était trop complexe et trop long pour le but que nous voulions atteindre.
Pourquoi ne pas faire de recherche autour des tags « Karen » ou « zem » ?
Nous avons défini les termes en nous basant sur les indices du jeu de données 1 et dans celui-ci, on dénombre moins de 10 apparitions de ces termes dans chacun des deux groupes.
Cependant, concernant le mot clé “zem” nous l’avons fait, mais très peu de messages sont apparus significatifs, car le résultat était extrêmement “bruité”. C’est-à-dire que la majorité des messages que l’algo a relevés n’avaient rien à voir avec la sphère sceptique ni avec le collectif parce que ce mot clé se référait à beaucoup d’autres choses (Zemmour, Roschdy Zem, des tweets en langue slave, etc…)
Les autres termes tels que “toxique”, “SJW”, “Karen”, etc… Sont bien trop génériques et n’auraient rien apporté à l’enquête, car nous aurions trouvé une écrasante majorité de comptes sans rapport avec la sphère sceptique ou le collectif.
Avez-vous essayé d’étudier l’impact des messages des gros comptes ? Ces mêmes messages pouvant être beaucoup liké et partagé, et les mouvements de meute pouvant en découler.
Oui, c’était l’objectif du jeu de données 2. Ce jeu porte sur un seul mois de données (du 18 juillet au 18 août), un mois relativement calme sur les réseaux compte tenu des vacances. L’objectif était d’observer l’activité des différentes communautés autour des comptes ZET et ZEM et de voir si on pouvait identifier des mouvements de harcèlement en « meute » d’un côté ou de l’autre et en particulier autour des leaders d’opinion.
Sur le graphique concernant les mots clés relatifs au collectif, on peut voir que la communauté des ZET, est très peu représentée. Ce qui veut dire que, pendant la période étudiée, il n’y a pas eu de mouvement de meute provenant de la communauté ZET vers la communauté gravitant autour de ZEM.
Dans le cas du graphique concernant les mots clés relatifs à Thomas Durand on peut observer qu’énormément de traits de messages négatifs arrivent sur lui, en particulier de la part de la communauté d’Idriss Aberkane. Il reçoit certes des notifications de la part de certains membres du collectif, mais celle-ci semble être anecdotique lorsqu’on observe le graphique global. Il n’y a pas eu de mouvement de meute provenant de la communauté gravitant autour de ZEM pendant la période étudiée.
Comprendre ce qu’est la “négativité”
Pourquoi avoir utilisé une IA entraînée à lire des avis de film ? ça n’a aucun rapport ?
Camembert (et la version Distillcamembert associée) est un modèle linguistique basé sur RoBERTa, et entraîné sur un corpus multilingue appelé OSCAR.
Pour entraîner la version “analyse de sentiment” de Camembert, on prend le modèle entraîné qui a appris à comprendre le français, on retire la dernière couche qui sert à faire le masking, et on rajoute une couche qui va apprendre à classer les commentaires allocine.
Le corpus allociné est d’ailleurs un corpus de référence pour ce type de tâches, curé, et qui a ceci de précis qu’à chaque texte est associé une note de 1 à 5 qui correspond à l’intention de l’auteur du commentaire.
On a donc un texte associé à une intention de notation par chaque auteur de commentaire, ce qui est moins biaisé qu’un corpus de tweet annoté par 5 personnes pour entraîner l’IA. Car à ce moment, l’entièreté de la classification dépend du ressenti personnel de ces 5 personnes. Le fait qu’une machine note les tweets en étant agnostique de son émetteur est plutôt une bonne garantie de neutralité de la part de l’annotateur (ici, Camembert)
Il ne s’agit pas d’un simple mapping de mots et de sentiments comme on en faisait il y a une dizaine d’années. Dans le contexte de Camembert, un même mot n’aura pas la même représentation selon son contexte d’utilisation, et selon sa polysémie.
L’analyse de sentiment présente évidemment des limites, mais il ne faut pas oublier que notre corpus est très large, et de ce fait les erreurs de classification de quelques tweets sont tamponnées par la masse globale. De plus, les quelques biais possibles, s’il y en a, sont les mêmes dans tous les groupes étudiés.
Est-ce que les zem « se déchirent entre eux » ?
On ne peut pas conclure en ce sens d’après les graph.
Sur le 1er graphe, montrant les liens de follow, on voit qu’ils sont vraiment unis, se suivant pas mal entre eux et qu’ils sont assez peu liés à la communauté “zet”.
Ce que le second graph montre, c’est que des messages à caractère négatifs sont échangés. Comme mentionné dans la vidéo, il ne faut pas oublier que comme les comptes étudiés ont pour principale occupation de critiquer et/ou de debunker, ils sont naturellement analysés comme plus négatifs que la norme même au sein d’une même communauté. Cela ne veut pas dire que la communauté se déchire, mais simplement que la teneur des messages échangés a une tonalité négative.
Pourquoi j’apparais en gros alors que je n’ai fait que discuter longtemps avec l’autre personne, je ne l’ai pas harcelé ?
Les ronds correspondent à la quantité de négativité envoyée par le compte, plus le rond est gros plus ce compte a envoyé de messages négatifs. La taille de ces ronds est proportionnelle à la somme de négativité détectée. Il faudrait écrire uniquement des messages positifs pendant tout le mois étudié pour que le rond reste à sa taille minimale malgré un grand nombre de messages.
Beaucoup de messages négatifs ne signifie pas nécessairement qu’il y a harcèlement. Ces messages négatifs peuvent très bien être des avis négatifs échangés sur un film, un livre ou autre, ça ne montre en rien que le compte émetteur harcèle le compte receveur. Pour qualifier le harcèlement, il faudrait vérifier à la main pourquoi les messages sont négatifs et leur potentiel de nuisance, ce qui est le travail d’un juge.
Les critiques
Pourquoi ne répondez-vous pas aux critiques comme c’est le cas en Science où les chercheurs doivent répondre aux reviewers ?
Premièrement, la vidéo ne prétend pas être une étude scientifique publiée dans une revue à comité de relecture.
En revanche, elle propose une démarche scientifique dans le sens où elle émet une problématique de départ, propose une méthodologie, des analyses, et des conclusions au regard de la problématique, de la méthodologie et des analyses. Pour en faire un article de recherche, il manque beaucoup d’éléments, notamment d’analyses annexes et contextuelles qui n’ont pas été présentés dans la vidéo.
Et la protection des données dans tout ça ?
Pourquoi ne pas avoir demandé l’autorisation aux ZEM avant de récolter et d’analyser leurs données ?
La CNIL ne considère pas nécessaire d’informer individuellement les personnes au sujet des données personnelles traitées pour la réalisation d’une enquête comme celle de la vidéo, car cela aurait pu compromettre l’enquête et sa publication ultérieure.
Pourquoi ne pas avoir publié les données brutes pour que tout le monde puisse facilement refaire les calculs ?
Parce que cela viole les dispositions du RGPD et n’est pas légal. Il faut distinguer, la collecte, le traitement, et la transmission des données. La collecte et le traitement que nous avons fait sont licites, c’est la transmission et la publication qui peuvent poser un problème.
Dans la vidéo, nous n’avons divulgué aucune donnée brute, car il s’agit de tweets reflétant parfois des avis politiques qui sont, aux yeux de la CNIL, considérés comme des données sensibles, même si les tweets sont toujours en ligne.
L’accumulation sous forme de base de données devient problématique dans le cadre d’une mise à disposition publique, parce qu’elle permet vraiment d’identifier des données sensibles : orientation sexuelle, identité de genre, opinions politiques, etc sur certains comptes.
Merci pour ce travail de clarification et de réponse !
J’aimeJ’aime