Qu'est-ce que le biais des données d'audience ? Voici pourquoi vous devriez vous en préoccuper
Avez-vous déjà consulté des données d'audience et pensé qu'elles ne semblaient pas complètement réelles ou exactes ? Cela pourrait être dû à un biais de données. On parle de biais de données lorsque les données sources sont faussées, ce qui donne des résultats qui ne sont pas entièrement représentatifs de l'audience que vous étudiez, et ce, de manière intentionnelle ou non. Dans tous les cas, le biais de données est un élément à prendre en compte dans votre planification et votre stratégie.
Avant d'aller plus loin, vous voudrez peut-être lire notre série de deux articles sur la façon dont nous utilisons et enrichissons notre source de données chez Audiense , ainsi que les restrictions de données qui s'appliquent à tout le monde et comment cela fonctionne dans le monde réel.
Un exemple de biais de données peut être trouvé tout simplement dans les données démographiques et socio-économiques. La population indienne est composée de 52 % d’hommes et de 48 % de femmes . En ce qui concerne les données sociales, pour commencer, la pénétration d’Internet dans la population est de 49 % . Ensuite, lorsque nous examinons la population indienne dans Facebook Insights, nous constatons que la répartition entre les sexes est de 76 % d’hommes et de 24 % de femmes ! Alors, qu’est-ce qui est exact ? Cela nous montre qu’il existe un déséquilibre entre le nombre d’hommes et de femmes sur les réseaux sociaux, malgré le nombre d’hommes et de femmes dans le pays. En termes simples, nous savons que l’ensemble de la population adulte du monde n’est pas sur les réseaux sociaux, nous savons donc que les données avec lesquelles nous travaillons ne seront représentatives que de la population des réseaux sociaux. Si nous voulons vraiment aller au fond des choses, nous devons nous rappeler que les gens peuvent créer plusieurs comptes sociaux, tels que des comptes privés ou des pages de fans, et que cela peut varier en fonction de la communauté en ligne que vous analysez.
S'assurer que les données privées ne sont pas accessibles
La différence entre les sources de données de Facebook et Twitter et ce qui est accessible au public, c'est que Facebook a laissé les vannes ouvertes dès le départ, donc tout était exposé et disponible, et une fois que tout était disponible, ils ne pouvaient pas le récupérer. Alors que Twitter, en construisant sa plateforme et sa base de données, avait déjà mis en place des processus de protection des données personnelles, ce qui signifie que l'accès qu'ils permettent aux entreprises, comme nous, d'utiliser est conforme dès le départ. La disponibilité d'une API de Twitter permet à Audiense de consulter toutes les données publiques disponibles et conformes via un flux direct. Grâce à l'utilisation de leurs API, comme Gnip, Twitter s'assure que lorsque des données sont supprimées ou qu'un compte devient privé, les données ne peuvent plus être consultées par les partenaires de données, ou bien ils avertissent les partenaires, comme nous, afin que nous puissions les supprimer dans le cadre de notre accès.
Sans une API complète, la porte est ouverte à d’autres méthodes, qu’il s’agisse d’un accès API réduit ou même de scraping de données. Il existe d’autres réseaux avec un niveau d’API inférieur, davantage pour vous permettre de comprendre vos propres analyses. Cela inclut Instagram via InfluencerDB. InfluencerDB était un outil de gestion de communauté d’influenceurs populaire, qui utilisait une combinaison de scraping et d’options d’inscription des utilisateurs pour pouvoir consulter leurs statistiques, mais a récemment annoncé sa fermeture.
Certains réseaux ne disposent pas d'API, mais sont néanmoins des fournisseurs de données. C'est le cas de TikTok, qui est ensuite récupéré et « autorisé » par des plateformes telles qu'Influencer Grid, Netfeedr et Pentos pour fournir des informations sur les influenceurs de TikTok et des analyses. La difficulté que TikTok pourrait rencontrer est que sa plateforme compte un grand nombre d'enfants qui utilisent, créent et partagent l'application. Il est donc de sa responsabilité de protéger ses utilisateurs et leurs données contre les pratiques nuisibles.
Tous les réseaux et plateformes mentionnés ci-dessus peuvent appliquer un apprentissage automatique supplémentaire pour mieux comprendre et analyser les données collectées. De même, certains fournisseurs peuvent procéder soit à un échantillonnage et une extrapolation importants, soit à une mise en correspondance et une extrapolation entre réseaux.
Audiense ne récupère pas de données
Ensuite, il y a le problème du scraping de données lui-même qui entraîne un biais de données. Audiense ne scrape pas les données. Nous avons accès à l'API Twitter, nous savons donc que toutes nos données sont aussi précises que les gens se présentent sur cette plateforme. Cependant, d'autres plateformes qui pondèrent leur source de données via des plateformes restreintes, telles que Facebook et Instagram, s'appuieront sur des données scrapées. ( Facebook a récemment poursuivi quelques entreprises pour le niveau auquel elles ont procédé ! ) Cela signifie qu'elles ne disposeront pas de 100 % des données et travailleront essentiellement avec des échantillons de petite taille et dilués, qu'elles vous fourniront ensuite, alors que vous supposez que cela créera une campagne précise et réussie. Étant donné que c'est tout ce qui est disponible, c'est peut-être la meilleure chance que vous ayez, mais les données étant biaisées, vos résultats pourraient toujours être inférieurs à vos attentes lorsqu'il s'agit d'analyser une audience.
Les données LinkedIn sont souvent recherchées par les plateformes d’intelligence d’audience et leurs utilisateurs. En tant que plateforme majeure pour le B2B, il est clair que les gens sont désireux d’obtenir toutes les informations possibles et que les entreprises veulent pouvoir dire qu’elles les fournissent. Un outil très apprécié qui tente de combler cette lacune est pipl.com, souvent utilisé pour aider à faire correspondre les identifiants aux profils LinkedIn. L’un des cas qui a été porté devant les tribunaux était le litige entre LinkedIn et une petite société d’analyse de données, hiQ. Le scraping de données, selon les circonstances, peut être légal ou illégal. Dans ce cas, les données que hiQ récupérait étaient des données publiques, donc en utilisant des robots automatisés, ils collectaient des données que tout le monde pouvait déjà voir. Phantombuster est un autre outil de scraping, souvent utilisé pour scraper les données de profil LinkedIn.
Les problèmes se posent lorsque la source de données elle-même, comme dans le cas de Cambridge Analytica et de Facebook, fournit plus de données publiques que ce que les utilisateurs pourraient raisonnablement imaginer. Lorsque vous envisagez d'utiliser une plateforme pour vos analyses, il se peut que celle-ci repousse ou non les limites de ce qui est éthique ou autorisé, et il vous incombera d'utiliser ses données en toute connaissance de cause. Il y a des implications à prendre en compte, comme l'exactitude et la fiabilité des données extraites, étant donné qu'elles seront basées sur des tailles d'échantillon, mais lorsque vous êtes limité par la disponibilité, il s'agit peut-être d'un compromis que vous devez admettre. Combien de temps durera l'accès aux données sociales, tel que nous le connaissons ?