samedi 15 mars 2008

Scoop Adscriptor - Bloc contre bloc, l'internaute au centre...


Pourquoi Microsoft ne renoncera jamais à Yahoo!, et pourquoi Google craint-il cette fusion ?

* * *

1. Background
2. « Data transmission events » : les événements qui déclenchent la collecte de données "privées" sur les internautes...
3. Analyse de l'étude New York Times / comScore
- Le scoop d'Adscriptor

4. Analyse des écarts chiffres/tableaux
5. La part de DoubleClick dans Google / La part de Yahoo! dans Microsoft
6. Comparaison Microsoft + Yahoo! / Google + Doubleclick
7. Conclusion
* * *

1. Background
Facebook à part, mon scénario de guerre froide est en passe de se réaliser. Depuis près de deux ans, je n'ai perdu aucune occasion d'évoquer l'acquisition de Yahoo! par Microsoft, y compris quand personne d'autre n'en parlait, notamment en faisant remarquer dans une analyse de GYM :
Google « caracole en tête, les deux autres suivent, tant bien que mal. Une troisième place qui n'est certes pas dans la nature de Microsoft. »
Chose explicitement confirmée par Microsoft, quelques mois plus tard en programmant le plan "10, 20, 30, 40" :
  1. 10% des pages vues, contre 6% actuellement ;
  2. 20% du temps passé par l'internaute sur les sites de Microsoft, contre 17% actuellement ;
  3. 30% des parts de marché dans la recherche, contre moins de 10% actuellement ;
  4. 40% des parts de marché dans la publicité en ligne, contre 6% actuellement.
Ce que je commentais de la façon suivante :
...si les 2 premiers points ne semblent pas irréalisables, les 2 derniers posent problème. Un gros problème !
Côté publicité, je ne sais pas si l'acquisition d'aQuantive ou le partenariat avec Facebook vont suffire à M$ pour réaliser ses ambitions, à savoir encaisser 40 cents sur chaque dollar de pub dépensé en ligne, mais à la lumière de certaines analyses, c'est pas gagné d'avance...
Quant aux 30% des parts dans la recherche sur Internet, en l'état actuel des choses, ça paraît franchement hors de portée pour Microsoft. À moins de racheter Yahoo!...
Nous y sommes ! Or nous allons voir combien l'acquisition de Yahoo! est cruciale pour Microsoft, moins dans la recherche que dans la publicité, et moins encore dans la publicité que dans le ciblage comportemental.
J'ai déjà tenté d'analyser ce qu'est le ciblage comportemental, sommairement pour Facebook, et de manière beaucoup plus détaillée pour Google : dans la longue analyse que j'ai consacré en 2006 à la stratégie de Google (qui n'a pas bougé d'un pouce), notamment dans la description de l'approche 100% fichés, où je concluais ainsi :
Par conséquent dans cette logique, à terme plus ou moins rapproché, la prochaine étape consistera très probablement à s’éloigner de la catégorisation des annonces pour passer à leur individualisation. En bref :
fini les AdSenses ciblés, vive les AdSenses personnalisés !

Une (r)évolution qui me semble inéluctable, vu les ambitions affichées par Google : à partir du moment où la firme possède une énorme quantité d’informations sur vous et peut en extraire un profilage systématique et significatif, qu’est-ce qui l'empêchera de vous proposer des AdSenses en fonction de vos préférences ?
Ensuite dans Google, profileur en série, où j'essaie d'expliquer pourquoi sur Internet, la gratuité n'est pas gratuite, mais que sa contrepartie est la collecte de données personnelles, avec comme pendant "naturel", le profilage...
Ceci dit, jusqu'à aujourd'hui, toutes ces analyses n'étaient que des conjectures, vraisemblables certes, mais sans "données réelles" pour les étayer. Or maintenant nous disposons d'un échantillon significatif de ces fameuses données, grâce à une étude commanditée à comScore par le New York Times, dont Louise Story nous raconte ... l'histoire ! [Début]
* * *

2. « Data transmission events » : les événements qui déclenchent la collecte de données "privées" sur les internautes...
Permettez-moi tout d'abord de féliciter les équipes qui ont voulu, conçu et mené à bien cette étude, cruciale pour comprendre les véritables enjeux - économiques, mais surtout de pouvoir - qui se cachent (pas tant que ça quand même) derrière les grandes manœuvres auxquelles on assiste en ce moment, et ce n'est que le début...
Dans la suite du billet, je ne parlerai que d'événements pour abréger, mais à chaque fois il faudra bien comprendre qu'il s'agit d'événements déclenchant la collecte de données "privées" sur les usages de l'internaute. Citons, à titre d'exemple, les données collectées :
  • lors des recherches de l'internaute ;
  • lors de ses achats ;
  • lorsqu'il clique sur une pub ;
  • lorsqu'il s'enregistre sur un service ;
  • grâce aux cookies, etc.
Tout ça permettant à qui les possède en bout de chaîne d'obtenir des informations précises sur nos habitudes, nos intérêts, et ainsi de suite. Le graal des publicitaires et des marketers de tout poil, en quelque sorte !
On pourra toujours s'interroger pour savoir si ces données sont collectées à notre insu ou non, bien que je me demande franchement quel internaute naviguant régulièrement sur Internet ne serait pas encore au courant !?
Par ailleurs, menée aux États-Unis en décembre 2007 sur le trafic imputable aux quinze plus gros acteurs américains de l'Internet, je ne doute pas que les résultats de l’étude puissent être extrapolés au Web mondial, puisque de toute façon la tendance est irréversible, autant le savoir...
Mais ce que je vois de véritablement nouveau dans cette étude quantitative, ce sont les proportions. Énormes comme dirait le Chauffeur... Inouïes, et qui nous réservent bien des surprises. Vous êtes prêts ? Accrochez-vous ! [Début]
* * *

3. Analyse de l'étude New York Times / comScore
- Le scoop d'Adscriptor

Louise Story nous fournit deux sources chiffrées de l'étude : l'une sur l'article du New York Times, l'autre sur son blog. Or la première chose qui m'a sauté aux yeux, c'est que ces deux sources, fournies par la même personne, divergent !
Sur son blog, une source renvoie au tableau suivant : .../images/2008/03/04/technology/Dec_accesspoints.jpg, où l'on voit clairement que Google a collecté globalement sur le mois de décembre 2007 (uniquement aux US), 1 645 événements par personne !

C'est sans équivoque :

Or dans la source suivante, modifiée, le "score" de Google, à critères identiques, est tombé à seulement 578 événements par personne, soit 1 067 de moins !

Tous les autres chiffres sont inchangés :

Donc la question est la suivante :
Pourquoi en moins d'une semaine (entre le 4 et le 10 mars), le nombre d'événements imputables à Google est-il tombé à 578, chiffre mentionné dans l'article original et repris par les médias du monde entier ?
La réponse coule de source : parce qu'au 10 mars, jour de la publication de l'article sur NYT, Google ne possédait pas encore formellement DoubleClick, puisque l'aval de l'UE n'est arrivé que ... le lendemain !
Donc de toute évidence, la différence nous indique clairement quelle est la part de DoubleClick dans Google !
Mais là n'est pas la seule surprise. Car de même que les chiffres de l'article publié le 10 mars font l'impasse sur DoubleClick, ils ne prennent pas non plus en compte les 180 milliards de pubs servies par Atlas (Microsoft), comme l'indique Louise Story sur son blog (Atlas serves 6 billion ads per day...).
Et, surtout, les statistiques mentionnées dans NYT et reprises en boucle partout sur le Net ne correspondent pas aux chiffres des tableaux. [Début]
* * *

4. Analyse des écarts chiffres/tableaux
Voici d'abord les principaux chiffres fournis :
  • sur le mois, Yahoo! engrange 2 520 données uniques par visiteur et se classe en tête loin devant ses concurrents, Google arrivant en quatrième position (derrière MySpace et Fox Interactive Media) avec "seulement" 578 données ;
  • 110 milliards d’événements uniquement sur les propriétés de Yahoo! (hors régie publicitaire étendue), soit 811 infos par utilisateur ;
  • 336 milliards d’événements de données collectées uniquement sur les sites propriétaires (hors régie publicitaire étendue) des 5 premiers, que sont Yahoo!, Google, Microsoft, AOL et MySpace.
Or aucun de ces chiffres ne résiste à l'examen détaillé des tableaux !
Que j'ai réunis en un seul pour les besoins de mon exposé :

  1. la ligne 2 indique la version du 4 mars incluant DoubleClick ;
  2. la ligne 3, surlignée en jaune, correspond à la version publiée sur NYT le 10 mars ;
  3. sur les lignes 2 et 3, la partie de droite correspondant à ligne 2 non surlignée / ligne 3 surlignée indique les chiffres qui n'ont pas changé entre les deux versions ;
  4. ceux qui ont changé en ligne 2 sont graissés et correspondent à l'écart DoubleClick / Google ;
  5. la colonne 3 surlignée a été ajoutée dans la version du 10 mars.

Analyse
  • Le chiffre 2 520 est donné en divisant la valeur en colonne 2 (Événements de collecte des données sur les sites Web + événements potentiels de collecte des données sur les réseaux publicitaires) par celle en colonne 9 (Total de visiteurs uniques), soit 399 544 000 000 / 158 573 000 = 2520.
  • Logiquement, les 811 infos par utilisateur annoncées devraient donc résulter de la division (valeur colonne 3) par (valeur colonne 9), mais il n'en est rien : 110 767 000 000 / 158 573 000 = 699, soit 112 de moins. D'où sort donc cette valeur de 811 ? Selon ValleyWag, ce serait le nombre de fois où Yahoo aura été informé du code postal de chaque internaute américain visitant ses sites en décembre 2007.
  • Idem pour les 336 milliards, censés être la somme des lignes 1, 3, 4, 6 et 8 en colonne 3. Résultat réel : 327 598 000 000, soit 8 402 000 000 événements de moins que les 336 milliards annoncés !
Donc, globalement, ça ne remet pas en cause le travail considérable fourni pour réaliser l'étude, mais je m'étonne que des résultats aussi fantaisistes aient fait le tour de l'Internet sans que personne, à ma connaissance, n'ait constaté qu'ils étaient pour le moins bizarres. Car soit ils sont vrais et les tableaux sont faux, soit les tableaux sont vrais et les chiffres sont faux. De deux choses, l'une !
Encore un cas d'école pour Gilles Bruno. Et non, l'asymétrie de la crédibilité dans l'information n'est pas morte... [Début]
* * *

5. La part de DoubleClick dans Google / La part de Yahoo! dans Microsoft
Donc, nous en arrivons maintenant à l'analyse des parts respectives de DoubleClick dans Google et de Yahoo! dans Microsoft.
A. La part de DoubleClick dans Google représente pour Mountain View un gain supérieur à 64,8%, déterminant dans les affichages publicitaires et les données collectées en conséquence :
  • 168,364 milliards d’événements de données collectées en + sur le réseau global (sites propriétaires + régie publicitaire étendue) (soit 64,89% pour DoubleClick, contre 35,11% à Google seul) ;
  • 1 067 événements de données collectées en + par personne (soit 64,86% pour DoubleClick, contre 35,14% à Google seul).
B. La part de Yahoo! dans Microsoft est encore plus décisive, puisqu’elle représente pour Redmond un gain allant des 3/4 dans les données collectées à près de 100% dans les affichages publicitaires !
  • 348,204 milliards d’événements de données collectées en + sur le réseau global (sites propriétaires + régie publicitaire étendue) (soit 88,61% pour Yahoo!, contre 11,39% à Microsoft seul) ;
  • dont 283,426 milliards d’affichages plubicitaires en + en régie étendue (soit 98,18% pour Yahoo!, contre 1,82% à Microsoft seul) ;
  • 2 165 événements de données collectées en + par personne (soit 75,3% pour pour Yahoo!, contre 24,7% à Microsoft seul).
Pas besoin de longs commentaires pour saisir combien sont substantiels les avantages, autant pour Google que pour Microsoft. [Début]
* * *

6. Comparaison Microsoft + Yahoo! / Google + Doubleclick

C'est là que les athéniens s'atteignirent !
À part la recherche et la vidéo, où l’avantage de Google est net avec respectivement +53,58% et +84,29%, aux États-Unis, toutes les moyennes mensuelles sont en faveur du conglomérat Microsoft + Yahoo!
  1. +42,46% d’événements de collecte données sur le réseau (sites propriétaires + régie publicitaire étendue) (avant fusion) ;
  2. +42,78% d’événements de collecte données par personne ;
  3. +96,08% d’affichage d’annonces sur les sites ;
  4. +54,19% en total de pages vues ;
  5. +24,7% d’impressions en régie publicitaire (hors sites propriétaires) ;
  6. +48% de visiteurs uniques ;
  7. + Atlas...
Plus le reste : car s'il est vrai que l'infériorité de Google dans l'affichage publicitaire peut être compensée par sa domination dans la recherche et la vidéo, Microsoft + Yahoo! ont déjà une forte position dominante dans le Webmail et l'IM, sans compter les parts de marché plus que majoritaires de Microsoft dans l'informatique "desktop", les suites bureautiques et la navigation sur le Web (IE 8 à venir).
Vous comprendrez mieux maintenant pourquoi Google s'inquiète d'une part, et pourquoi Microsoft ne renoncera jamais à Yahoo! de l'autre.
Et ce même si Google resterait le plus grand profileur post-fusion, puisqu'en fait il ne s'agit plus d'ajouter 2 520 + 355 (soit un total de 2 875 événements séparés avant fusion), mais de diviser la valeur de la colonne 2 (450 884 000 000) par celle de la colonne 9 (303 248 000), soit 1 487 événements, 158 de moins que Google. Donc, bien que tous ces événements ne soient ni utilisés ni utilisables, il restera toujours de quoi faire pour connaître les petits secrets de l'internaute... [Début]
* * *

7. Conclusion
En revanche moi je m'inquiète pour l'Europe ! Tout ce qui précède se joue dans le pré carré des américains, de même que la gouvernance de l'Internet, les noms de domaines, le cloud computing et bientôt l'Internet des choses, etc.
Donc souhaitons au moins bon vent à Quaero et Theseus dans le Web sémantique, dont l'inventeur du Web tout court, Tim Berners-Lee, nous assure qu'une nouvelle génération de produits pourrait détrôner Google.
Ne reste qu'un petit problème, à mon avis : tous les services innovants dans le Web sémantique, de Twine à Powerset, et la recherche (cf. Searchme), sont encore et toujours ... américains !
Il serait peut-être temps de créer des alternatives, ou non ? Dites-moi si je me trompe. :-) [Début]

Partager sur Facebook
, , , , , , , , , , ,

4 commentaires:

TOMHTML a dit…

Il y a une chose que je ne comprends pas : si Google connait le code postal d'un visiteur, et DoubleClick le connait aussi, alors ça fait en tout et pour tout UNE information, pas deux. Car dire "Je connais ton code postal et aussi ton code postal", jusqu'à preuve du contraire ça fait toujours une seule information, pas deux.
C'est donc cette logique de bête addition des données que je ne parviens pas à comprendre.

Jean-Marie Le Ray a dit…

Tom,

Exact. Si Yahoo! lit 811 fois dans le mois ton code postal, on peut considérer que 811 événements sur 2520 ne se traduisent que par une seule information.
Mais seuls les intéressés pourront affiner l'analyse à ce niveau.
Il n'empêche que ça fait toujours beaucoup - beaucoup trop - de données, sans compter que celles qui sont fournies volontairement par l'utilisateur lorsqu'il s'enregistre à un service ne sont pas prises en compte dans l'étude...
Et ne parlons pas des réseaux sociaux !
Donc on peut trouver tous les défauts qu'on veut à cette étude, mais je suis convaincu qu'elle a le mérite d'exister et de donner une base de réflexion.
Car à ma connaissance, à ce jour, c'est la seule de ce genre, et même grossière, ça donne déjà une idée de ce qui nous attend...

J-M

TOMHTML a dit…

Recueillir des informations à quand même du bon pour les deux parties : à l'annonceur car c'est bien ciblé, et à l'internaute car on ne lui diffuse pas des "pubs pour la pâté pour chien s'il n'a pas de chien". Quitte à être submergé de pub, autant qu'elle soit un tant soit peu intéressante, non ? ;-) Alors si recueillir de telles données peut être utile dans ce but, pour ma part je n'y vois pas de mal.

Jean-Marie Le Ray a dit…

Tom,

Il y en a qui vont plus loin que toi :-)

J-M