Fermer

mai 16, 2020

Les chercheurs ont analysé 10 000 sites Web – et oui, ils se ressemblent tous


Saviez-vous que nous avons une conférence en ligne sur la conception des produits à venir? SPRINT expliquera comment les concepteurs et les propriétaires de produits peuvent garder une longueur d'avance en ces temps sans précédent.

Au cours des dernières années, articles et billets de blog ont commencé à poser une version de la même question: " Pourquoi tous les sites Web commencent-ils à se ressembler? "

Ces messages soulignent généralement quelques éléments de conception courants, à partir de grandes images avec superposition texte, aux menus de hamburger qui sont ces trois lignes horizontales qui, lorsque vous cliquez dessus, révèlent une liste d'options de page parmi lesquelles choisir.

Mes collègues Bardia Doosti, David Crandall, Norman Su et moi-même étudions l'histoire du Web quand nous avons commencé à remarquer ces messages surgir. Cependant, aucun des auteurs n'avait fait aucune sorte d'étude empirique.

Nous avons décidé d'enquêter sur la réclamation pour voir s'il y avait une part de vérité dans l'idée que les sites Web commencent à se ressembler et, dans l'affirmative, explorer pourquoi cela s'est produit. Nous avons donc exécuté une série d'études d'exploration de données qui ont examiné près de 200 000 images sur 10 000 sites Web.

Comment mesurez-vous même la similitude?

Il est pratiquement impossible d'étudier la totalité d'Internet; il y a plus d'un milliard de sites Web avec plusieurs fois plus de pages Web. Puisqu'il n'y a pas de liste de tous les choix, effectuer un échantillon aléatoire d'Internet est hors de la table. Même si cela était possible, la plupart des gens ne voient régulièrement qu'une infime partie de ces sites Web, de sorte qu'un échantillon aléatoire peut même ne pas capturer Internet que la plupart des gens connaissent.

Nous avons fini par utiliser les sites Web de le Russell 1000 les principales entreprises américaines en termes de capitalisation boursière, qui, nous l'espérions, seraient représentatives des tendances de la conception de sites Web grand public. Nous avons également étudié deux autres ensembles de sites, l'un avec les 500 sites les plus trafiqués d'Alexa et l'autre avec les sites nominés pour les Webby Awards .

Parce que nous étions intéressés par les éléments visuels de ces sites Web, en tant que données, nous avons utilisé des images de leurs pages Web de les archives Internet qui conservent régulièrement des sites Web. Et comme nous voulions recueillir des données quantitatives comparant des millions de paires de sites Web, nous devions automatiser le processus d'analyse.

Pour ce faire, nous avons dû nous arranger sur une définition de «similitude» que nous pouvions mesurer automatiquement. Nous avons étudié à la fois des attributs spécifiques comme la couleur et la mise en page, ainsi que des attributs tirés automatiquement des données à l'aide de l'intelligence artificielle.

Pour les attributs de couleur et de mise en page, nous avons mesuré le nombre de modifications pixel par pixel que nous devions effectuer pour transformer le jeu de couleurs ou structure de page d'un site Web dans un autre. Pour les attributs générés par l'IA, nous avons formé un modèle d'apprentissage automatique pour classer les images en fonction du site Web dont elles sont issues et mesurer les attributs que le modèle a appris. Nos travaux antérieurs indiquent que cela fait un assez bon travail pour mesurer la similitude stylistique, mais il est très difficile pour les humains de comprendre sur quels attributs le modèle s'est concentré.

Comment Internet a-t-il changé?

Nous a constaté que dans les trois mesures – couleur, mise en page et attributs générés par l'IA – les différences moyennes entre les sites Web ont culminé entre 2008 et 2010, puis ont diminué entre 2010 et 2016. Les différences de mise en page ont diminué le plus, diminuant de plus de 30% pendant cette période. 19659018] Le graphique montre la similitude des sites Web des entreprises du Russell 1000. Des valeurs plus faibles signifient que les sites étudiés étaient plus similaires, en moyenne. Sam Goree, auteur fourni

Ces résultats confirment les soupçons des blogueurs en conception Web selon lesquels les sites Web sont de plus en plus similaires. Après avoir montré cette tendance, nous voulions étudier nos données pour voir quels types de changements spécifiques en étaient la cause.

Vous pourriez penser que ces sites se copient simplement le code les uns des autres, mais la similitude du code a en fait considérablement diminué au fil du temps. Cependant, l'utilisation des bibliothèques de logiciels a beaucoup augmenté.