electronics-1868708_1280

Othman Azzabi

Web

La disparition des pages Web : une analyse de la dégradation numérique

Une récente étude mettant en lumière la dégradation numérique, un phénomène marqué par la disparition progressive de pages Web sur Internet. Quelle est l’ampleur de cette érosion numérique?

Pages effacées et sites non fonctionnels

Chaque jour, de nouvelles pages Web voient le jour, mais un nombre surprenant de pages disparaît également. le 17 mai 2024, le Pew Research Center, un think tank américain, a publié une étude sur la dégradation numérique, révélant que 38 % des pages Web disponibles en 2013 sont désormais introuvables. ces disparitions ne se limitent pas aux pages de cette époque.

Pour cette étude, le Pew Research Center s’est appuyé sur les archives de Common Crawl, une organisation qui collecte des instantanés du Web. ils ont aléatoirement sélectionné un million de pages Web datant de 2013 à 2023.

Les résultats montrent qu’à partir d’octobre 2023, 25 % de ces pages n’étaient plus accessibles. parmi celles-ci, 16 % avaient été supprimées de pages encore actives, tandis que 9 % provenaient de sites devenus inactifs. un autre fait marquant : un cinquième des pages collectées en 2021 avaient disparu deux ans plus tard.

Liens de référence obsolètes

La dégradation numérique s’observe aussi au niveau des liens de référence. sur 500 000 pages de médias étudiées, provenant de 2 063 sites, 5 % contiennent aujourd’hui des liens invalides. de plus, 23 % des articles analysés comportent au moins un lien cassé. ce taux atteint 21 % pour les pages gouvernementales, avec une incidence particulièrement élevée au niveau municipal. sur Wikipédia, 50 000 pages contenant environ 11 millions de liens de référence ont été examinées : 11 % de ces liens sont désormais obsolètes, et 53 % contiennent au moins un lien inutilisable.

Le think tank a également utilisé l’interface de programmation d’application (API) du réseau social X pour analyser environ cinq millions de publications datant du 8 mars au 27 avril 2023. après la fin de la période d’observation (le 15 juin 2023), les auteurs ont découvert que 18 % de ces publications ne sont plus accessibles au public. toutefois, des disparités sont visibles concernant les langues dans lesquelles ont été écrites ces publications. les langues les plus touchées sont le turc (48 %) et l’arabe (42 %).