Fermer

octobre 7, 2020

Développement pour le Web sémantique


À propos de l’auteur

Frederick O’Brien est un journaliste indépendant qui se conforme à la plupart des stéréotypes britanniques. Ses intérêts incluent la littérature américaine, le graphisme, le développement durable…
En savoir plus sur
Frédéric

Le rêve d'un Internet lisible par machine est aussi vieux que l'Internet lui-même, mais ce n'est que ces dernières années qu'il semble vraiment possible. Alors que les principaux sites Web progressent vers la collecte de données, le moment est idéal pour prendre le train en marche.

En juillet, la Wikimedia Foundation a annoncé Abstract Wikipedia une tentative de balisage des connaissances indépendantes de la langue . À bien des égards, c'est le point culminant de décennies d'accumulation, au cours desquelles le rêve d'un Web sémantique n'a jamais tout à fait décollé, mais jamais complètement disparu non plus.

En fait, le Web sémantique se développe, et comme il renouvelle sa mission que nous avons tous à gagner en intégrant un balisage sémantique dans nos sites Web, qu'il s'agisse de blogs personnels ou de géants des médias sociaux. Que vous vous souciez des expériences Web sophistiquées, du référencement ou de la lutte contre la tyrannie des monopoles du Web, le Web sémantique mérite notre attention.

Les avantages du développement pour le Web sémantique ne sont pas toujours immédiats ou visibles, mais chaque site qui le fait renforce les fondations d'un Internet ouvert, transparent et décentralisé.

Le Web sémantique

Qu'est-ce que le Web sémantique exactement? Il s'agit d'un site Web lisible par machine, fournissant par le biais de métadonnées «un cadre commun qui permet aux données d'être partagées et réutilisées au-delà des limites des applications, des entreprises et des communautés».

L'idée est aussi ancienne que le World Wide Web lui-même. Plus vieux, en fait. C'était un point central de la proposition de Tim Berners-Lee de 1989. Comme il l'a souligné, non seulement les documents doivent former des toiles, mais les données qu'ils contiennent devraient également:

 Schéma de la proposition de Tim Berners-Lee sur le World Wide Web au CERN
Un diagramme de Sir Proposition originale de Tim Berners-Lee pour le World Wide Web . ( Grand aperçu )

Le Web sémantique a parcouru une route rocheuse au cours des décennies qui ont suivi. Depuis le début du millénaire, il s'est transformé en de multiples concepts – données ouvertes, graphes de connaissances – tous signifiant effectivement la même chose: des réseaux de données.

Comme le résume le W3C c'est «une extension du Web actuel dans lequel l'information reçoit une signification bien définie, permettant aux ordinateurs et aux personnes de mieux travailler en coopération. »

 Aaron Swartz s'exprimant devant une foule
Aaron Swartz s'exprimant en 2012. Photographie de ] Daniel J. Sieradski . ( Grand aperçu )

L'idée a eu sa juste part de partisans. Le hacktiviste Internet Aaron Swartz a écrit un livre manuscrit sur le Web sémantique intitulé A Programmable Web . Il y écrit:

«Les documents ne peuvent pas vraiment être fusionnés, intégrés et interrogés; ils servent principalement d'instances isolées à visualiser et à examiner. Mais les données sont protéiformes, capables de prendre la forme qui convient le mieux à vos besoins. »

Pour diverses raisons, le Web sémantique n'a pas décollé de la même manière que le Web, bien qu'il rattrape son retard. Plusieurs balises ont tenté de s'emparer du manteau au fil des ans – RDFa, OWL et Schema pour n'en nommer que quelques-unes – bien qu'aucune ne soit devenue la norme, par exemple, HTML ou CSS. La barrière à l'entrée était trop élevée.

Cependant, le rêve du Web sémantique a perduré, et comme de plus en plus de sites l'intègrent dans leurs conceptions, il y a de plus en plus de raisons de rejoindre le parti. Plus il y a de sites à bord, plus le Web sémantique devient fort.

Lectures complémentaires

Knowledge Without Borders

Avant d'entrer dans les mauvaises herbes de comment concevoir pour le Web sémantique, c'est il vaut la peine d'approfondir un peu plus le pourquoi . Qu'importe que les données soient connectées? Les documents connectés ne sont-ils pas suffisants?

Il y a plusieurs raisons pour lesquelles le Web sémantique continue d'être poussé par ceux qui se soucient d'un Internet libre et ouvert. Comprendre ces raisons est essentiel au processus de mise en œuvre. Il ne devrait pas s'agir de «mangez vos légumes, utilisez un balisage sémantique». Le Web sémantique est une chose à laquelle il faut croire et auquel il faut faire partie.

Les avantages du Web sémantique comprennent:

  • Un Web plus riche et plus sophistiqué Expériences
  • Contournement des silos de contenu et des monopoles d'Internet
  • Amélioration de la lisibilité et du classement des moteurs de recherche
  • Démocratisation de l'information

La plupart d'entre eux peuvent être attribués à un principe fondamental du Web sémantique: un langage universel pour les données. Bien qu'Internet ait déjà fait des merveilles pour la communication internationale, il est indéniable que certains pays l'ont bien mieux que d'autres. Prenez les langues utilisées sur le Web par rapport aux langues utilisées dans le monde réel, par exemple. Les yeux d'aigle parmi vous pourront peut-être déceler un léger déséquilibre dans les données ci-dessous…

 Diagramme à barres comparant les langues parlées en ligne et dans la vie réelle
La proportion de langues utilisées sur le web font ne correspondent pas à ceux utilisés dans le monde réel . ( Grand aperçu )

L'utopie sans frontières du Web n'est pas aussi proche que cela pourrait le sembler à ceux d'entre nous dans la bulle anglophone. Est-ce quelque chose pour châtier quelqu'un? Pas nécessairement, mais c'est quelque chose à affronter. Cela souligne l'importance du balisage qui comble ces lacunes. En enrichissant les données du Web, nous soulageons ses langues.

C'est le nœud du récent Résumé Wikipedia qui tentera de découpler les articles de la langue dans laquelle ils sont écrits. Katherine Maher, directrice exécutive de Wikimedia, écrit: «En utilisant du code, les bénévoles pourront traduire ces« articles »de résumé dans leur propre langue. En cas de succès, cela pourrait permettre à chacun de lire sur n'importe quel sujet de Wikidata dans sa propre langue. »

Résumé Le créateur de Wikipedia, Denny Vrandečić, est un défenseur du Web sémantique depuis des années, reconnaissant son potentiel pour débloquer un potentiel inexploité en ligne. Faire tomber les barrières nationales est essentiel à ce processus.

«Quelle que soit la langue dans laquelle vous publiez votre contenu, vous allez manquer d'inclure la grande majorité des gens dans le monde. Le Web nous a donné cette merveilleuse opportunité d'avoir une portée mondiale – mais en nous appuyant sur une seule langue ou un petit ensemble de langues, nous gaspillons cette opportunité. Bien que l'objectif le plus important soit de créer un bon contenu en premier lieu, vous invitez davantage de personnes à participer au développement d'un meilleur contenu en étant indépendant de la langue. Cela vous aide à réduire les barrières à la contribution et à la consommation, et cela permet à beaucoup plus de gens de bénéficier de cet effort. »

– Denny Vrandečić, créateur de Wikipédia abstrait

La visualisation de données en est un bon exemple. pendant la pandémie COVID-19. Le virus a fait des ravages indescriptibles dans le monde entier, mais il a également été un moment propice pour les réseaux de données ouverts, permettant à de superbes applications Web, des rapports et plus encore d'être répandus sur le Web.

 Page d'accueil de ncovid2019.live
Le Le tableau de bord ncovid2019.live a été réalisé par le lycéen américain Avi Schiffman et extrait des données de l'OMS, du CDC et du COV19. ( Grand aperçu )

Et bien sûr, lorsque les données sont transparentes et facilement accessibles, cela facilite l'identification des anomalies… ou de la pure tromperie. Un accès public généralisé au type d'informations ci-dessus serait impensable il y a encore 20 ans. Maintenant, nous nous y attendons et sentons un rat quand il nous est refusé. Les données sont puissantes et si nous le voulons, elles peuvent être utilisées pour de bon.

De même, nous sortir des silos de contenu – une caractéristique de l'expérience Web moderne – enlève le pouvoir aux monopoles Web comme Google , Facebook et Twitter. Nous sommes tellement habitués aux plates-formes tierces de déchiffrer et de présenter des informations que nous oublions qu'elles ne sont pas strictement nécessaires.

«Si nous avions des formats partagés, des protocoles partagés, nous pourrions encore nous retrouver avec certains fournisseurs jouant un rôle important dans certains marchés – pensez à Gmail pour le courrier électronique – mais tout le monde est libre de passer à un autre fournisseur, et le marché reste compétitif. »

– Denny Vrandečić, créateur de Wikipédia abstrait

Le Web sémantique est sans silo; il est libre, ouvert et abstrait, permettant une communication entre différents langages et plates-formes qui serait autrement beaucoup plus difficile.

Contenu en ligne de saisie de données

La conception pour le Web sémantique se résume à un contenu en ligne de saisie de données. à votre contenu et voir ce qui peut (et devrait) être résumé. Qu'est-ce que cela signifie en termes pratiques, au-delà du fait de convenir vaguement que cela vaut la peine de le faire? Cela dépend:

  1. Si vous démarrez un projet à partir de rien, incorporez les considérations du Web sémantique dans ce que vous faites. Au fur et à mesure qu'un site Web prend forme, intégrez un balisage sémantique dans son ADN.
  2. Si vous mettez à jour ou reconstruisez un projet, évaluez ce qui pourrait être tissé dans le Web sémantique qui ne l'est pas actuellement, puis implémentez-le.

Les deux cas sont essentiellement des données. -fying contenu. Dans cette section, nous allons passer en revue quelques exemples d'abstraction de données et comment elle peut rendre le contenu meilleur, plus intelligent et plus largement disponible.

Abstrait d'informations

Concevoir et développer pour le Web sémantique signifie regarder le contenu en ligne avec votre chapeau de données. La plupart d'entre nous vivent le Web comme une série de documents ou de pages de connexion; ce que vous voulez faire avec le Web sémantique, ce sont des informations de connexion. Cela signifie évaluer votre contenu pour les points de données, puis ajuster la conception en fonction de ce que vous trouvez.

Le défenseur du Web sémantique James Hendler décrit particulièrement bien ce processus avec son DIVE ethos . ( DIVE dans les données, hein? Hein?). Il se décompose comme suit:

  • Discover
    Trouvez des ensembles de données et / ou du contenu (y compris en dehors de votre propre organisation).
  • Integrate
    Liez les relations à l'aide d'étiquettes significatives.
  • Valider
    Fournir des entrées aux systèmes de modélisation et de simulation.
  • Explorer
    Développer des approches pour transformer les données en connaissances exploitables.

Développer pour le Web sémantique consiste en grande partie à avoir cet œil d'oiseau vue des choses que vous faites et de la manière dont elles alimentent potentiellement des expériences Web infiniment plus riches. Comme le dit Hendler, la connaissance exploitable est l’objectif.

Cela peut vraiment s’appliquer à presque tous les types de contenu Web, mais commençons par un exemple courant: recettes . Supposons que vous gériez un blog de cuisine, avec de nouvelles recettes tous les jeudis. Si vous êtes français et publiez une recette de soufflé éclatante sur votre blog personnel en texte brut, cela n'est utile que pour ceux qui savent lire le français.

Cependant, en mettant en œuvre un balisage sémantique, le blog peut être transformé en données de recette lisibles par machine ensemble. La syntaxe existe pour les termes de cuisson à résumer. Schema, par exemple, qui peut fonctionner avec Microdata, RDFa ou JSON-LD, a un balisage comprenant:

  • prepTime
  • cookTime
  • recetteYield
  • recetteIngredient
  • estiméCost
  • nutrition, se décomposant en calories and fatContent
  • appropriéForDiet.

Je pourrais continuer. La gamme complète d'options, avec des exemples, peut être consultée sur Schema.org . En les ajoutant au format de publication, le format de la recette n'a pas besoin de changer du tout – vous mettez simplement les informations en termes que les ordinateurs peuvent comprendre.

 Capture d'écran d'une recette de tarte au cottage BBC
En convertissant le contenu éditorial en données, les recettes BBC augmentent massivement leur utilité potentielle. ( Cliquez pour un grand aperçu )

Par exemple, tout ce qui est surligné en bleu dans la recette BBC ci-dessus a également reçu un balisage sémantique – du temps de cuisson au contenu nutritionnel. Vous pouvez voir ce qui se passe sous le capot en saisissant l'URL de la recette dans le Rich Results Test de Google. Notez la fonctionnalité «Ajouter à la liste de courses», un exemple de connexion rendue possible par l'implémentation du Web sémantique. Un bon contenu devient des données utilisables.

La plupart d'entre nous ont croisé ce type de sophistication via les résultats de recherche, mais les applications sont beaucoup plus larges que cela. Le balisage sémantique des recettes facilite la recherche et l'utilisation des sites Web par les assistants à domicile. Les ingrédients répertoriés peuvent être commandés au supermarché local. Les recettes peuvent être filtrées de toutes sortes de manières – pour les régimes, les allergies, la religion, le coût, etc. Ou disons que vous aviez un nombre limité d’ingrédients dans la maison. Avec une base de données, vous pouvez entrer ces ingrédients et voir quelles recettes conviennent à la facture.

L'éventail des possibilités est vraiment illimité. Comme l'a dit Swartz, les données sont protéiformes. Une fois que vous l'avez, vous pouvez l'utiliser de toutes sortes de façons étranges et merveilleuses. Cette pièce ne parle pas de ces façons étranges et merveilleuses mais plutôt de les rendre possibles. La conception pour le Web sémantique rend la conception ultérieure infiniment plus riche.

Voici un exemple plus personnel pour montrer ce que je veux dire. Un couple d'amis et moi organisons un petit webzine musical comme passe-temps. Bien que nous publions l’article ou l’interview étrange, le «principal événement» est notre critique hebdomadaire d’albums, dans laquelle nous attribuons à trois une partition, choisissons les morceaux préférés et rédigions des résumés. Cela fait plus de cinq ans que nous y travaillons, ce qui signifie que nous avons près de 250 avis, ce qui signifie énormément de données potentielles. Nous n'avions pas réalisé à quel point nous n'avions pas commencé à refondre le site.

J'en ai parlé dans un article sur l'intégration de données structurées dans le processus de conception . En disséquant nos critiques, nous avons réalisé qu'elles étaient pleines d'informations qui pouvaient recevoir un balisage sémantique. Artistes, noms d'album, illustrations, date de sortie, partitions individuelles, scores globaux, type de sortie, etc. De plus – et c’est là que ça devient vraiment passionnant – nous avons réalisé que nous pouvions nous connecter à une base de données existante: MusicBrainz.

Cette approche bidirectionnelle est au cœur du Web sémantique. Lorsque notre site Web de musique sera relancé, ce sera sa propre source de données ouverte avec des milliers de points de données uniques. La connexion à une base de données musicale existante donnera à nos propres données plus de contexte – et de potentiel. Des milliers de points de données deviennent des dizaines de milliers de points de données, peut-être plus.

 Graphique montrant comment le balisage sémantique se connecte sur une critique d'album
Avec un simple balisage sémantique, des pages Web apparemment inoffensives peuvent devenir le centre d'un énorme réseau d'information . ( Grand aperçu )

Le graphique ci-dessus ne fait qu'effleurer la surface de la quantité d'informations qui seront connectées aux pages d'avis. Le contenu est le même qu'avant, mais maintenant il est connecté à un écosystème de métadonnées – le Giant Global Graph comme Berners-Lee l'appelait autrefois.

Développer pour le Web sémantique signifie identifier votre propres données, annotez-les, puis déterminez comment elles se connectent à d'autres données. Parce que c'est le cas. C'est toujours le cas. Et ce processus est la façon dont ceci…

 Illustration montrant comment les données sémantiques se connectent à travers les pages Web
( Grand aperçu )

… dans le temps devient ceci…

 Le Cloud de données ouvertes lié [19659012] <a href= The Linked Open Data Cloud une visualisation constamment mise à jour de l'état des données liées en ligne. ( Grand aperçu )

La deuxième image est The Linked Open Data Cloud, une visualisation constamment mise à jour des données connectées du Web. Cette ruche rouge de connexions, ce sont les sciences; le reste a du chemin à parcourir. C’est là que nous intervenons.

Ressources utiles du Web sémantique

Brancher

L’idéal du Web sémantique est la connexion. Créez des données, partagez des données, demandez des données. Faites partie d'un écosystème d'information. Lorsque vous créez des données originales, c'est parfait. Partagez-le. Lorsque des données existent déjà et que vous aimeriez les utiliser, tirez-les.

Voici juste quelques-unes des ressources de données disponibles:

En effet, là où des bases de données comme celles-ci existent, j'irais jusqu'à dire que la bonne chose à faire serait de les mettre à jour là où ils manquent d'informations. Pourquoi le garder pour vous? Devenez un contributeur, un défenseur du Web sémantique.

Implémentation

En ce qui concerne la construction du Web sémantique dans vos sites, je ne préconise certainement pas le balisage manuel, doc-par-doc. Qui a le temps pour ça? Le plus souvent, la solution consiste à standardiser un format et à créer des modèles pour celui-ci.

Les modèles sont ici la grande opportunité. Combien de personnes ont vraiment le temps de baliser toutes ces informations manuellement? Cependant, si vous avez des entrées personnalisées, vous obtenez le meilleur des deux mondes. Le contenu peut être rempli d'informations conviviales et les informations existent sous forme de données prêtes à servir quel que soit le but qui vous vient à l'esprit.

Prenons, par exemple, un générateur de site statique comme Eleventy qui bénéficie d'un un peu d'amour de la communauté des développeurs ces derniers temps. Vous écrivez un article, l'exécutez dans un modèle et vous êtes en or. Alors pourquoi ne pas incorporer un balisage sémantique dans le modèle lui-même?

Comme Eleventy, la nouvelle version de notre site Webzine de musique utilise Markdown pour ses publications. Bien que nous ayons les mêmes anciens articles de texte que nous avons toujours fait, chaque révision comprend désormais également les entrées de métadonnées suivantes, qui sont ensuite extraites dans le modèle:

 Entrées de métadonnées dans un document Markdown
L'intégration des entrées de métadonnées dans les modèles permet au contenu de être converti en données, et ajoute tout au plus quelques minutes à tout téléchargement de publication. ( Grand aperçu )

Avec les détails de l'auteur dans le corps du message et quelques informations génériques sur le site Web, cela se traduit ensuite par le balisage sémantique suivant:

Là où auparavant il n'y avait que du texte, sur chaque page de revue, il y aura désormais également des versions lisibles par machine de ce que les lecteurs voient lorsqu'ils visitent le site . Les mots sont toujours là, le contenu a à peine changé – il vient d’être fouillé. Des résultats de recherche riches aux pages de statistiques d'examen interactives, cela augmente considérablement ce qui est possible. La route à parcourir est large et ouverte. Cela nous donne également un enjeu dans l’avenir de MusicBrainz. En connectant leurs données à nos propres données, nous voulons à notre tour le voir bien fonctionner, et ferons notre part pour nous assurer que c'est le cas.

Le balisage sémantique approprié dépend de la nature d'un site Web, mais il y a de fortes chances qu'il existe. Commencez par les entrées évidentes (date, auteur, type de contenu, etc.) et progressez dans les mauvaises herbes du contenu. La première étape pourrait être aussi simple qu'une hCard (une sorte de carte d'identité numérique) pour votre site Web personnel. Imprimez des captures d'écran des pages et commencez à annoter. Vous serez étonné de la quantité de contenu pouvant être téléchargé.

Au-delà de l’imagination

La conception et le développement pour le Web sémantique sont une pratique qui remonte aux idéaux fondateurs d’Internet. Que vous appréciiez la visualisation de données belle et informative, que vous souhaitiez des résultats de recherche plus sophistiqués, que vous souhaitiez supprimer le pouvoir des monopoles du Web ou simplement croire en une information libre et ouverte, le Web sémantique est votre allié.

Aaron Swartz a fermé son manuscrit par un appel. d'espérer:

«Le Web sémantique est basé sur le pari, un pari que donner au monde des outils pour collaborer et communiquer facilement conduira à des possibilités si merveilleuses que nous pouvons à peine les imaginer maintenant.»

Résumé Wikipedia Denny Vrandečić fait écho à ces sentiments aujourd'hui, en disant:

«Il existe un besoin d'une infrastructure Web qui facilitera l'interopérabilité entre les services, ce qui nécessite un ensemble commun de normes pour la représentation des données et des protocoles communs entre les fournisseurs.»

Le Web sémantique a boitait assez longtemps pour qu'il soit clair qu'un langage de solution miracle n'apparaîtra probablement pas, mais il y a suffisamment de coexistence pacifique maintenant pour que le rêve fondateur de Berners-Lee soit une réalité lity pour la plupart des sites Web. Chacun de nous peut être un avocat dans son propre quartier.

Soyez meilleur, exigez mieux

Comme l'a dit Tim Berners-Lee, le Web sémantique est autant une culture qu'un obstacle technique. Dans une conférence TED de 2009 il l'a bien résumé: créer des données liées, des données liées à la demande . C’est plus vrai que jamais. Le World Wide Web est aussi ouvert et connecté et aussi bon que nous le forçons à l'être. Chaque fois que vous créez quelque chose en ligne, demandez-vous: "Comment cela peut-il se connecter au Web sémantique?" Les réponses ajouteront de nouvelles dimensions aux choses que nous créons et créeront de nouvelles possibilités incroyablement merveilleuses pour les années à venir.

 Smashing Editorial (ra, yk, il)






Source link