Commons:Données lisibles par une machine

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Machine-readable data and the translation is 80% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Machine-readable data and have to be approved by a translation administrator.

Shortcut: COM:MRD

Other languages:
العربية • ‎dansk • ‎Deutsch • ‎English • ‎Esperanto • ‎español • ‎français • ‎magyar • ‎italiano • ‎日本語 • ‎македонски • ‎polski • ‎português • ‎русский • ‎українська • ‎中文

Sur Wikimedia Commons, de nombreuses métadonnées (incluant la licence et l'auteur) ne sont pas lisibles par une machine. Il existe un module d'API, iiprop=extmetadata, qui peut être utilisé pour extraire certaines valeurs (exemple), mais comme les informations sont entrées comme texte libre dans la page de description du fichier, le résultat n'est pas parfait. Il est envisagé de transférer les métadonnées dans la base de données[1], mais il s'agit là d'un projet à long terme.

Pour combler ce manque et pour faciliter la transition à venir vers des données structurées, Wikimedia Commons utilise une série de modèles qui sont lisibles par une machine d'une certaine façon, via les balises HTML. Certains scripts utilisent déjà cette possibilité. Il est important de noter que ces données sont disponibles pour tous les wikis qui utilisent Wikimedia Commons, où elles peuvent être lues dans le code HTML de la page Fichier: tout comme les autres données locales.

Données lisibles par une machine

Données ajoutée par des modèles de type infobox

Voici différents éléments HTML des modèles de description qui permettent de lire les informations:

  • Les Microformat qui suivent les standards et peuvent être lu par des parser déjà existants.
  • Les attributs id (identifiants) des balises <td> sont des valeurs personnalisées qui permettent de compléter ces balises, ils doivent pouvoir être lus par des outils adaptés. La plupart des boîtes d'information les plus courantes ont deux colonnes : la première contient les noms des champs et la seconde contient les valeurs associées à ces champs
    • Traditionnellement, les attributs id des balises <td> étaient utilisés pour marquer l'appel au nom d'un champ dans l première colonne d'une ligne. Pour obtenir la valeur associée, il faut récupérer le contenu de la cellule <td> suivante, située dans la seconde colonne.
    • Les modèles {{Creator}} et {{Institution}} sont une structure plus compliquée, ce qui fait que les cellules contenant les données sont marquées par des balise avec des attributs utilisant une couleur de fond magenta.
Modèle Nom de champ Description <td> id attribute Microformat Commentaire
{{Information}} description description de fichier fileinfotpl_desc hProduct.description. Often contains multiple languages annotated with {{lang}}.
{{Information}} date date de création de l’œuvre fileinfotpl_date hCalendar vevent.dtstart Sometimes additionally, or only, contains publication date. These two dates have different meanings for copyright. When used {{Date context}} can indicate the difference.microformat ajouté par le modèle {{date}}
{{Information}} source source du fichier fileinfotpl_src Often contains entire tables. We have no good way to deal with this source templates yet. Source templates often have references to catalogue IDs, but these are also not machine readable.
{{Information}} author auteur du fichier fileinfotpl_aut This can be author, creator and/or copyright holder and is used mixed. Often contains the {{Creator}} template which is described below.
{{Information}} permission licence/permission pour le fichier fileinfotpl_perm
{{Information}} other versions autres version du fichier fileinfotpl_ver
{{Artwork}} description description de l’œuvre fileinfotpl_desc hProduct.description
{{Artwork}} date date de création de l’œuvre fileinfotpl_date hCalendar vevent.dtstart microformat added by {{date}} template
{{Artwork}} source source du fichier fileinfotpl_src
{{Artwork}} artist créateur de l’œuvre fileinfotpl_aut "hProduct.fn value"
{{Artwork}} author auteur de l’œuvre d'art fileinfotpl_aut "hProduct.fn value"
{{Artwork}} permission licence/permission pour le fichier et l’œuvre fileinfotpl_perm
{{Artwork}} other versions autres versions du fichier fileinfotpl_ver
{{Artwork}} title titre de l’œuvre fileinfotpl_art_title hProduct.fn
{{Artwork}} object type objet de type œuvre fileinfotpl_art_object_type
{{Artwork}} medium Technique et matériaux utilisés pour créer l'œuvre fileinfotpl_art_medium
{{Artwork}} dimensions dimensions de l’œuvre fileinfotpl_art_dimensions
{{Artwork}} gallery institution détenant l’œuvre fileinfotpl_art_gallery
{{Artwork}} location localisation de l’œuvre au sein de l’institution fileinfotpl_art_location hProduct.locality
{{Artwork}} accession number numéro d'inventaire de l'œuvre fileinfotpl_art_id hProduct.identifier
{{Artwork}} object history historique des propriétaires de l'œuvre fileinfotpl_art_object_history
{{Artwork}} exhibition history historique d'exposition de l'œuvre fileinfotpl_art_exhibition_history
{{Artwork}} credit line modalités d'entrée de l'œuvre dans la collection du musée fileinfotpl_art_credit_line
{{Artwork}} inscriptions Description des inscriptions, filigranes, sous-titres, armes sur l'œuvre fileinfotpl_art_inscriptions
{{Artwork}} notes Commentaires sur l’œuvre d'art fileinfotpl_art_notes
{{Artwork}} references Références liées à l’œuvre d'art fileinfotpl_art_references
{{Book}} Author auteur du livre fileinfotpl_author
{{Book}} Editor éditeur du livre fileinfotpl_book_editor
{{Book}} Translator traducteur du livre fileinfotpl_book_translator
{{Book}} Illustrator illustrateur du livre fileinfotpl_book_illustrator
{{Book}} Title titre du livre fileinfotpl_book_title
{{Book}} Subtitle sous-titre du livre fileinfotpl_book_subtitle
{{Book}} Series title series-title of the book fileinfotpl_book_series-title
{{Book}} Authority control authority control data fileinfotpl_book_authority
{{Book}} Publisher éditeur du livre fileinfotpl_book_publisher
{{Book}} Printer imprimeur du livre fileinfotpl_book_printer
{{Book}} Year of publication date ou année de publication du livre fileinfotpl_date
{{Book}} Place of publication lieu ou ville de publication du livre fileinfotpl_book_place-of-publication
{{Book}} Language langue du livre fileinfotpl_book_language
{{Book}} Description description du livre fileinfotpl_desc
{{Creator}} Name Nom de l'auteur creator vCard.fn
{{Creator}} Alternative names Autres noms du créateur fileinfotpl_creator_alt-name_value vCard.nickname
{{Creator}} Description Nationalité et profession du créateu fileinfotpl_creator_desc_value vCard.note
{{Creator}} Date of death Date de décès du créateur fileinfotpl_creator_deathdate_value
{{Creator}} Date of birth Date de naissance du créateur fileinfotpl_creator_birthdate_value vCard.bday
{{Creator}} Location of birth/death Lieu de décès du créateur fileinfotpl_creator_deathloc_value
{{Creator}} Location of birth Lieu de naissance du créateur fileinfotpl_creator_birthloc_value
{{Creator}} Work period Période d'activité de l'auteur fileinfotpl_creator_work-period_value
{{Creator}} Work location Période d'activité de l'auteur fileinfotpl_creator_work-location_valuev
{{Creator}} Image Portrait ou photo représentant le créateur fileinfotpl_creator_image
{{Creator}} Authority control Authority control related to the creator fileinfotpl_creator_authority_value


{{FileContentsByBot}} (divers) variable, merci de vous référer à la page : {{FileContentsByBot}} (various) hproduct-by-bot jeu de données de grande taille et en constante augmentation, merci de vous référer à cette page : {{FileContentsByBot}}
{{Photograph}} title Titre de la photographie fileinfotpl_art_title hProduct.fn
{{Photograph}} description Description de la photographie fileinfotpl_desc hProduct.description
{{Photograph}} original description original archival description of the photograph fileinfotpl_desc hProduct.description
{{Photograph}} date Date de création de l’œuvre d'art originale fileinfotpl_date hCalendar vevent.dtstart microformat added by {{date}} template
{{Photograph}} medium Technique ou support de la photographie fileinfotpl_art_medium
{{Photograph}} dimensions Dimensions de la photographie fileinfotpl_art_dimensions
{{Photograph}} artist Auteur de la photographie fileinfotpl_aut "hProduct.fn value"
{{Photograph}} institution institution détenant l’œuvre d'art fileinfotpl_art_gallery
{{Photograph}} location Emplacement de la photographie au sein de l'institution fileinfotpl_art_location hProduct.locality
{{Photograph}} source source du fichier fileinfotpl_src
{{Photograph}} permission licence/permission pour le fichier et l’œuvre fileinfotpl_perm
{{Photograph}} other versions autres version du fichier fileinfotpl_ver
{{Photograph}} accession number accession number of the photograph hProduct.identifier

Format alternatif pour CommonsMetadata

Because the table + id based format proved very hard to add to templates which were not formatted similarly to the Commons information template, CommonsMetadata allows an alternative format, similar to license templates: the whole information template has to be enclosed in a fileinfotpl class and the tag containing the specific information needs to have a fileinfotpl_* class (same names as above, but class, not id).

Jeux de données exploitables par des programmes en fonction des modèles de licences

Mis en place en octobrr 2010, en utilisant les classes <span class="licensetpl_XXX">

licensetpl
An element identifying a license. Wraps the entire license code and should be a SINGLE license, not a multi license.
licensetpl_short
Short name of the license: “Public domain”, “CC-BY-SA-3.0”, “CC-by-2.0-FR”, etc.
licensetpl_long
Long name of the license: “Public domain”, “Creative Commons Attribution-Share Alike 3.0”,
licensetpl_attr_req
Whether attribution is required. “true” or “false”.
licensetpl_attr
The requested attribution: Free text.
licensetpl_link_req
Whether a link to the license is required for this license. “true” or “false”.
licensetpl_link
The link to the license deed. “www.creativecommons.org/licenses/by-sa/XXX/YYY”
licensetpl_nonfree
“true“ if this is a non-free license (not used on Commons, only on wikis with an EDP)

Multiple licensetpl blocks for the same work might be wrapped in a block using the class licensetpl_wrapper.

Modèles insérant ces informations

Machine readable data set by style formatting templates

Style formatting templates, meant to provide uniform styles to different families of non-license templates, carry machine readable data identifying these families.

Modèle Objet Nom de la classe
{{Restriction-Layout}} used by Restriction tags restrictiontemplate
{{FoP-Layout}} used by freedom of panorama tags foptemplate
{{Partnership-Layout}} used by Partnership templates partnershiptemplate
{{Source-Layout}} used by generic Source templates sourcetemplate
{{Created with}} used by Created with ... templates createdwithtemplate


Machine readable data set by non-copyright restriction templates

Templates regarding non-copyright legal restrictions carry these classes to identify specific types of restrictions.

Modèle(s) Objectif Nom de la classe
{{Trademarked}} Images en tant que marques déposées restriction-trademarked
{{Copydesign}} Copyrighted designs restriction-design
{{Communist symbol}} Symboles communistes restriction-communist
{{Italy-MiBAC-disclaimer}} {{Soprintendenza}} Biens culturels italiens restriction-ita-mibac
{{Australian Commonwealth reserve}} Réserves australiennes restriction-aus-reserve
{{Personality rights}} {{Romania personality rights}} Droits de la personnalité restriction-personality
{{2257}} Child Protection and Obscenity Enforcement Act warning (United States) restriction-2257
{{Costume}} Costuming restriction-costume
{{Fan art}} Fan art restriction-fan-art
{{Currency}} Monnaie restriction-currency
{{IHL Symbol}} Symbols restricted by International Humanitarian Law restriction-ihl
{{Nazi symbol}} Symboles nazis et fascistes restriction-nazi
{{Insignia}} Insigne officiel restriction-insignia


Machine readable data set by specific templates

More machine-readable data are set. Here is a not exhaustive list:

{{Personality rights}}
<span class="commons-template-name" style="display:none" id="commons-template-personality-rights">Personality rights</span>
{{Credit line}}
<td id="fileinfotpl_credit" class="fileinfo-paramfield fileinfotpl_credit" style=""></td>

Machine-readable data set by location templates

{{Location}} and similar templates add machine-readable geocodes in the following format: <span class="geo">12.34;24.68</span> (latitdude and longitude as floating-point numbers, separated by a semicolon). The coordinates use the en:WGS84 system (same as the GPS and most online maps). See Commons:Geocoding for more details.

Utilisation

API de MediaWiki

L’API de MediaWiki renvoie une quantité limitée de métadonnées. Voyez la requête suivante :

/w/api.php?action=query&prop=imageinfo&format=json&iiprop=extmetadata&iilimit=5&titles=File%3AFranziskanerkirche%20Salzburg%20panoramic%20view%20interior%2039252px.jpg

(Ouvrir dans le bac-à-sable API) qui renvoie des informations comme Credit, Artist, LicenseUrl et Copyrighted et est utilisé par Media Viewer, notamment.

Scripts utilisant des données lisibles par une machine

Outils externes

Voir aussi

Defining new machine readable data

  • n'utilisez PAS des identifiants de balises HTML, utilisez des classes CSS. Un identifiant ne peut être utilisé qu'une seule fois sur une page donnée, et la plupart des champs peuvent apparaître plusieurs fois sur une même page. Prenez en compte la cas des descriptions d’œuvres dérivées par exemple, qui peuvent inclure des informations sur l’œuvre originale et sur ses déclinaisons.
  • si possible, encadrez les données réelles, pas les en-têtes d'un champ. Cette méthode était utilisée historiquement dans tous les modèles Information, mais s'avère bien plus difficile à continuer à utiliser sur le long terme.
  • Wrap data, not the way the data is formatted.
  • Expect that formatting is lost when converting to data. Visual dress up is not part of the information.
  • Don't wrap multiple units of information inside one field. There is a difference between a publication date and a creation date. Both are dates, but both are different 'data fields'. Also CC-by-SA-4.0-3.0-2.5 is not a Licensename, those would be 3 licenses with the name CC-by-SA-##.
  • Make sure that the data value has one unit, or outputs one consistent unit.

Problèmes

Il y a un petit nombre de choses qui ne sont PAS ou très difficilement reconnaissables. Cela comprend :

  • les œuvres dérivées
  • les œuvres incluses dans d'autres œuvres. Voir aussi : Category:FoP_templates
  • les licences modifiées ou les œuvres incluses dans d'autres œuvres, qui sont une catastrophe.
  • les auteurs vs. les détenteurs des droits d'auteur
  • les noms d'utilisateurs vs. les 'vrais noms'
  • les identifiants de catalogues, etc.
  • les permissisons OTRS
  • la date de publication vs. la date de création
  • Donating institutions of materials
  • Anything that is NOT using the above structures is not recognizable at all and will require manual cleanup at some point.
  • Heirs: {{Heirs-license}}
  • Multilicensed CC works, that use {{Cc-by-3.0,2.5,2.0,1.0}}, {{Cc-by-sa-2.5,2.0,1.0}}, {{Cc-by-sa-4.0,3.0,2.5,2.0,1.0}} or {{Cc-by-all}}.
  • Non-licensed works: {{Copyrighted free use}}, {{Attribution}} (Problem, how to describe this grant of rights success ?)
  • Improvised File description templates like User:Tevaprapas/Information
  • Templates denoting the copyright of partials of the work: {{Copyright information}}

Notes

  1. bugzilla:17503, Commons:Wikidata for media info