Suite

Comment publier une symbologie QGIS unique (standardisée) qui se rapporte à différents jeux de données du même schéma ?

Comment publier une symbologie QGIS unique (standardisée) qui se rapporte à différents jeux de données du même schéma ?


Étant donné une symbologie et un style spécifiques (étendus/stockés localement) dans QGIS qui font référence à plusieurs fichiers de formes ou tables différents (GeoPackage/Spatialite), comment puis-je facilement déplacer ou partager cela avec un autre utilisateur de bureau QGIS ?

Actuellement, la symbologie QGIS est gérée dans le fichier projet (.qgs) et il existe des paramètres de configuration tels que la symbologie et les chemins de police. Ainsi, la symbologie est « câblée » au jeu de données et aux symbologies et polices locales.

Ce que je veux, c'est publier une seule symbologie "générique/modèle" (c'est-à-dire des paramètres de signature/symbole) avec un mappage vers des noms de jeux de données échangeables - le tout dans des chemins relatifs à la symbologie (mais sans le jeu de données). ArcGIS connaît une chose similaire qu'ils appellent.MDXet "Carte Package".

Un exemple serait un style de carte topographique d'une autorité ("mytopostyle" avec.qgs, polices de symboles/textes, etc.) se référant àmes données, qui est ensuite publié et appliqué à différentes régions distinctes contenant toutes le même schéma de données (fichiersmydata_region_A.sqlite,mydata_region_B.sqlite,… ).

Des conseils ?


Chris et underdark : Il semble qu'il n'y ait pas de réponse prête à l'emploi. Mais vos commentaires m'ont amené à une solution partielle possible.

On pourrait réutiliser le package de fichiers et le plugin "All-in-one Project" (AIOP) !

En tant qu'éditeur :

  1. Le premier configurerait tout (symbologie, symboles/polices et un jeu de données de démonstration).
  2. Ensuite, on pourrait (d'une manière ou d'une autre) supprimer l'ensemble de données,
  3. et livrer/publier ce fichier AIOP tronqué.

En tant que consommateur :

  1. Après avoir téléchargé le fichier AIOP
  2. le plugin installerait les symboles/polices…
  3. … et lors de la réouverture, QGIS demanderait les données.

Je dois encore réfléchir à cette solution et probablement améliorer le plugin AIOP (encore expérimental).


Données d'ouverture¶

Dans le cadre d'un écosystème de logiciels Open Source, QGIS repose sur différentes bibliothèques qui, combinées à ses propres fournisseurs, offrent des capacités de lecture et souvent d'écriture de nombreux formats :

Les formats de données vectorielles incluent les formats ESRI (Shapefile, Geodatabase…), les formats de fichiers MapInfo et MicroStation, AutoCAD DWG/DXF, GeoPackage, GeoJSON, GRASS, GPX, KML, Comma Separated Values, et bien d'autres… Lire la liste complète des vecteurs OGR pris en charge formatage.

Les formats de données raster incluent ArcInfo Binary Grid, ArcInfo ASCII Grid, JPEG, GeoTIFF, ERDAS IMAGINE, MBTiles, R ou Idrisi rasters, ASCII Gridded XYZ, GDAL Virtual, SRTM, Sentinel Data, et bien d'autres… Lire la liste complète des formats raster pris en charge .

Les formats de base de données incluent PostgreSQL/PostGIS, SQLite/SpatiaLite, Oracle, DB2 ou MSSQL Spatial, MySQL…

La prise en charge des services de données Web (WM(T)S, WFS, WCS, CSW, ArcGIS Servers…) est également gérée par les fournisseurs QGIS (voir QGIS as OGC Data Client ).

Vous pouvez également lire les fichiers pris en charge à partir de dossiers archivés et utiliser les formats natifs de QGIS tels que les couches virtuelles et mémoire.

À la date de ce document, plus de 80 formats vectoriels et 140 formats raster sont pris en charge par les fournisseurs natifs GDAL/OGR et QGIS.

Tous les formats répertoriés peuvent ne pas fonctionner dans QGIS pour diverses raisons. Par exemple, certains nécessitent des bibliothèques propriétaires externes, ou l'installation GDAL/OGR de votre système d'exploitation peut ne pas avoir été conçue pour prendre en charge le format que vous souhaitez utiliser. Pour voir la liste des formats disponibles, exécutez la ligne de commande ogrinfo --formats (pour le vecteur) et gdalinfo --formats (pour le raster), ou vérifiez Paramètres ‣ Options ‣ menu GDAL (pour le raster) dans QGIS.

Dans QGIS, selon le format des données, il existe différents outils pour l'ouvrir, principalement disponibles dans le menu Couche Ajouter une couche ‣ ou à partir de la barre d'outils Gérer les couches (activée via le menu Affichage ‣ Barres d'outils). Cependant, tous ces outils pointent vers une boîte de dialogue unique, la boîte de dialogue Gestionnaire de sources de données que vous pouvez ouvrir directement avec le Ouvrir le bouton Gestionnaire de source de données disponible dans la barre d'outils du gestionnaire de source de données ou en appuyant sur Ctrl+L . En effet, la boîte de dialogue Data Source Manager offre une interface unifiée pour ouvrir des données basées sur des fichiers vectoriels ou raster ainsi que des bases de données ou des services Web pris en charge par QGIS. Il peut être réglé modal ou non avec le Boîte de dialogue du gestionnaire de source de données non modale dans le menu Paramètres ‣ Options ‣ Général.

Boîte de dialogue Gestionnaire de sources de données QGIS ¶

A côté de ce point d'entrée principal, vous avez également le plugin DB Manager qui offre des capacités avancées pour analyser et manipuler les bases de données connectées. Plus d'informations sur les capacités de DB Manager sont exposées dans DB Manager Plugin .

Il existe également de nombreux autres outils, plug-ins natifs ou tiers, qui vous aident à ouvrir des formats de données dédiés.

Ce chapitre décrira uniquement les outils fournis par défaut dans QGIS pour charger des données. Il se concentrera principalement sur la boîte de dialogue Gestionnaire de sources de données, mais plus que de décrire chaque onglet, il explorera également les outils basés sur les spécificités du fournisseur de données ou du format.


3 réponses 3

Un espace de noms XML est censé avoir une chance raisonnable d'être universellement unique. Un préfixe, en particulier un préfixe à une seule lettre, est presque certain de ne pas l'être. Une déclaration d'espace de noms crée un mappage à partir d'un préfixe autrement dénué de sens vers un identifiant stable sur lequel le logiciel peut s'appuyer pour identifier les schémas des éléments XML.

Vous avez raison : au sein d'un même document, un auteur peut s'assurer que différents préfixes sont utilisés pour différents groupes d'éléments. Mais sans lier ces préfixes à des espaces de noms uniques, comment accomplissez-vous l'une des opérations suivantes :

  • Envoi de ce fichier XML à une organisation qui utilise différent préfixes pour les mêmes groupes d'éléments, et s'attendant à ce qu'il soit interprété correctement par un logiciel (hypothétique) qui n'utilise que des préfixes ?
  • Tout traitement automatisé des documents XML ? Même quelque chose d'aussi fondamental que la validation de schéma : comment votre parseur HTML sait-il associer le préfixe h à la collection d'éléments HTML, et donc sait-il rendre h:table ?

Il n'y a pas de base de données centrale de préfixes où h est associé pour toujours et à tout moment aux éléments HTML - c'est le but de la déclaration d'espace de noms cartographie le préfixe de l'espace de noms dans la portée du document.


Données de mouvement dans SIG #7 : trajectoires animées avec TimeManager

Dans cet article, nous utilisons TimeManager pour visualiser la position d'un objet en mouvement dans le temps le long d'une trajectoire. Ceci est un autre exemple de ce qui est possible grâce à la fonctionnalité de générateur de géométrie QGIS’. Le résultat peut ressembler à ceci :

Ce qui rend cette approche intéressante, c'est que la trajectoire est stockée dans PostGIS en tant que LinestringM au lieu de stocker des points de trajectoire individuels. Il n'y a donc qu'une seule entité linéaire chargée dans QGIS :

(Dans la partie 2 de cette série, nous avons déjà vu comment un générateur de géométrie peut être utilisé pour visualiser la vitesse le long d'une trajectoire.)

La couche est ajoutée à TimeManager à l'aide des attributs t_start et t_end pour définir l'étendue temporelle de la trajectoire.

TimeManager expose une fonction animation_datetime() qui renvoie l'horodatage actuel de l'animation, c'est-à-dire l'horodatage qui est également affiché dans le dock TimeManager, ainsi que sur la carte (si nous ne désactivons pas explicitement cette option).

Une fois que TimeManager est configuré, nous pouvons modifier le style de ligne pour ajouter un marqueur de point pour visualiser la position de l'objet en mouvement à l'horodatage actuel de l'animation. Pour ce faire, nous interpolons la position le long des segments de trajectoire. La première expression du générateur de géométrie divise la trajectoire en ses segments :

La deuxième expression du générateur de géométrie interpole la position sur le segment qui contient l'heure actuelle de l'animation TimeManager :

L'instruction WHEN compare les heures de début et de fin du segment de trajectoire à l'heure d'animation actuelle de TimeManager. Ensuite, la fonction line_interpolate_point est utilisée pour dessiner le marqueur de point à la bonne position le long du segment :

Voici le résultat de l'animation pour une partie de la trajectoire entre 08h00 et 09h00 :

Cet article fait partie d'une série. En savoir plus sur les données de mouvement dans le SIG.

Comme ça:


Contenu

L'idée d'utiliser des points pour montrer la densité relative est née à l'époque industrielle de l'Angleterre et de la France dans les années 1830 et 1840, une époque où la plupart des types modernes de cartes thématiques ont été développés sous une forme relativement moderne. [3] Ils ont été rendus possibles par la disponibilité croissante des données statistiques et la reconnaissance croissante de leur valeur pour la compréhension scientifique. Comme pour les autres types, les premières inventions de la technique sont souvent passées inaperçues, les publications ultérieures devenant beaucoup plus renommées.

Il a été affirmé que la première carte de distribution de points a été créée par Valentine Seaman dans un article de 1797 analysant une récente épidémie de fièvre jaune à New York. Bien que le nombre relativement faible d'emplacements de cas ne soit pas conforme à l'utilisation typique de cette technique pour visualiser la distribution globale d'un grand nombre d'individus, il est tout de même intéressant de noter qu'il s'agit peut-être du premier cas d'utilisation d'une carte comme outil d'analyse et de communication. pour les sciences sociales, de l'analyse spatiale et de l'épidémiologie (même si ses conclusions se sont avérées erronées). [4]

La première carte de densité de points basée sur les districts connue a été créée en 1830 par Armand Joseph Frère de Montizon (1788–. ), un frère franciscain, instituteur et imprimeur. [5] Il s'agit d'une carte relativement simple de la population par département (arrondissement administratif) en France, chaque point représentant 10 000 individus. [6] La carte semble avoir été dessinée selon la même technique pratiquée pendant les deux siècles suivants et encore réalisée aujourd'hui par ordinateur : un certain nombre de points, calculés à partir de la population totale de chaque département, sont répartis aléatoirement dans chaque département. Le résultat est un affichage visuel intuitif de la densité de population, car les niveaux de population plus élevés à l'intérieur d'une frontière administrative présentent un motif de points plus proche et plus dense. Étant donné que les points sont régulièrement espacés, il est évident qu'ils ne représentent pas les emplacements réels où vivent les gens dans un département. Il s'agit d'un exemple d'erreur écologique, où une valeur pour une zone généralise tout ce qui se trouve dans cette zone pour présenter cette valeur. [7]

Bien que la carte de Montizon ait été la première carte à points publiée de ce type, son innovation n'a eu aucun effet sur la pratique pendant près de 30 ans jusqu'à ce que la carte de densité de points basée sur les districts soit réinventée en 1859 dans une carte de la répartition de la population de la Suède et de la Norvège par Thure Alexander von Mentzer, un officier de l'armée suédoise. [8] Les points de sa carte (chacun représentant 200 habitants) semblent avoir été basés sur le recensement de 1855, mais montrent clairement des ajustements basés sur une connaissance supplémentaire de la répartition de la population. [9]

La carte des caractéristiques ponctuelles a également été réinventée au milieu du XIXe siècle, l'épidémiologie étant à nouveau un moteur de premier plan, en particulier la recherche de la cause du choléra, qui a été reconnue comme se produisant dans des schémas géographiques clairs. [10] Parmi la variété de cartes créées entre 1820 et 1850, certaines montrent les emplacements de chaque cas dans une région. Un exemple notable est une carte de 1849 de Thomas Shapter dans son histoire de l'épidémie de choléra de 1832-1834 à Exeter. [11] La carte est innovante en utilisant différents symboles ponctuels pour représenter les cas dans chacune des trois années. Shapter n'est pas allé jusqu'à identifier la cause des grappes de maladies qu'il a observées, sa carte était influente. John Snow l'a ensuite citée comme source d'inspiration pour son propre travail.

Lorsqu'une grande épidémie s'est produite à Londres en 1854, le Dr John Snow a collecté des données sur les cas individuels, en particulier leur localisation à Soho (Londres), en utilisant des méthodes naissantes d'analyse spatiale et de recherche des contacts pour conclure que l'eau contaminée était le vecteur de la maladie, et a réussi à éteindre la source. [12] La carte qui accompagnait son rapport de 1855 montrait des cas individuels, empilés à chaque emplacement de maison, montrant clairement une concentration autour de la pompe de Broad Street ainsi que des lacunes dans des endroits qui avaient d'autres sources d'eau. [13] La carte est maintenant saluée comme révolutionnaire bien que son rôle dans l'enquête elle-même et son effet sur la résolution du débat sur la cause de la maladie soient souvent surestimés, [14] elle mérite d'être reconnue pour l'idée de Snow selon laquelle une carte était la plus outil efficace pour communiquer les schémas spatiaux de la maladie.

Au cours des dernières années, les cartes à points ne semblent pas avoir été aussi prolifiques que d'autres types de cartes thématiques, peut-être en raison du temps nécessaire pour les créer. Beaucoup étaient considérés comme une réalisation digne d'une publication universitaire à eux seuls. [15] Une technique hybride a émergé dans les cartes de densité de population du début du XXe siècle, utilisant des points représentatifs dans les zones rurales avec des cercles proportionnels pour représenter les grandes villes. La méthode de densité de points est devenue standardisée au cours de cette période et des directives de conception se sont développées [16] de telle sorte que la technique puisse être enseignée dans les manuels de cartographie du milieu du 20e siècle. [17] [18]

Les systèmes d'information géographique ont rendu la génération de cartes de densité de points relativement facile en automatisant le placement des points individuels, bien que les résultats soient souvent moins satisfaisants que ceux qui ont été élaborés manuellement. Une avancée technologique significative a été la disponibilité de très grands ensembles de données, tels que des millions de publications géocodées sur les réseaux sociaux, et des innovations dans la façon de les visualiser. Les cartes résultantes sont capables de montrer des modèles détaillés de distributions géographiques.

Les progrès récents dans les cartes de points incluent l'utilisation de techniques de cartographie disymétrique pour placer les points avec plus de précision dans les zones, [19] la mise à l'échelle des cartes de points pour afficher différents taux de points par personne à différents niveaux de zoom, [20] et l'utilisation de l'interpolation temporelle pour animer les cartes de points au fil du temps [2]

Deux types très différents de cartes de points ont été développés, conduisant souvent à une certaine confusion dans la terminologie. En fait, de nombreux cartographes ont suggéré de ne pas les regrouper en un seul type de carte thématique. Bien qu'ils utilisent des techniques très différentes, basées sur des sources de données très différentes, avec une sémantique différente dans le résultat, le but général est le même : visualiser la répartition géographique d'un phénomène de groupe (c'est-à-dire un grand nombre d'individus).

Un-à-un (entité ponctuelle) Modifier

UNE carte de points un à un affiche un grand nombre de symboles ponctuels représentant les emplacements des occurrences individuelles d'un phénomène. De nombreux types de cartes affichent des caractéristiques géographiques sous forme de symboles ponctuels, telles que les villes, cette catégorie ne s'applique qu'à celles qui montrent un grand nombre d'instances, chacune représentée de manière anonyme (par exemple, non étiquetée), de sorte que l'attention se concentre sur la distribution globale plutôt que sur les individus . Pendant de nombreuses années, cette approche a été au cœur du domaine de la cartographie de la criminalité, en plus de son utilisation originale en épidémiologie. Elle est devenue particulièrement populaire à l'ère récente des mégadonnées, comme la cartographie de millions de publications géolocalisées sur les réseaux sociaux ou d'emplacements de téléphones portables, bien que ces cartes aient suscité des inquiétudes quant à la confidentialité. [21] [22] [23]

Divers termes pour cette technique ont été proposés pour la distinguer de l'autre approche, tels que carte des points nominaux, carte des caractéristiques des points, et carte des épingles. [24] [25] : 135 Une autre suggestion est d'utiliser le terme carte de répartition des points exclusivement pour ce type (avec densité de points réservé à l'autre type), bien que cela ne clarifie pas la confusion, puisque les deux cartes visent à montrer la distribution et la densité.

Un-à-plusieurs (point représentatif) Modifier

Dans un carte de points un-à-plusieurs, chaque point sur la carte ne représente pas une instance individuelle, mais caractérise plutôt la présence d'un ou plusieurs individus dérivés de données agrégées. Les données sont basées sur des districts géographiques prédéfinis (par exemple, des comtés, des provinces, des pays, des secteurs de recensement), dans lesquels les données sur les individus ont été agrégées en tant que variables de synthèse statistique, telles que la population totale. C'est-à-dire qu'il s'agit du même type de jeu de données utilisé pour les cartes choroplèthes et de nombreuses cartes de symboles proportionnels. Contrairement à une carte choroplèthe, la seule variable valide utilisée pour une carte de densité de points est le nombre total d'individus. [24] Une fois par valeur de point (le nombre d'individus représentés par chaque point) est choisi, le nombre de points nécessaires dans chaque district peut être calculé et les points sont répartis de manière aléatoire dans le district. Cette répartition d'un total sur la surface donne l'impression visuelle de la densité de population. [18]

La plupart des manuels de cartographie préfèrent utiliser le terme carte de densité de points ou alors carte de points uniquement pour les cartes de points un-à-plusieurs. [24] [26] [18] Le terme un-à-plusieurs est devenu problématique car des cartes interactives ont été développées qui utilisent cette méthode mais avec chaque point représentant une seule personne, [27] bien que cela soit souvent critiqué pour créer l'illusion de connaître l'emplacement de chaque individu. D'autres termes qui ont été suggérés pour distinguer cette technique comprennent carte de points représentative, carte à points basée sur le district, carte de points choroplèthe, et carte d'étalement des points. [28]

La conception de l'un ou l'autre type de carte de points implique d'équilibrer la conception du symbole de point individuel (en particulier sa taille) avec l'espacement entre les points. Dans la carte à points un à un, cette dernière est fixée par la distribution des individus et l'échelle de la carte, mais dans la carte à points représentative, elle est aussi influencée par le choix du cartographe de valeur de point, le nombre d'individus que chaque point représente. Il est reconnu depuis longtemps que ces choix sont interdépendants, avec plusieurs considérations concurrentes : [18] [24]

  • L'augmentation de la taille des symboles ponctuels réduira l'espacement entre eux, même avec une distribution constante.
  • Quelle que soit la taille et la distribution des points, à un certain niveau de densité, les points individuels fusionnent en une masse solide. Une fois que cela se produit, aucune densité plus élevée ne peut être discernée.
  • Les symboles ponctuels plus grands sont plus faciles à voir que les symboles plus petits, mais fusionnent à des densités relativement plus faibles.
  • Des valeurs de points plus petites (c.

L'équilibre idéal de ces facteurs se produit lorsque les points commencent à fusionner dans les zones les plus denses, les points individuels sont juste assez grands pour être vus individuellement et la valeur des points est suffisamment petite pour que même les districts avec les valeurs les plus faibles aient plus d'un point. En 1949, J. Ross Mackay a élaboré un ensemble de directives pour calculer cet équilibre entre la taille et la valeur des points, y compris un nomographe innovant, qui est devenu la norme pour la profession. [16] Depuis lors, l'amélioration de la technologie dans la génération des points et leur impression ou affichage a conduit à des modifications du calcul du solde, qui a été automatisé dans la plupart des logiciels SIG. [29]

Cependant, cette gamme idéale de densités apparentes impose certaines restrictions sur les phénomènes qui peuvent être cartographiés. Si la plage de densités est trop faible (disons, un rapport entre le plus clairsemé et le plus dense inférieur à environ 1:10), la carte apparaîtra trop cohérente pour être informative. Si la plage de densités est trop élevée (un rapport de plus de 1:1000), trop de districts seront pleins à moins que la valeur du point ne soit diminuée au point de devenir invisible. [24] Les améliorations de la technologie de conception ont contribué à atténuer quelque peu cette restriction, comme l'utilisation de points translucides, qui peuvent montrer une distinction entre les densités où les points ne font que fusionner et les densités plus élevées où de nombreuses couches de points sont superposées. [27] Cependant, cela a pour effet secondaire de rendre les points individuels très faibles.

Un autre défi de conception peut survenir avec le type de carte un à un lorsque plusieurs points se produisent au même endroit, donnant une fausse impression de densité plus faible (c'est-à-dire ressemblant à un point au lieu de plusieurs). Alors que de nombreux utilisateurs de logiciels SIG ne tiennent pas compte de ce problème, plusieurs algorithmes automatisés ont été développés pour l'atténuer, généralement basés sur la solution développée dans les premières cartes de Shapter et Snow consistant à étaler légèrement les points afin qu'ils soient distincts mais toujours semblent densément emballés. [30]

Une préoccupation concernant la densité de points qui a été longuement étudiée est la précision avec laquelle les lecteurs de cartes peuvent interpréter la densité apparente. Depuis les années 1930, des études répétées ont montré une tendance à sous-estimer la densité d'une zone représentée par des points. [31]

Une autre critique est que les données de district agrégées présentent des problèmes inhérents qui peuvent conduire aux mêmes interprétations erronées que d'autres types de cartes thématiques basées sur ce type de données, telles que les cartes choroplèthes, y compris l'erreur écologique et le problème d'unité de surface modifiable. En fait, la technique des points peut exacerber le problème, car l'aspect détaillé des points individuels donne l'illusion de données plus détaillées que la couleur unie d'un choroplèthe. De plus, les lecteurs de cartes peuvent facilement interpréter les points, en particulier dans les zones clairsemées, comme les emplacements des colonies réelles. [24]

Comme pour les cartes choroplèthes, le problème des unités de surface modifiables peut être atténué en utilisant des districts aussi petits que possible, bien que cela puisse entraîner une augmentation du problème de variation de densité extrême discuté ci-dessus. Une autre solution en commun avec la cartographie choroplèthe est la technique disymétrique. Dans l'application de densité de points, des connaissances externes sur la distribution du phénomène sont incorporées pour ajuster le placement des points. L'approche la plus simple est la méthode binaire, créant une couche de terre connue pour n'avoir aucun individu (dans le cas de la population humaine, cela peut inclure des éléments tels que des plans d'eau et des terres appartenant au gouvernement), et l'utilisant comme masque pour exclure les points d'y être dessinés, les forçant être placé plus densément dans la zone restante. 24 [18] Des algorithmes automatisés ont été développés qui imitent cette technique, en utilisant des informations auxiliaires telles que les emplacements des points de la ville pour modifier la distribution des points dans chaque district, bien qu'ils ne soient pas largement mis en œuvre dans les logiciels SIG. [32]


  • La plupart des ensembles de données existants sont « copyright » : vous n'achetez pas l'information elle-même, mais un droit de l'utiliser (« licence »)
  • La diffusion des produits finis est restreinte (parfois, les produits finis doivent être « dégradés »)
  • Les « labels » de qualité ne sont pas communément adoptés : incertitude sur les produits

Base de données EUROSION = 2 Millions d'euros

  • 26 % d'acquisition de données sous licence (par exemple, l'élévation)
  • 17% de mise à jour des données existantes (par exemple, l'érosion côtière)
  • 33 % de production de données manquantes (ex. Hydrodynamique)
  • 24% Conversion de format, intégration et contrôle qualité

Comment publier une symbologie QGIS unique (standardisée) qui se rapporte à différents jeux de données du même schéma ? - Systèmes d'information géographique

Bienvenue sur SATIFYD : l'outil d'auto-évaluation DANS pour améliorer l'équité de votre ensemble de données. Cet outil vous montrera à quel point votre jeu de données est FAIR (Trouvable, Accessible, Interopérable, Réutilisable) et vous fournira des conseils pour obtenir un score (encore) plus élevé sur FAIRness. Idéalement, vous utilisez cet outil avant le dépôt dans EASY.

Les 12 questions touchent aux principes des données FAIR mais ne les suivent pas strictement. En répondant aux questions, le score par lettre sera affiché sous chaque lettre. Plus les lettres sont bleues, plus votre jeu de données est JUSTE. Un score global est fourni en fin de page.

Certaines questions sont posées plus d'une fois (par exemple sur les normes de métadonnées et de données ou les licences d'utilisation), car les sujets sont pertinents dans plus d'une lettre.

Veulent en savoir plus? Cliquez s'il vous plait ici

Si vous avez des questions, s'il vous plaît laissez-nous savoir en envoyant un e-mail

SATIFYD signifie : Outil d'auto-évaluation pour améliorer l'équité de votre ensemble de données. Il est conçu pour une évaluation manuelle par l'utilisateur, avant le dépôt d'un jeu de données.

Les 12 questions de l'outil sont divisées en trois questions par lettre, sont basées sur les principes de données FAIR. Les aspects des principes FAIR qui sont déjà couverts par EASY (par exemple, si l'ensemble de données aura ou non un identifiant persistant attribué), sont laissés de côté dans cet outil. Les questions qui concernent généralement la lisibilité par machine sont celles concernant les normes de (méta)données telles que les vocabulaires contrôlés, les ontologies et les taxonomies. Certaines questions sont posées plus d'une fois (par exemple sur les normes de métadonnées et de données ou les licences d'utilisation), car les sujets sont pertinents dans plus d'une lettre. Des textes explicatifs accompagnent chaque question, en cliquant sur le symbole « i ».

Après avoir répondu aux questions, les lettres sont remplies de couleur bleue selon le pourcentage. Un score global est fourni en fin de page. Le degré auquel un ensemble de données peut être FAIR est différent pour chaque discipline. Certains ont plus de normes disponibles que d'autres. Afin de rendre justice à cette différence, des options pour indiquer que les normes ne sont pas disponibles ont été ajoutées à l'outil. Des conseils pour améliorer l'ÉQUITÉ de l'ensemble de données peuvent être trouvés à chaque lettre, en cliquant sur « Vous voulez améliorer ? ».

Un prototype d'outil d'évaluation des données FAIR a été créé et publié pour la première fois à l'été 2017 (voir le blog d'Emily Thomas). L'outil attribue une note de 5 étoiles pour la trouvabilité, l'accessibilité, l'interopérabilité et la réutilisabilité d'un ensemble de données ainsi qu'un score de son équité globale. Après avoir reçu les commentaires d'un large éventail d'utilisateurs, il est devenu clair qu'une étape vers une version complète de l'outil FAIRdat visait à reformuler les questions, à fournir plus de vue d'ensemble et à reconsidérer le niveau d'évaluation de FAIR (référentiel, ensemble de données, fichiers).

En 2018, une simple liste de contrôle pour évaluer « grossièrement » la FAIRness des ensembles de données a été créée pour donner aux chercheurs ayant peu d'expérience dans le partage de leurs ressources de recherche une idée de ce que signifie le partage de données FAIR. Les questions restent simples, les paragraphes correspondants contenant des explications de termes et de concepts courts et concis. La liste de contrôle intitulée « Assez FAIR ? Checklist to evaluation FAIRness of data(sets) », qui a été présentée pour la première fois lors du Forum des parties prenantes de l'EOSC à Vienne en novembre 2018, est accessible ici .

SATIFYD a été créé par DANS : Eliane Fankhauser, Jerry de Vries, Nina Westzaan, Vesa Åkerman en 2019. Sa mise en page est basée sur et inspirée de l'outil d'auto-évaluation ARDC FAIR. L'idée initiale et un premier prototype ont été établis par Peter Doorn, Eleftheria Tsoupra et Emily Thomas à DANS en 2017-2018.

Maintenant que vous avez terminé votre projet de recherche, vous êtes sur le point de déposer vos données de recherche dans un référentiel fiable à long terme. La trouvabilité est l'un des quatre piliers des principes directeurs de FAIR. Si vous prenez soin de la trouvabilité de vos données, vous permettrez aux moteurs de recherche de les trouver et éventuellement de les lier à des sources connexes sur le Web. De plus, vous améliorerez l'exposition de votre recherche et aiderez les chercheurs à trouver et potentiellement réutiliser vos données.

  • Métadonnées riches et détaillées et informations supplémentaires
  • Liens persistants / Identifiants persistants (fournis par EASY après le dépôt du dataset)
  • Normes : plus vous utilisez de termes standardisés, plus vos données sont faciles à trouver. Certains domaines ont des normes spécifiques, pour d'autres, il existe des normes plus génériques comme le Getty Thesaurus of Geographical Names ou le . L'utilisation de normes permettra à vos pairs de trouver vos données via des moteurs de recherche (spécifiques au domaine).

Les métadonnées sont des informations qui décrivent un objet tel qu'un ensemble de données. Il donne un contexte aux données de recherche, fournissant des informations sur l'URL où l'ensemble de données est stocké, le créateur, la provenance, le but, l'heure, les emplacements géographiques, les conditions d'accès et les conditions d'utilisation d'une collection de données. La mesure dans laquelle les métadonnées sont fournies pour un ensemble de données peut varier considérablement et a un effet sur la capacité de trouver un ensemble de données. Dans EASY, un nombre minimum de champs de métadonnées est requis afin de déposer avec succès un jeu de données. Les métadonnées minimales, cependant, ne sont pas assez complètes pour répondre aux exigences de FAIR. La liste suivante fournit une liste complète des éléments qui doivent être couverts lorsque l'on vise des métadonnées suffisantes :

  • Un identifiant persistant (PID) unique au monde, par ex. un DOI (fourni par EASY)
  • Un titre
  • Personnes liées, c'est-à-dire le créateur de l'ensemble de données
  • Autres personnes apparentées qui ont contribué à l'ensemble de données
  • Date à laquelle l'ensemble de données a été complété
  • Une description de la façon dont les données ont été créées (informations contextuelles)
  • Groupe cible pour l'ensemble de données déposé (c'est-à-dire les disciplines scientifiques)
  • Mots-clés qui décrivent vos données (utilisez des vocabulaires contrôlés s'ils sont disponibles pour votre domaine)
  • Une licence qui indique clairement dans quelle mesure les données sont accessibles (une liste à choisir est donnée dans EASY)
  • Couverture temporelle : la période de temps à laquelle les données se rapportent
  • Couverture spatiale : Situation géographique de la zone ou du site de recherche
  • Ensembles de données connexes, ressources telles que publications, sites Web, etc. (numériques ou analogiques)
  • Formats de fichier utilisés dans l'ensemble de données

Vous pouvez documenter votre recherche au niveau des métadonnées et au niveau du jeu de données. Afin de rendre vos métadonnées interopérables et machine actionnelles, utilisez des vocabulaires contrôlés standardisés, des thésaurus, des ontologies. Au niveau de l'ensemble de données, vous devez fournir une description du projet et une description de l'ensemble de données. Par exemple, ajoutez un livre de codes pour rendre vos données compréhensibles pour les autres chercheurs, ajoutez des informations de provenance et une description du processus de données/flux de travail. Si vous souhaitez en savoir plus sur les normes, consultez la deuxième question sous Findable.

Cliquez ici si vous voulez en savoir plus sur le terme métadonnées.
Cliquez ici si vous souhaitez en savoir plus sur le terme interopérabilité.

Pour rendre vos (méta)données trouvables, nous encourageons l'utilisation de vocabulaires, de taxonomies et/ou d'ontologies contrôlés.

UNE vocabulaire contrôlé est une liste organisée et standardisée de termes et peut être utilisée pour décrire des données. Les vocabulaires contrôlés sont pour la plupart spécifiques à une discipline et donc très utiles pour décrire vos données. En utilisant des vocabulaires contrôlés, vos métadonnées deviennent beaucoup plus compréhensibles pour les machines et les utilisateurs et améliorent donc la recherche de vos données.

UNE taxonomie est une classification des entités dans un système ordonné. Une taxonomie est principalement spécifique à un domaine et est utilisée pour identifier le contenu/les données en ajoutant des termes de la taxonomie à la description du contenu/des données. L'identification du contenu de manière structurée donne aux moteurs de recherche la possibilité d'optimiser leurs fonctionnalités de recherche. De cette façon, des données plus pertinentes peuvent être trouvées sur la base d'une seule requête de recherche. Par conséquent, en ajoutant des termes de taxonomie à la description de votre ensemble de données, la trouvabilité de votre ensemble de données s'améliorera.

Une ontologie est une description formelle de la connaissance. Ces connaissances sont décrites comme un ensemble de concepts et de relations entre ces concepts au sein d'un domaine spécifique. Les ontologies sont créées pour organiser les informations en données et en connaissances. Une ontologie tente de représenter des entités, des idées et des événements, avec toutes leurs propriétés et relations interdépendantes, selon un système de catégories. En appliquant les ontologies existantes pour décrire vos données, vos données deviennent plus compréhensibles pour les machines et améliorent ainsi la trouvabilité de vos données.

Des ontologies, c'est un petit pas pour données ouvertes liées. Making use of linked open data means that your data is interlinked with other data, that your data is openly accessible and that your data can be shared within the semantic web. In this way your data is published in a structured and understandable way. Linked (open) data is described as a set of triples following the RDF data structure. triple is a basic set of a subject, a predicate and an object. For example, a subject is “grass”, its corresponding predicate “has color” and the object is “green”. By linking your data to other data, more knowledge and information and links to your data becomes available. This will help to increase the findability of your data.

It is true that standardized controlled vocabularies, taxonomies or ontologies are not equally developed in the disciplines. For some disciplines a broad range of standards are available whilst others have none yet. There are, however, general standards, such as the Getty Thesaurus for geographical names, which can be used across disciplines.

In EASY some metadata sections already offer (domain specific) controlled vocabularies. For instance, to describe the subject and the temporal coverage you can select term from the “Archeologisch Basis Register” (ABR) and the newer version ABRplus. These vocabularies are maintained by the Dutch “Rijksdienst voor het Cultureel Erfgoed”

For the ones among you who are interested in more technical background information: The EASY/DANS datavault offers standardised terms for creator and contributor, these are derived from DataCite . To specify a Relation the standard specification of Dublin Core is used. For language the ISO 639 standard is used and for date fields the ISO 8601 standard is used. And to specify the format of the dataset you can make use of this standardised list.

Click here if you want to know more about linked data.
Click here if you want to know more about the semantic web.
Click here if you want to know more about RDF data structure.

Additional information is information that helps users to assess the content and the relevance of the dataset they are viewing. The most important means to provide additional information is a so-called readme file in which topics like the structure of the dataset are addressed. Questions like how many files does the dataset contain and how are they related to each other? Which software has to be used to assess the data? How many versions of data are contained in the dataset? Help users to assess and contextualize the dataset. Other topics to address include but are by no means limited to methodologies used, a detailed summary of the project in which the data was collected, information about whether and how the data was cleaned, how many versions of the dataset were made etc. Information about the provenance and the versioning of your data, moreover, can be added in addition to the readme file. If you have covered most of the items on the metadata list (see explanatory text Question 1) you already provide a satisfactory amount of additional information. Nevertheless, it is important to supplement your metadata with more contextual information.

This question also relates to the letter R (reusability) of FAIR.

Click here if you want to know more about readme flies.

The accessibility of a dataset and its corresponding metadata is essential for researchers to assess and potentially reuse a dataset. The questions that you will find under accessibility concern the accessibility of the metadata over time, meaning that the repository guarantees that the metadata will be available even if the data itself is no longer available, and the usage license chosen for the dataset. The latter determines to what extent or under which circumstances the dataset can be accessed. EASY has a number of usage licenses from which to choose, depending on the content of the data. In the FAIR Principles, the automated accessibility of metadata and data by machines is also covered under Accessibility. As EASY makes use of the Dublin Core metadata schema and provides a President Identifier (see Findability) for each dataset, the machine actionability of the metadata is covered. There is no question about this technical aspect in this part.

On the EASY page where detailed information is provided about how the data should be deposited (“During depositing”), there is a list with licenses that you can choose from. Depending on the data and on whether or not the data contains personal data (see question 5) you can choose:

  • Open Access (everyone): CC0 Waver, accessible to everyone, no login in EASY required. Choose this license if your dataset doesn’t contain personal data and if you are allowed to publish it openly.
  • Open Access (registered users): accessible to registered users in accordance with the General Conditions of Use. Choose this license if your data doesn’t contain personal data but you would like users to identify themselves before downloading your data.
  • Restricted Access (request permission): with your prior consent, users can view and download data in accordance with the General Conditions of Use. You can also impose additional conditions. Choose this license if your data contains personal data.
  • Restricted Access (archaeology group): accessible to registered archaeologists and archaeology students in accordance with the General Conditions of Use. Choose this license if you are in the field of archeology.
  • Other Access: the data will be accessible through another repository. Choose this license if your data is deposited and available in another repository. Contact DANS ([email protected]) if you would like to use this license.

If you want other researchers to reuse your data, it is important that your data can be integrated in other data(sets). This process of exchanging information between different information systems such as applications, storage or workflows is called interoperability. The following actions will improve the interoperability of your data:

  • Use standardized controlled vocabularies, taxonomies and/or ontologies (see Question 2) both in describing your data (metadata level) and on in your dataset (data level)
  • Use prefered formats (see Question 7) in your dataset
  • Link to other/relevant (meta)data that are online resolvablee
  • Add contextual information to your dataset
    • Add files that explain the context in which the research was performed. You can think of documentation in the form of notebooks, version logs, software documentation, documentation about the data collection describing the hypotheses, project history and objectives of the project, documentation of methods used such as sampling, data collection process, etc. and information on access and terms of use
    • Add documentation about the structure of the dataset, for instance a readme.txt file
    • Add documentation about the content of the dataset. Provide a description on the data level such as a codebook

    Preferred formats not only give a higher certainty that your data can be read in the future, they will also help to increase the reusability and interoperability. Preferred formats are formats that are widely used and supported by the most commonly used software and tools. Using preferred formats enables data to be loaded directly into the software and tools used for data analysis. It makes it possible to easily integrate your data with other data using the same preferred format. The use of preferred formats will also help to transform the format to a newer one, in case a preferred format gets outdated.

    Click here for the list of preferred formats in EASY.

    You already answered this question under Accessible. Nevertheless, we consider it important that choosing the right usage license is highlighted under Reusable, too, as it is one of the key elements the may or may not allow other researchers to reuse a dataset. On the EASY page where detailed information is provided about how the data should be deposited (“During depositing”), there is a list with licenses that you can choose from. Depending on the data and on whether or not the data contains personal data (see question 5) you can choose:


    Discussion

    Some issues about presentations transcend the individual presentation classes. The most obvious among these are issues related to the characteristics of “good” presentations. Related to this are general principles for developing and evaluating presentations.

    Metaphor and Intuition

    Many of the articles on presentations discuss the need to develop appropriate metaphors. 14 , 21 , 46 , 46 , 119 , 120 , 121 , 122 , 123 For example, many windowed computer interfaces use a file-folder metaphor for directory structures. To convey the concept of a computer directory structure, an image of a paper file folder is used. By associating familiar objects in the real world with unfamiliar structures in the computer, users are able to borrow inferences from the real world to anticipate the behavior of the computer. In the file-folder metaphor, users can infer from the metaphor that it is possible to place things in directories and take them out. In the same way, they can infer that moving a directory from one place to another also moves the contents of the directory. However, the metaphor is not perfect. Placing a real-world file folder on a photocopier will produce an image of the outside of the folder only. Copying a computer directory duplicates not only the container but also all the contents.

    Hutchin 121 uses the term “referential distance” to describe how closely the form of the computer presentation matches the meaning of the underlying data representation the better the presentation, the lower the referential distance. Implicit in the concept of referential distance is that the user, to perform the encoding of meaning, is comparing the presentation to some internal archetypal representation 62 These archetypal representations are most likely intrinsic to the particular domain and are based on objects, knowledge structures, and presentations with which the user is already familiar 62 , 119 , 122 Cole and Stewar 46 have used the term “metaphor graphics” to describe presentations designed to “look like corresponding variables in the real world.” The term “metaphor graphic” may be confused with “icon,” but it is a more general concept describing presentations with low referential distances. Examples of metaphor graphics include configural charts, 46 iconic languages (W. G. Cole, unpublished lecture notes, 1988), and tabular displays 124 Unfortunately, there are no formal measures of metaphor or referential distance. Similarly, there is little formal methodology to aid the developer in discovering the archetypal representations in a domain.

    Developing Presentations

    There are many guides for the design of graphical user interfaces 14 , 63 , 125 , 126 Publications also discuss the selection of appropriate chart types based on data types 12 , 29 In contrast, there is a paucity of methods for developing new presentations. This is especially true for icons, where metaphor is critical. The typical approach to many presentation development problems is to create an initial design, test it on users, collect suggestions, and refine the design. This process is iterated until it is stable, or to the limits of funding. Called rapid prototyping, or iterative design, 126 this approach has been paraphrased as “I'll give the user the system. He'll break it. I'll tell him what went wrong.” 127 The unanswered question in such methods is where the initial design comes from.

    With respect to such interactive design, Goul 127 notes that “This may prove to be the quickest path to discovering optimal interfaces. but it may also lead to dead ends.” No empirical evidence, or even theory, suggests that iterations starting from any random design for a presentation will converge on an optimal presentation. Viewed in terms of referential distance, there is no reason to assume that the universe of possible presentation designs is monotonically decreasing to a single minimum referential distance. More likely, there are many local minima. Iterative improvement on some initial designs may lead to a local minimum rather than to the optimal solution. This is not to suggest that iteration is of no benefit. It is safe to say that few interface designs could not be improved with input from users, especially when the test population is representative of the actual users 128 The challenge is to develop a good starting point for the iteration.

    Some work as been done on automating the design of charts, 29 but it is not readily transferrable to other presentations. In spite of the agreement on the value of metaphor, there is a general paucity of metaphor-based methods 122 Very general terms are put forth, such as “understand how the thing itself works,” or “identify users' problems.” 119 Kuhn and Fran 122 (two of the developers of iterative design) noted several years ago that 𠇏ormal approaches are rare.” The situation has not improved significantly in recent years.

    The situation regarding icons is not significantly better: Many references, such as The Icon Book, 62 describe good icons and give general principles (such as making them analogous to real objects) but provide little insight on methodologies for developing new icons. The developer of the iconic knee magnetic resonance imaging system noted that there was “no clear reference in the literature that I have found on design of icons, on natural or intrinsic representations, other than very general mention of the problem here and there” (C. Kulikowski, written communication, 1995). Formal methods for developing new presentations are clearly needed.

    This lack of formal methods makes regular contact between developers and potential users especially important. It is critical to remember that the way users represent and visualize data in a domain may have little or no relation to the digital representation of the same data in the computer. In the absence of formal methods, informal discussions with potential users can lead to an improved understanding of how users visualize data in a domain. This understanding, in turn, will aid the developer in selecting appropriate presentations.

    Evaluating Presentations

    Once a presentation has been developed, the next question is whether it is better than a previous presentation. Tuft 129 deserves considerable credit for generally raising consciousness about the importance of good data presentation 129 Even though some of his principles have not held up under all experimental conditions, his works are still required reading for anyone developing or evaluating presentations 3

    In addition to general design principles, a variety of formal methods have been applied to the evaluation of data presentations 21 , 31 , 34 , 46 , 131 , 132 Unfortunately, many medical data presentations are never quantitatively evaluated. Rather, they are developed and shown to potential users. If those users like the new presentation, it is considered a success. Although user preference is important, it does not guarantee performance. In some cases, preference may actually be associated with decreased performance 132 In addition to user preference, data presentations are typically evaluated by two quantitative criteria. Latency is the amount of time it takes a user to answer a question based on the information in the presentation. Précision is a measure of the correctness of that answer.

    We propose another criteria—compactness. While desktop monitors continue to increase in size, a growing number of handheld devices have ever-smaller displays. This creates a demand for ever-smaller presentations. Compactness can be described as the amount of computer display, typically measured as the number of pixels, used for the presentation. When two presentations are equal in latency and accuracy, the better presentation will be the one that requires fewer pixels.

    In evaluating presentations, it is important to simulate the actual use as much as possible. Different presentations are better suited to different masks. Molenaa 131 noted that “the choice between various display methods often depends on the particular question that the viewer wants answered.” This is particularly true for configural presentations 43 Similarly, understanding whether the presentation will be used by novice or experienced users is important. The amount of time needed to look at the legend can determine whether a new presentation is better than an older one 21 Novice users will typically spend considerably more time looking at the legend than will experienced users. In the same way, determining whether the user's task is to recognize general trends or retrieve specific data elements is critical, because different presentations are optimal for these tasks 21 Although the need to tailor presentations to the particular needs of the user has been well recognized, 8 , 105 , 125 , 131 , 133 it has not been extensively applied to medical data. Configural charts, which have shown value in aviation, 134 may be valuable in medical environments with high situation-awareness requirements, such as anesthesia 135 Future research should include studies of the effectiveness of various presentations in different health care environments and with different end users.

    Multimedia Generation

    As noted before, we have not attempted to include multimedia or animated presentations in the present taxonomy. The presentation characteristics of sound and motion can be viewed as additional axes of a multidimensional taxonomy, where this taxonomy is but one axis. Many precomputed multimedia instructional titles are now available 108 The Visual Human Projec 136 , 137 is driving further advances in educational multimedia. No example of real-time patient-specific multimedia generation was located in the literature.


    Important Background Information

    The items in this section cover critical ideas, patterns, and contextual information that you will need to familiarize yourself with in order to get the most out of the CTDL family of specifications.

    Frequently Used Terms

    This handbook uses many technical terms that refer to notions like RDF, JSON-LD, Schemas, Graphs, Nodes, and so on, as well as references to various external specifications and standards. Some of these terms are described below. For more information, see the References section and the W3C Linked Data Glossary.

    Identifiants

    The CTDL family of specifications is intended to describe "things" such as a Credential, Organization, Assessment, Learning Opportunity, Competency, and so on. One of the most important aspects of describing "things" is to identify them. Identifiers in the CTDL family of specifications take on many forms, some of which can be used to reference the identified "thing" from anywhere else in the world via the Internet. The most common types of identifiers are:

    • URI: A URI is a string of characters that provides a name that is unique within a scheme and identifies either a resource or a term used to describe a resource (such as a property, class, or concept). In our context, URIs leverage namespaces and strict formatting rules that are described below.
    • URL : A URL is a specific subset of URIs (almost always beginning with either http:// or https:// ) which should lead to some kind of data, such as a webpage or JSON document. "URI" and "URL" are sometimes used interchangeably. Unless otherwise specified, any reference in this guide to a "URI" means a URL, often a Resource URI.
    • CTID: A Credential Transparency Identifier (CTID) is a string of characters made up of a UUIDv4 prefixed with ce- , for example: ce-2c2b00f7-bb83-4047-956b-cfc1135b8245 .
    • Resource URI: In the Credential Registry context, a Resource URI is a URL that features a CTID appended to https://credentialengineregistry.org/resources/ , for example: https://credentialengineregistry.org/resources/ce-2c2b00f7-bb83-4047-956b-cfc1135b8245 . Such a Resource URI can be used to retrieve the data for a resource directly from the Registry. Many of the examples in this guide use res: as a shorthand for https://credentialengineregistry.org/resources/ .
    • Graph URI: In the Credential Registry context, a Graph URI is a URL that features a CTID appended to https://credentialengineregistry.org/graph/ , for example: https://credentialengineregistry.org/graph/ce-2c2b00f7-bb83-4047-956b-cfc1135b8245 . Such a Graph URI can be used to retrieve the data for a resource, as well as any blank nodes tied to that resource, directly from the Registry.
    • Blank Node Identifier: A blank node, or "BNode", is a special type of resource representation that is only identified, referenced, or retrievable in the context of some other object. Blank node identifiers have a special syntax that begins with _: followed by some string of characters that are unique within that context, such as _:resource1 or _:abc123 , or most often, a UUID (e.g., _:734ca853-f178-4ffc-a102-88cb8eed6942 ).

    Many other identifiers, such as DUNS, IPEDS ID, CIP Codes, etc., have specific properties assigned to them. For those that do not, CTDL provides the Identifier Value class to enable providing the textual identifier and its origin.

    RDF and Linked Data

    The CTDL family of specifications is built on the principles of the Resource Description Framework (RDF) approach to describing data.

    The "triple" is the basic grammatical construct in making RDF data assertions about "things" and consists of three simple components: a matière, une predicate and an objet. Some find it useful to think of the subject as the thing being described and the predicate and object as an "attribute-value" pair.

    The following table contains a simple set of such three-part assertions about a dental assisting certificate. The entities (things) in the set are a:

    1. A Credentialing Organization
    2. A Credential (Certificate)
    3. A required Learning Opportunity Profile
    4. A required Competency
    5. A Quality Assurance Organization

    The table is followed by the same data as a directed graph (abstract syntax). Where relevant, the icons for the JSON-LD and Turtle concrete syntaxes appear below the figure.

    MatièrePredicateObject
    Thing-1taperCredentialOrganization
    Thing-1NomSanta Rosa Junior College
    Thing-1offersThing-2
    Thing-1accreditedByThing-5
    Thing-2taperCertificat
    Thing-2NomDental Assisting
    Thing-2a besoinThing-3
    Thing-2a besoinThing-4
    Thing-3taperLearningOpportunityProfile
    Thing-3NomApplied Dental Science
    Thing-4taperCompetency
    Thing-4competencyTextGraduates of the dental assisting program will be able to make ethical decisions, and demonstrate problem-solving abilities through independent and critical thinking.
    Thing-5taperQualityAssuranceOrganization
    Thing-5NomAmerican Dental Association, Commission on Dental Accreditation.

    This set of terse statements in the 3-part grammatical form of triples is expressed in the abstract syntax of the directed graph below.

    Namespaces and Borrowed Terms

    URIs provide unambiguous identification through the use of names that are unique within their own naming schemes, or namespaces. Each namespace will have its own identifier, to which the name of a resource can be appended to create a unique identifier that is a combination of namespace+name. In the case of URLs, the namespace identifier will specify the protocol that may be used to retrieve a representation of the resource being identified, thus URLs that use the HTTP protocol begin http: . In order to assist readability it is common practice to provide an abbreviated prefix for the namespace part of the URI. These prefixes must be declared in the data where they are used, and so may vary from instance to instance, however it is conventional to use familiar prefixes suggested by the specifications that define the namespaces.

    So, W3C Recommendation RDF Schema, which specifies a vocabulary for describing terms used in RDF, defines the namespace that is identified with the URI http://www.w3.org/2000/01/rdf-schema# , and often abbreviated as rdfs: . The term within that namespace called label , is identified with the URI http://www.w3.org/2000/01/rdf-schema#label or the abbreviation rdfs:label .

    The CTDL family of specifications defines the following namespaces for properties and classes, with suggested abbreviated prefixes:

    Namespace URIAbréviationCommenter
    https://purl.org/ctdl/terms/ceterms:Used to identify classes and properties in the CTDL vocabulary.
    https://purl.org/ctdlasn/terms/ceasn:CTDL Profile of ASN-DL (CTDL-ASN) Schema, see below.
    https://credreg.net/qdata/terms/qdata:The CTDL Quantitative Data schema (QData for short) is intended to describe aggregate / statistical data related to credentials and other such information.
    http://credreg.net/meta/terms/meta:Terms and classes used to aid in the management of schemas by the Credential Engine. Not intended for external implementation.

    Other namespaces are used for concept schemes that form part of CTDL see below.

    Terms from many other specifications are used in defining CTDL, these are listed in the references section of the CTDL Schema.

    CTDL allows the use of terms from other RDF specifications when describing resources. In some cases CTDL has been designed in the expectation that this will happen. So rather than having terms in CTDL for everything, the recommendation is that terms from some other specification should be used. For example, in the Education to Work context, Occupations and Jobs may be classified according to category if they are, it is recommended that the W3C Simple Knowledge Organization System (SKOS) vocabulary is used to describe these categories. An introduction to SKOS is provided by the SKOS Primer.

    JSON-LD

    RDF can be expressed in a number of formats, including triples, Turtle, and XML, but the most common format used for CTDL data is JSON-LD. JSON-LD is a specification that builds upon normal JSON to enable a standardized way to express RDF data.

    In some cases, the JSON-LD specification offers multiple options for expressing data that are equally valid. This handbook (along with the other technical data on this site) and the data in the Credential Registry usually follows the following conventions:

    • Context Files: Records typically link to an external @context file, most often either http://credreg.net/ctdl/schema/context/json or http://credreg.net/ctdlasn/schema/context/json. This reference is found at the outermost object in the data. See "Referencing a JSON-LD context"
    • Graphiques : Examples on this page make use of the @graph feature of JSON-LD, which enables putting multiple related objects into the same array. Data in the Credential Registry is available using this feature if you use "graph" instead of "resources" in the URI for that data. See "Using @graph to explicitly express the default graph"
    • Namespace Prefixes: Examples on this page and data in the Credential Registry use namespaced properties (via shorthand URIs that can be expanded via the @context), even where only one namespace is used. This is done to provide absolute clarity as to the meaning of a given property, consistency of data when publishing or consuming, and to encourage good habits in terms of format, capitalization, and so on. For example: < "ceterms:ctid": "ce-c6bffa5f-be74-4f98-963f-1cc536328c73" >instead of < "ctid": "ce-c6bffa5f-be74-4f98-963f-1cc536328c73" >. See "Expansion within a Context"
    • Language Maps: Examples on this page and data in the Credential Registry uses the compact form of language maps where the value of language-dependent properties such as "name" or "description" is an object with one or more key-value pairs consisting of a BCP 47 language code key and a value that is either a string or an array of strings. For example: < "ceterms:name": < "en": "Credential Name" >, "ceterms:keyword": < "en": [ "keyword one", "keyword two" ] >> . See "Indexing language-tagged strings in JSON-LD"

    Concept Schemes for Controlled Vocabularies

    Where the value for a property is to be drawn from an enumeration of predefined terms (i.e. a controlled vocabulary) these terms are defined using the W3C Simple Knowledge Organization System (SKOS) vocabulary. SKOS allows Concepts to be identified with terms (such as words or alphanumeric codes), defined, labeled, related to each other and collected in schemes (i.e. Concept Schemes). CTDL defines many such enumerations or schemes, each in its own namespace. The URIs for CTDL concept scheme namespaces all begin https://purl.org/ctdl/vocabs/ , which is followed by a name for the concept scheme. The name of the term appended to the concept scheme URI gives a unique URI for the term that can be resolved to obtain all the encoded information about the term.

    For historic reasons, a common pattern in CTDL is for properties that take a value from controlled vocabulary do so with that value provided as a CredentialAlignmentObject. This allows for a label, a definition and a source for the term to be provided even where the concept term is not defined using SKOS however for a few properties the SKOS vocabulary is used to do the same.

    Primary and Secondary Classes

    It is common in both Registry and non-Registry contexts to group the various CTDL classes into two basic categories:

    These designations are informal and occasionally inconsistent or context-dependent, but generally, "Primary" classes refer to classes with a CTID (and, by extension, a Registry URI) while "Secondary" classes are, in essence, everything else. The "Primary" classes tend to serve as entry points into a graph of data and are often the focus of the data itself, whereas the "Secondary" classes act to support or enhance the description of the data in the "Primary" classes. Additionally, "Secondary" classes often appear in more than one context, and the nature of that context usually depends on whatever property references that class.

    For example, the "Primary" class of Certificate might have a set of requirements and a set of recommendations that are both described using the "Secondary" ConditionProfile class, but each instance of ConditionProfile is contextualized by the property that points to it (requires and recommends, respectively). This allows the Certificate to, for instance, require one set of competencies and recommend a second set using the same data structure.

    Another common example is the CredentialAlignmentObject class, which serves the function of "referencing and/or identifying something else" in a wide variety of contexts (controlled vocabularies, competencies, external classifications, and so on).

    Some classes occupy both designations depending on how they are used: For instance, a Competency has a CTID and a Registry URI just like a "Primary" class, but is often used as a "Secondary" class for the also "Primary" CompetencyFramework class. In the Registry, Competency Frameworks and their member Competencies are published in the same JSON-LD Graph, but each can be independently retrieved (and retrieving the Graph for the Competency Framework will return its Competencies as well). The same mixed designation and Registry behaviors follow for other "framework-like" collections of closely-related classes, such as Concept Schemes and their member Concepts, as well as Pathways and their member PathwayComponents.

    Further blurring the line is the Registry's use of RDF Blank Nodes, which often représenter would-be instances of "Primary" classes but have no assigned CTID or Registry URI. An example of such usage is described here. This highlights the informal nature of these designations. Nevertheless, they are useful conversational aides and worth being aware of.

    The following diagram depicts common designations of a selection of "Primary" and "Secondary" classes, along with a partial list of connections between them to give a sense of how highly interconnected the CTDL schema is. Note that for readability, this graph also omits connections between "Primary" classes (such as an Organization owning a Credential), as well as connections between "Secondary" classes (such as a ConditionProfile using a CredentialAlignmentObject to indicate its audienceLevelType).

    Data in the Wild vs Data in the Credential Registry

    Credential Engine maintains a centralized repository of information that uses the CTDL family of specifications. This repository, and its related services, are called the Credential Registry.

    Credential Engine puts a great deal of focus on using CTDL in and with the Credential Registry. However, the CTDL family of specifications is explicitly designed to function as an openly licensed, standalone set of schemas for use by anyone in any context in which it is deemed useful. Credential Engine encourages such use for the following reasons:

    • It increases interoperability across the credentialing ecosystem
    • It becomes easier to publish to and consume from any CTDL-conformant system (including Credential Engine's Credential Registry) when an organization's own systems are already using CTDL
    • Communication and data exchange between organizations becomes easier when those organizations are already using the same terms to describe their data
    • CTDL is designed to be compatible with major search engine crawlers, meaning that organizations that use CTDL embedded in their website data stand to benefit as search engines begin to recognize CTDL terms

    In general, this handbook covers the CTDL family of specifications as a standalone set of schemas. Where information in this handbook is specific to the Credential Registry, it will be noted.

    Application Profiles

    Any implementation of CTDL is likely to need some additional constraints that are specific to that application. Collectively, these constraints make up an "Application Profile" of CTDL. Since these constraints are "local" to a specific application, they are deliberately not part of the CTDL itself. Examples of such constraints include:

    • Certain terms being required
    • Certain terms not being used at all
    • Determining which properties allow multiple values
    • Limits on the maximum or minimum number of values for a property, such as the maximum number of keywords or the minimum length of a description
    • Permitting only certain subsets of a property's range as valid values for that property
    • Extensions to the schema(s) that are specific to that application, such as properties and classes defined in its own or some 3rd party's namespace
    • Checks for valid values, such as working links or correctly-formatted email addresses
    • Determining when to embed data directly (such as a nested object in JSON) vs. when to reference it by a URI or blank node ID

    As noted above, the Credential Registry uses the CTDL family of specifications. However, the Credential Registry implementation of CTDL has some additional constraints that are not part of these specifications. These constraints make up the Registry's "Application Profile" of CTDL. For a more detailed listing of the constraints in place for the Registry, consult the Policy Page.

    For more information about constructing your own Application Profile, see the DCAP Process.


    The Value of Sharing Data

    This paper seeks to convince readers of the benefits of creating a data management plan, maximizing the quality and usability of secondary data, sharing data and preserving it for the long-term. Likewise, we hope that our set of recommendations and resources therein make this considerable task more achievable to researchers at all levels of skill and capacity. Data sharing within the scientific community is widely encouraged (Hampton et al. 2013 ) according to the Committee on Responsibilities of Authorship in the Biological Sciences, scientists are obligated to make their data available to others in a format that other scientists can use in future research (Council of Science Editors 2014 ). Some suggest making data sharing a mandatory condition of funders and publishers, and to increase the value of sharing by making datasets publishable and citable (Balmford 2005 Reichman et al. 2011 Whitlock 2011 Goring et al. 2014 ). Indeed, many journals now require that data are publicly available, including PlosOne, Scientific Reports and all British ecology journals. Some opponents to data sharing are cautious of sharing sensitive data on threatened species, when illegal hunting is a primary threat. Engaging the public in “citizen science” has great potential to raise interest in conservation, while expanding the scope and scale of research (Swanson et al. 2015 ).

    Data are the currency of research and are payoff for all effort invested in planning, fundraising and undertaking research activities. Collection of bycatch data represents a significant portion of that time and effort. Sharing and combining data over multiple sites harnesses the power of bycatch data, broadens the scope of research, creates multi-collaborator studies and leads to valuable scientific publications. The TEAM network, for example, has published several multi-collaborator research papers on community structure and population trends of threatened tropical species (Ahumada et al. 2011 Beaudrot et al. 2016 Jansen et al. 2014 ). Likewise, The Serengeti Lion Project has studied the distribution and community interactions of over 30 species across the Serengeti landscape (Swanson et al. 2015 ), and their bycatch data have led to multiple collaborations (A. Swanson, pers. comm., 2017). Bycatch data pooled across multiple smaller studies have led to publications on regional and range-wide studies of many threatened mammals in Southeast Asia, including Asian tapir Tapirus indicus, gaur Bos gaurus, sambar Rusa unicolor, red muntjac Muntiacus muntjak, wild pig Sus scrofa (Lynam 2012 ), small carnivores in Thailand (Chutipong et al. 2014 ) and almost all the carnivore species occurring on the island of Borneo (Mathai et al. 2016 ). Bycatch data for the Asian tapir, collected mainly on tiger Panthera tigris surveys, led to an extension of the known tapir range in Southeast Asia (Linkie et al. 2013 ). Collaborations can allow researchers to estimate population densities of hard-to-detect species, such as clouded leopards Neofelis nebulosa data from one site are often of limited use, but it is possible to analyse detections across multiple sites using techniques such as Spatially Explicit Capture Recapture (e.g. Gardner et al. 2010 ). Open and efficient sharing of camera trap bycatch data has the potential to create endless research opportunities, improving ecological understanding of poorly studied species, from accessing basic information on species distribution and abundance, to allowing the development of complex hypotheses related to habitat preferences, lifecycles, behaviour and response to human disturbance and management interventions.


    Voir la vidéo: Symbologie - style catégorisé