Suite

Comment comparer un jeu de données raster classifié à un autre jeu de données surfaciques ?

Comment comparer un jeu de données raster classifié à un autre jeu de données surfaciques ?


Je vais effectuer une classification non supervisée sur mon jeu de données et obtenir une carte en conséquence. L'objectif est de reconstruire une carte déjà existante (de différents types de sols) avec mon nouveau jeu de données. Malheureusement, je n'ai aucune information de données sous-jacente à la carte existante - juste les entités surfaciques et leurs différentes classes.

Mon problème est: Comment puis-je valider quel résultat de classification non supervisé a une meilleure corrélation avec la carte existante ?

Le principal problème consistera à comparer les schémas spatiaux des polygones et ainsi à en déduire quel résultat de classification représente le mieux la carte existante. (Je ne veux pas faire juste une comparaison visuelle, mais une comparaison analytique-mathématique.)

Mon jeu de données à partir duquel je vais effectuer la classification non supervisée est basé sur une trame. L'autre carte (déjà existante) se compose de polygones (dans des fichiers de formes) avec rien de plus que les informations sur le type de classe qui a été attribué.

Je serais heureux si vous pouviez m'aider avec une méthodologie ou un processus approprié. (Je travaille soit en R, QGIS et ARCGis).


Après quelques recherches, je suis tombé sur une approche statistique très prometteuse : l'indice Rand. Dans R, il existe différentes implémentations (packagemclust&flexclust) - Je les traiterai dans les prochains jours et j'espère pouvoir fournir plus d'informations sur le sujet dans un moment.


Je n'ai pas de réponse très concrète pour vous, mais voici quelques considérations qui pourraient vous aider. Je suppose que vous avez deux problèmes distincts ici

Vous devez d'abord faire correspondre les valeurs de classification non supervisées aux valeurs existantes. Cela concerne également le nombre de classes que votre classification non supervisée créera. Je pense que pour certains algorithmes de classification, vous pouvez spécifier cela, et je vous recommanderais de fixer le nombre de classes dans le classificateur au nombre de classes dans le shapefile.

Mais même avec le même nombre de classes, il n'est pas évident de savoir comment vous feriez correspondre les valeurs, car elles ne seront pas les mêmes (c'est-à-dire que la valeur 1 dans la classification pourrait ne pas être la catégorie de sol 1).

Après avoir fait correspondre les classes, la deuxième tâche serait de déterminer la qualité de la classification. Ici, vous pouvez pixelliser votre fichier de formes (le convertir en raster), puis effectuer une comparaison pixel par pixel et calculer une matrice de confusion. Il existe de nombreuses publications scientifiques sur l'évaluation de la qualité d'une classification.

Vous pouvez en quelque sorte effectuer ces deux étapes en une seule en calculant les statistiques zonales du raster classé et en examinant la moyenne et la variance pour voir si les pixels d'un polygone sont constants et correspondent à la classe attendue.

Dans l'ensemble, je ne sais pas pourquoi vous voulez faire une classification non supervisée. Si vous avez des données de sol cible dans des polygones, vous pouvez les pixelliser et effectuer une classification supervisée à la place, ce qui résoudrait le premier problème décrit ci-dessus.


Comment comparer un jeu de données raster classifié à un autre jeu de données surfaciques ? - Systèmes d'information géographique

Annexe C : Traitement des données spatiales pour les entrées CMAQ

La modélisation de la qualité de l'air nécessite de nombreuses données spatiales pour générer des données anthropiques, biogéniques, d'incendie, de sel marin, de poussière et de NH3 émissions. En outre, les caractéristiques de la surface terrestre telles que les types de couverture terrestre avec l'indice de surface foliaire de la végétation (LAI) et la fraction, l'albédo et les types de sol sont nécessaires pour modéliser les échanges de chaleur, d'humidité et de quantité de mouvement entre la terre et l'atmosphère et le dépôt sec de traces. produits chimiques (par exemple O3 et NH3). Il est important d'utiliser un système de coordonnées cohérent pour toutes les données géospatiales utilisées dans la modélisation des émissions, de la météorologie et de la qualité de l'air. La plupart des données géospatiales requises pour la modélisation Sparse Matrix Operator Kernel Emissions (SMOKE)/Weather Research and Forecasting (WRF)/CMAQ peuvent être générées à l'aide de Spatial Allocator (SA) qui comprend trois composants développés pour des applications spécifiques : et des outils de substitution.

En utilisant les données spatiales, il est important de connaître le datum, qui est une surface sphéroïdale (soit sphérique ou ellipsoïdale) qui représente la surface de la terre, et la projection, qui est une transformation mathématique qui convertit un emplacement sur le datum en l'emplacement sur un plan plat. Les sections suivantes décrivent brièvement les données et projections appropriées à utiliser avec le système CMAQ et les méthodes pour générer les données spatiales nécessaires sous la forme correcte.

Un système de référence géodésique est un système de coordonnées utilisé pour définir un emplacement sur la Terre. Il existe de nombreuses références utilisées dans les ensembles de données spatiales en fonction de leurs régions géographiques et de la manière dont la surface de la Terre est approximée en tant que sphéroïde. La plupart des données géospatiales des États-Unis sont définies dans le North American Datum of 1983 (NAD83) et les ensembles de données mondiaux sont souvent définis dans le World Geodetic System 1984 (WGS84).

Les ensembles de données WRF sont en WGS84. Tous les ensembles de données géographiques latitude-longitude utilisés dans une simulation CMAQ, tels que les fichiers de formes d'émissions, les fichiers de données d'utilisation des terres ou biogéniques et le fichier océanique, doivent être dans WGS84 afin qu'ils soient spatialement alignés avec les fichiers WRF. Pour les simulations sur l'Amérique du Nord, le NAD83 n'est que légèrement différent du datum WGS84. Par conséquent, NAD83 peut être utilisé pour les domaines de l'Amérique du Nord sans introduire de problèmes de désalignement spatial dans les jeux de données du modèle.

C.3 Projection de données spatiales

CCTM peut utiliser n'importe laquelle des quatre projections cartographiques définies pour WRF. Les quatre systèmes de coordonnées de projection cartographique sont la latitude-longitude géographique régulière, la conique conforme de Lambert, la stéréographie de Mercator et la polaire. Cependant, les utilisateurs doivent noter que plusieurs des outils PREP et POST qui font partie du système CMAQ ne supportent actuellement pas la projection Mercator. Ceux-ci incluent ICON, BCON, sitecmp, sitecmp_dailyo3, bldoverlay, hr2day et writesite.

Il est important de savoir qu'en projetant des données spatiales figurant dans WGS84 vers la projection CMAQ ou en projetant des données CMAQ vers une autre projection cartographique, les utilisateurs NE DEVRAIENT PAS effectuer de transformation de datum. Ceci est cohérent avec le système de prétraitement WRF (WPS). La transformation des données entraînera un déplacement de l'emplacement géographique.

La projection du domaine CMAQ est définie via la bibliothèque logicielle de transformation de coordonnées PROJ en utilisant une surface sphérique avec un rayon terrestre de 6370000 m pour correspondre à la définition de la projection du domaine WRF. Une fois qu'un jeu de données d'entrée est dans WGS84, les exemples suivants peuvent être utilisés pour définir la transformation de projection nécessaire pour faire correspondre les données WRF :

Conique conforme de Lambert : "+proj=lcc +a=6370000.0 +b=6370000.0 +lat_1=33 +lat_2=45 +lat_0=40 +lon_0=-97"

Stéréographique polaire : "+proj=stere +a=6370000.0 +b=6370000.0 +lat_ts=33 +lat_0=90 +lon_0=-97 +k_0=1.0"

Mercator : "+proj=merc +a=6370000.0 +b=6370000.0 +lat_ts=33 +lon_0=0"

Géographique : "+proj=latlong +a=6370000.0 +b=6370000.0"

C.4 Génération de données spatiales

Des substituts d'allocation spatiale des émissions sont nécessaires pour générer des émissions anthropiques par SMOKE afin d'allouer spatialement des inventaires d'émissions par comté aux cellules de grille de modèle. Les substituts d'émission peuvent être basés sur la population, les routes, les aéroports, les chemins de fer et les ensembles de données spatiales sur l'utilisation des terres. Les outils SA Vector et Surrogate peuvent être utilisés pour générer tous les substituts d'émission nécessaires pour SMOKE.

Émissions biogéniques nécessitent l'utilisation des terres, y compris différentes espèces d'arbres. Il existe deux façons de calculer l'entrée requise pour le domaine couvrant les États-Unis continentaux (CONUS).

  1. La méthode originale—re-grille la base de données sur l'utilisation des sols des émissions biogéniques, version 3 (BELD3) à l'aide d'un outil d'allocation de vecteur SA. Les données BELD3 sont générées à partir des données AVHRR sur la couverture terrestre du début des années 1990 et des espèces d'arbres FIA au niveau du comté.
  2. La deuxième méthode : utiliser l'outil de génération de couverture terrestre SA Raster BELD4 pour générer des données d'utilisation des terres du domaine modèle avec des espèces d'arbres. Ensuite, un utilitaire fourni est utilisé pour convertir les données d'occupation du sol générées en un format API d'E/S pour l'entrée CMAQ. La limitation de cet outil est que le tableau des espèces d'arbres FIA au niveau du comté du début des années 1990 est toujours utilisé pour allouer les espèces d'arbres FIA (c'est également le cas pour la 1ère approche).

Émissions d'incendie nécessitent l'emplacement de l'incendie, les zones brûlées et des informations détaillées sur la charge de combustible. Les emplacements des incendies sont disponibles via les détections par satellite du Hazard Mapping System (HMS) ou les rapports au niveau du sol de l'application Web National Fire and Aviation Management. Les estimations de la zone de brûlage peuvent être obtenues à partir de sources SIG telles que le site Web Geospatial Multi-Agency Coordination (GeoMac) ou l'ensemble de données du bassin de données des périmètres historiques des incendies des États-Unis. La charge de carburant est estimée à l'aide d'un ensemble de données géospatiales tel que le système de classification des caractéristiques du carburant du US Forest Service (FCCS). Toutes ces sources d'information peuvent être utilisées pour estimer les émissions des incendies. Un exemple d'outil qui peut être utilisé pour générer des émissions d'incendie est le cadre de modélisation BlueSky. BlueSky relie de manière modulaire une variété de modèles indépendants d'informations sur les incendies, la charge de combustible, la consommation d'incendie, les émissions d'incendie et la dispersion de la fumée. L'utilisation de ces outils et l'estimation des émissions d'incendies peuvent être assez complexes, c'est pourquoi des ensembles de données sur les émissions d'incendies ont été créés pour la communauté. Des exemples de tels ensembles de données sont l'inventaire des incendies du Centre national de recherche atmosphérique (FINN) ou la base de données mondiale sur les émissions d'incendies (GFED).

Émissions d'embruns marins nécessitent des fractions tampons de haute mer et de zone de surf (50 m) pour les cellules de grille de modélisation dans un fichier API d'E/S. Pour la majeure partie du domaine nord-américain, un outil d'allocation de vecteur SA peut être utilisé pour générer la zone de surf et le fichier océan ouvert à partir d'un fichier de formes de polygones avec la terre, le tampon de zone de surf et l'océan ouvert dans le répertoire de données SA. Pour les zones en dehors des États-Unis, les utilisateurs doivent générer un fichier de formes de polygones de zone de surf avec le même attribut que le fichier dans la SA pour utiliser l'outil. Consultez le didacticiel CMAQ sur la création d'un fichier océanique pour obtenir des instructions étape par étape sur la création de ce fichier d'entrée CMAQ. Le chapitre 6 contient des informations supplémentaires sur le module embruns du CMAQ.

Émissions de NH3 provenant des terres agricoles peut être estimée à l'aide du modèle NH3 bidirectionnel CMAQ. L'entrée pour le CMAQ bidirectionnel NH3 Le modèle est généré par l'outil de scénario d'émission d'engrais pour le système CMAQ (FEST-C). FEST-C contient trois composants principaux : l'interface Java, le modèle EPIC (Environmental Policy Integrated Climate) et SA Raster Tools. L'interface guide les utilisateurs tout au long de la génération des données d'utilisation des terres et des cultures requises et des fichiers d'entrée EPIC, de la simulation d'EPIC et de l'extraction de la sortie EPIC pour CMAQ. Les données d'utilisation des terres BELD4 générées par FEST-C doivent être converties en un format API d'E/S à l'aide d'un programme utilitaire dans FEST-C pour l'entrée CMAQ. Notez que les données BELD4 utilisées pour FEST-C sont générées par la 2ème approche décrite ci-dessus dans Approches de génération d'émissions biogéniques.


Comment comparer un jeu de données raster classifié à un autre jeu de données surfaciques ? - Systèmes d'information géographique

Boîte à outils intelligente Dasymetrique pour ArcGIS Pro

La cartographie disymétrique est une technique géospatiale qui utilise des informations telles que les types de couverture terrestre pour distribuer plus précisément les données dans des limites sélectionnées comme les blocs de recensement.

La boîte à outils Intelligent Dasymmetric Mapping (IDM) est disponible pour ArcGIS Pro. Une version supplémentaire est disponible et utilise des bibliothèques SIG open source.

  • Les chercheurs d'EnviroAtlas utilisent les données disymétriques pour calculer la distribution des services écosystémiques et d'autres mesures, notamment les distances de marche, les points de vue, l'utilisation des ressources et le potentiel d'exposition.
  • Pour plus d'informations sur les données Dasymetric créées pour EnviroAtlas, consultez notre site Web ou la fiche d'information sur l'allocation dasymétrique de la population.

L'Intelligent Dasymetric Toolbox a été développé pour ArcGIS Pro. Les extensions Spatial Analyst et 3D Analyst sont requises.

L'utilisation de cet outil peut nécessiter d'augmenter le nombre maximum de valeurs uniques que l'outil « Combiner » peut produire.

Vous pouvez augmenter ce nombre en modifiant un paramètre dans ArcGIS Pro. Sur le Projet onglet, sélectionnez Options et sélectionnez le Raster et imagerie choix. Dans la boîte de dialogue, sélectionnez le Jeu de données raster choix et entrez une valeur appropriée pour le Nombre maximum de valeurs uniques à afficher.
https://pro.arcgis.com/en/pro-app/tool-reference/spatial-analyst/combine.htm

L'utilisateur peut fournir une classe d'entités inhabitée facultative. Cette classe d'entités doit contenir des polygones où aucune population n'est censée résider. Les polygones de la classe d'entités sont classés comme une classe auxiliaire inhabitée et la densité de population représentative pour cette classe est prédéfinie à 0 personne par pixel.

L'utilisateur peut définir une densité de population pour n'importe quelle classe auxiliaire en utilisant sa propre connaissance du domaine en modifiant le fichier « config.json » dans le répertoire racine de la boîte à outils.

Les densités prédéfinies pour les classes d'occupation du sol suivantes de la base de données nationale sur l'occupation du sol (NLCD) 2011 sont définies sur 0 personne par pixel :

Paramètre La description
Caractéristiques de la population Les unités source avec des chiffres de population et un identifiant unique à convertir en raster.
Champ Nombre de population Le champ dans les entités de population qui stocke les dénombrements de population.
Champ clé de population Le champ dans les entités de population qui stocke l'identifiant unique de l'unité source.
Raster auxiliaire Le jeu de données raster auxiliaire à utiliser pour redistribuer la population. La taille de cellule et la référence spatiale du raster auxiliaire sont utilisées pour tous les rasters en sortie de cet outil. L'utilisation des terres ou la couverture des terres sont les ensembles de données auxiliaires les plus fréquemment utilisés, mais tout ensemble de données comportant des classes de densité de population relativement homogène pourrait être utilisé ici.
Fichier inhabité (facultatif) Classe d'entités contenant les zones inhabitées de la zone d'étude.
Échantillon minimal Il s'agit du seuil minimal d'unités sources représentatives requis pour qu'une classe auxiliaire soit considérée comme échantillonnée. Nous avons constaté que si seulement un petit nombre (1-3) était échantillonné, ces unités n'étaient souvent pas vraiment représentatives des autres dans cette classe auxiliaire, et la méthode de pondération spatiale intelligente (IAW) donnait de meilleurs résultats. Toute classe qui n'est pas préréglée ou suffisamment échantillonnée se verra attribuer une densité à l'aide de la méthode IAW. La valeur par défaut est 3.
Zone d'échantillonnage minimale Le nombre minimum de cellules raster qui peuvent être considérées comme « représentatives » d'une zone source. L'augmentation de ce nombre peut éliminer de très petites zones qui pourraient être considérées comme des valeurs aberrantes anormales qui pourraient fausser la moyenne de la classe. La valeur par défaut est 1.
Pour cent Le script calculera le pourcentage de superficie que chaque classe auxiliaire couvre dans chaque unité source, et toute unité source avec une classe auxiliaire supérieure au seuil de pourcentage de superficie sera considérée comme représentative de cette classe. Veuillez spécifier la valeur seuil en pourcentage en notation décimale. La valeur par défaut est de 0,95.
Répertoire de sortie Le répertoire où toutes les sorties de l'outil seront enregistrées.

Paramètre Valeur
Caractéristiques de la population 2010_blocks_DE.shp
Champ Nombre de population POP10
Champ clé de population polyID
Raster auxiliaire nlcd_2011_DE.tif
Fichier inhabité uninhab_DE.shp
Échantillon minimal 3
Zone d'échantillonnage minimale 1
Pour cent 0.95
Répertoire de sortie

Agence de protection de l'environnement des États-Unis
Bureau de la recherche et du développement
Durham, Caroline du Nord 27709
https://www.epa.gov/enviroatlas/forms/contact-us-about-enviroatlas

La boîte à outils intelligente Dasymetric pour ArcGIS Pro a été développée pour EnviroAtlas. EnviroAtlas est un effort de collaboration dirigé par l'EPA des États-Unis qui fournit des données géospatiales, des outils faciles à utiliser et d'autres ressources liées aux services écosystémiques, à leurs facteurs de stress et à la santé humaine.

La boîte à outils asymétrique a été mise à jour pour ArcGIS Pro en janvier 2020 par Anam Khan 1 et Jérémy Baynes 2 . Cette version a également introduit une fonctionnalité facultative pour masquer les zones inhabitées connues.

La boîte à outils a été initialement développée pour ArcMap 10 par Torrin Hultgren 3

La boîte à outils asymétrique suit les méthodes en Mennis et Hultgren (2006) 4 .

1 Universités associées d'Oak Ridge, entrepreneur national des services aux étudiants à l'EPA des États-Unis
2 EPA des États-Unis
3 Équipe nationale de soutien géospatial à l'EPA des États-Unis
4 Mennis, Jeremy & Hultgren, Torrin. (2006). Cartographie Dasymetrique Intelligente et son application à l'interpolation surfacique. Cartographie et sciences de l'information géographique. 33. 179-194.

Copyright (c) 2019 Gouvernement fédéral des États-Unis (dans les pays où ils sont reconnus)

L'autorisation est par la présente accordée, gratuitement, à toute personne obtenant une copie de ce logiciel et des fichiers de documentation associés (le "Logiciel"), de traiter le Logiciel sans restriction, y compris, sans limitation, les droits d'utilisation, de copie, de modification, de fusion , publier, distribuer, sous-licencier et/ou vendre des copies du Logiciel, et permettre aux personnes auxquelles le Logiciel est fourni de le faire, sous réserve des conditions suivantes :

L'avis de droit d'auteur ci-dessus et cet avis d'autorisation doivent être inclus dans toutes les copies ou parties substantielles du logiciel.

LE LOGICIEL EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'AUCUNE SORTE, EXPRESSE OU IMPLICITE, Y COMPRIS MAIS SANS S'Y LIMITER LES GARANTIES DE QUALITÉ MARCHANDE, D'ADAPTATION À UN USAGE PARTICULIER ET D'ABSENCE DE CONTREFAÇON. EN AUCUN CAS LES AUTEURS OU TITULAIRES DE DROITS D'AUTEUR NE POURRONT ÊTRE TENUS RESPONSABLES DE TOUTE RÉCLAMATION, DOMMAGES OU AUTRE RESPONSABILITÉ, QU'IL SOIT DANS UNE ACTION CONTRACTUELLE, DÉLICTUELLE OU AUTRE, DÉCOULANT DE, OU EN RELATION AVEC LE LOGICIEL OU L'UTILISATION OU D'AUTRES OPÉRATIONS DANS LE LOGICIEL.

Le code de projet GitHub de l'Agence de protection de l'environnement des États-Unis (EPA) est fourni « tel quel » et l'utilisateur assume la responsabilité de son utilisation. L'EPA a renoncé au contrôle des informations et n'a plus la responsabilité de protéger l'intégrité, la confidentialité ou la disponibilité des informations. Toute référence à des produits, processus ou services commerciaux spécifiques par marque de service, marque déposée, fabricant ou autre, ne constitue ni n'implique leur approbation, recommandation ou faveur par l'EPA. Le sceau et le logo de l'EPA ne doivent en aucun cas être utilisés pour impliquer l'approbation d'un produit ou d'une activité commerciale par l'EPA ou le gouvernement des États-Unis.


Laboratoire 1

Question 1 : Quelles informations l'onglet Source fournit-il sur le fichier de formes d'états ?

  • L'onglet Source fournit les éléments suivants :
    • Type de données : classe d'entités Shapefile
    • Fichier de formes : Z:Geog482_7Student_DatajosieiLab1Datacb_2014_us_state_500k.shp
    • Type de géométrie : Polygone
    • Les coordonnées ont des valeurs Z : Oui
    • Les coordonnées ont des mesures : Oui
    • Système de coordonnées géographiques : GCS_North_American_1983
    • Référence : D_North_American_1983
    • Premier méridien : Greenwich
    • Unité angulaire : Degré
    • Avec l'étendue des données qui est en haut : 71.365162 dd, à gauche : -179.148909 dd, en bas : -14.548699 dd et à droite : 179.778470 dd.

    Question 2 : Dans quel système de coordonnées se trouve cette couche ? Est-ce un système de coordonnées géographiques ou projetées ? Quelle est la différence entre ces deux types de systèmes de coordonnées ?

    • Cette couche est dans le système de coordonnées géographiques GCS North American 1983. Un système de coordonnées géographiques est défini par une surface 3D et est mesuré en utilisant la latitude et la longitude tandis qu'un système de coordonnées projetées est défini par une surface 2D et est mesuré en unités ou mètres, pieds, etc.

    Question 3 : Comparez les différentes projections. Comment la forme des États-Unis continentaux change-t-elle à chaque projection ?

    • Albers Equal Area Conic : La forme des États-Unis continentaux devient plus arrondie le long des côtés avec cette projection, en particulier sur les côtés où ils semblent légèrement arrondis vers le haut.
    • Mercator : La forme des États-Unis devient plus familière car cette projection est couramment utilisée dans les cartes.
    • Plate Carree : Étire la carte sur les côtés, donnant à la plupart des états un aspect court et large.
    • Robinson : incline et étire la forme de la zone continentale des États-Unis pour la faire ressembler à la forme d'un parallélogramme.

    Question 4 : Comment la position des villes les unes par rapport aux autres semble-t-elle évoluer entre les projections (donnez un exemple de quelques villes) ?

    • Bien que la différence soit assez faible, vous pouvez voir que selon la projection, les villes de San Antonio et Houston peuvent être plus proches ou plus éloignées l'une de l'autre. Par exemple, dans la projection de Robinson, les villes sont plus proches que dans la projection de Mercator.

    Question 5 : Quelles propriétés spatiales (c'est-à-dire forme, direction, surface) chaque projection déforme-t-elle ?

    • Albers Equal Area Conic : Cette projection est la mieux adaptée aux zones allant de l'ouest à l'est car elle déforme la forme nord-sud.
    • Mercator : la zone est de plus en plus déformée à mesure que vous vous éloignez de l'équateur, ce qui la rend inappropriée pour montrer les régions polaires ou le monde dans son ensemble.
    • Plate Carree : La forme est de plus en plus déformée à mesure que vous vous éloignez des parallèles standard.
    • Robinson : L'aire n'est ni conforme ni égale et la direction est généralement déformée. Cette projection n'est utile que pour les cartes du monde et non pour des pays spécifiques comme nous l'avons fait dans ce laboratoire.

    Question 6 : Utilisez l'outil de mesure pour mesurer la distance planaire entre les villes. Comment cette distance change-t-elle entre les projections ? Créez un tableau avec vos découvertes.

    • La distance entre Phoenix et Chicago a changé de plus de 600 000 mètres entre les projections Albers Equal Area Conic et Mercator tandis que la distance entre Chicago et Philadelphie a changé d'environ 400 000 mètres entre les projections Plate Carree et Robinson, qui sont de grandes marges.

    Question 7 : Quelles variables cet ensemble de données contient-il ?

    Question 8 : Quelles méthodes de classification avez-vous utilisées ? Comment chaque méthode de classification biaise-t-elle l'interprétation des données ?


    Enregistrements de données

    Le nouvel ensemble de données de référence présenté ici est librement accessible depuis PANGAEA, un éditeur de données pour les sciences de la terre et de l'environnement, où il est organisé en quatre entrées de données. Chaque entrée de données contient un fichier pour chaque protocole méthodologique (tableau 2). La première entrée de données 30 comprend des fichiers pour chaque procédure impliquée dans le traitement de photographies aériennes verticales. Il se compose de six fichiers raster (représentant les protocoles un à six) et de trois fichiers de formes (représentant les protocoles sept à neuf). La deuxième entrée de données 31 comprend des fichiers pour chaque procédure impliquée dans le traitement des DEM LiDAR pour extraire des profils topographiques cross-shore. Il se compose du fichier raster DEM initial et de quatre fichiers de formes représentant les procédures suivantes. La troisième entrée de données 34 concerne les procédures d'évaluation du changement d'altitude. Trois fichiers sont inclus pour démontrer la conversion d'un jeu de données .las en un jeu de données raster et la délimitation ultérieure d'une zone spatialement cohérente pour le calcul DoD. Quatre fichiers raster et trois fichiers de formes sont présentés pour démontrer le calcul d'un DoD à partir de deux ensembles de données raster et la validation ultérieure par rapport aux profils transfrontaliers 34 . La quatrième et dernière entrée de données 36 contient une feuille de calcul Microsoft Excel (XLSX) contenant des métadonnées d'erreur de rivage pour les rivages extraites des photographies aériennes verticales.


    4. Conclusion

    Les auteurs proposent que la méthodologie décrite ici pour déterminer une surface de probabilité d'établissement disymétrique, en commençant par une estimation prudente de la couverture terrestre urbaine, puis en ajoutant à l'empreinte basée sur les emplacements connus d'établissement, les emplacements près des intersections routières et la probabilité de deux ou plus caractéristiques texturales dans un voisinage de cellules 5 × 5 de l'imagerie panchromatique Landsat8, est non seulement une alternative viable aux méthodes d'interpolation intelligente précédemment publiées pour produire une empreinte de peuplement disymétrique, mais peut également être considérablement plus rapide. En particulier, l'utilisation d'un GLCM pour confirmer la présence de bords de caractéristiques texturales semble nécessiter beaucoup de ressources de calcul. Ces ressources sont nécessaires pour tester des conditions spécifiques au sein de voisinages spatiaux potentiellement grands par opposition au voisinage de cellules minimaliste 5 × 5 entrepris dans cette méthode.


    Comment comparer un jeu de données raster classifié à un autre jeu de données surfaciques ? - Systèmes d'information géographique

    Une collection d'ensembles de données fournis sous forme de texte SQL pour explorer et tester les technologies Oracle Spatial.

    Pour la documentation la plus à jour, consultez le fichier auto-build dz_testdata_deploy.pdf.

    1. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Polygones de comté 2D
    2. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Polygones de subdivision de comté 2D
    3. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Polygones de zone 2D
    4. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Polygones de lieu 2D
    5. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Polygones de blocs d'onglets 2D
    6. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Routes 2D Linestrings
    7. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Rails 2D Linestrings
    8. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) 2D Raw Edges Linestrings
    9. [US Census Tiger 2014] (https://www.census.gov/geo/maps-data/data/tiger-line.html) Polygones de visages bruts 2D
    10. [US EPA NHDPlus] (http://www.horizon-systems.com/nhdplus/NHDPlusV2_home.php) Polygones 2D des bassins versants
    11. [US EPA NHDPlus] (http://www.horizon-systems.com/nhdplus/NHDPlusV2_home.php) LRS Flowline Linestrings
    12. [US EPA NHDPlus] (http://www.horizon-systems.com/nhdplus/NHDPlusV2_home.php) Polygones de plans d'eau 2D
    13. [Ouvrir la carte des rues] (https://www.openstreetmap.org/about) Points d'intérêt 2D

    Tous les jeux de données vectorielles sont fournis dans le système de coordonnées géodésiques NAD83 utilisant le SRID 8265 qui est disponible sur toutes les versions d'Oracle.

    Le jeu de données raster est fourni dans le système de coordonnées projetées à aire égale d'Albers pour l'Amérique du Nord en utilisant l'équivalent local du SRID 5070. 5070 n'est inclus que dans le cadre d'Oracle Spatial avec la version 12c. Si vous utilisez 11g ou une version antérieure, vous devrez ajouter un SRID personnalisé pour cette projection. Un script pour ajouter ce système de coordonnées personnalisé est fourni ici.

    Jeux de données topologiques dérivés :

    1. Tigre hiérarchique 2014 Topologie des faces brutes avec cinq niveaux - face, blocs d'onglets, secteurs, subdivision de comptage, comté.
    2. Topologie de bassin versant NHDPlus simple

    Les deux exemples de topologie sont fournis dans le système de coordonnées géodésiques NAD83 utilisant le SRID 8265 qui est disponible sur toutes les versions d'Oracle.

    Ensembles de données de modèles de données de réseau dérivés :

    L'exemple NDM est fourni dans le système de coordonnées géodésiques NAD83 utilisant le SRID 8265 qui est disponible sur toutes les versions d'Oracle.

    Tous les ensembles de données sont actuellement limités pour couvrir uniquement le comté de Kenosha, Wisconsin. Idéalement, l'objectif est d'avoir un thème unifié d'un seul comté en termes de données, mais les contributeurs sont invités à soumettre des données pour d'autres domaines. Cependant, la taille générale de ces données « échantillons » ne devrait pas être supérieure à celle d'un comté américain. L'idée est de fournir un peu plus que l'exemple boiteux habituel du "marché du cola", mais beaucoup moins qu'un ensemble de données national ou mondial complet.

    Exécutez simplement le script de déploiement dans le schéma de votre choix. Le script lui-même ne charge que le code pour créer des ressources et ne génère pas les ressources elles-mêmes. Notez qu'actuellement, le script de déploiement fait environ 44 Mo et aura tendance à stresser ou même à planter les interfaces graphiques de développement qui analysent et analysent le contenu. La solution la plus simple consiste simplement à exécuter le script de déploiement directement à l'aide de sqlplus. Notez que pour créer la topologie et les ensembles de données ndm, le schéma hôte nécessite le privilège CREATE VIEW.

    Examinez ensuite les constantes du package dz_testdata_constants et apportez les modifications nécessaires. En particulier, le jeu de données raster peut être un peu problématique sur 11g en raison du srid d'Albers non pris en charge (avant 12c).

    Pour tout installer en une seule commande, exécutez la commande suivante :

    Sinon, vous pouvez choisir des ensembles de données de manière plus à la carte.

    Pour charger uniquement les jeux de données vectorielles, exécutez

    Chaque package d'un type de modèle de données Oracle Spatial donné comporte des procédures de suppression, de création et de chargement. Cependant, notez que la topologie et les jeux de données ndm sont générés à partir des jeux de données vectoriels, vous devez donc d'abord les charger si vous souhaitez charger les exemples de jeux de données dérivés plus complexes.

    C'est un peu une expérience, alors envoyez-moi un message avec tous les problèmes que vous rencontrez ou vos suggestions d'améliorations.

    De nombreux formats de stockage de données et fonctions de code utilisés dans ces exemples nécessitent la licence Oracle Spatial complète. Assurez-vous de vous familiariser avec les différences entre Locator et Spatial et suivez votre licence en conséquence.

    (notez qu'il existe des différences selon la version d'Oracle, assurez-vous de suivre celle de la version de la base de données Oracle que vous utilisez)

    Les fourches et les tirettes sont plus Bienvenue. Le script de déploiement et les fichiers de documentation de déploiement dans la racine du référentiel sont générés par mon système de construction que vous n'avez évidemment pas. Vous pouvez simplement ignorer ces fichiers et lorsque je fusionnerai votre pull, mon système générera automatiquement des fichiers mis à jour pour GitHub.

    Clause de non-responsabilité relative aux licences Oracle

    Oracle place la charge de faire correspondre l'utilisation des fonctionnalités avec les licences du serveur entièrement sur l'utilisateur. Dans le domaine d'Oracle Spatial, certaines fonctionnalités sont « spatiales » (et donc une « option » achetée distincte au-delà de l'entreprise) et certaines sont « de localisation » (regroupées avec standard et entreprise). Cette différenciation est en constante évolution. Ainsi, la définition de 11g n'est pas exactement la même que la définition de 12c. Si vous cherchez à utiliser mon code sans pour autant une licence d'option spatiale complète, je fournis une estimation de bonne foi de la licence requise et lors du codage, je suis conscient de maintenir la fonctionnalité du référentiel au niveau de licence le plus simple lorsque cela est possible. Cependant - comme toutes ces choses vont - le fardeau final de déterminer si la fonctionnalité d'un référentiel donné correspond à votre licence de serveur est entièrement placé sur l'utilisateur. Vous devriez toujours inspectez entièrement le code et son utilisation des fonctionnalités d'Oracle à la lumière de votre licence. Toute confiance que vous accordez à mon estimation est donc strictement à vos risques et périls.

    Dans mon estimation, la fonctionnalité du référentiel DZ_TESTDATA nécessite l'option Oracle Spatial complète pour 10g à 19c.

    Avis de non-responsabilité d'audit Oracle

    Veuillez noter que le fait de déployer des ensembles de données Oracle Georaster, Topology ou NDM définira votre DBA_FEATURE_USAGE_STATISTICS pour afficher Spatial comme étant CURRENTLY_USED = TRUE. Ainsi, si une personne déployait mon package en tant qu'expérience ou exercice de formation sur une base de données sous licence existante, cela pourrait compliquer votre prochain audit Oracle. En termes simples, vous ne vous ferez pas d'amis avec vos administrateurs de base de données ou votre direction si vous faites cela.


    A propos de l'auteur

    Mike Prix

    Mike Price est le président d'Entrada/San Juan Inc. et a été directeur de l'industrie minière et des sciences de la terre chez Esri entre 1997 et 2002. Il a écrit des tutoriels qui aident les lecteurs d'ArcUser à comprendre et à utiliser les SIG de manière plus intelligente depuis la création du magazine. Il est géologue et pompier volontaire à Moab, Utah depuis de nombreuses années.


    Vers un « Digital Twin » utile

    Des enquêtes opportunes et rentables sont la pierre angulaire de tout gouvernement local efficace. La question est de savoir comment collecter périodiquement et à moindre coût des informations détaillées sur les atouts de la ville ? En d'autres termes, existe-t-il un moyen de réduire le coût d'un « jumeau numérique » et de le mettre à jour suffisamment souvent pour qu'il reste utile dans les opérations quotidiennes ?

    An answer may be in the LiDAR sensors mounted on the vehicles driving around the city collecting the point cloud data, and machine learning techniques applied to the collected points to extract accurately georeferenced vector features, which can be consequently used in traditional GIS analysis and systems of record.

    An alternative to mobile LiDAR is oriented street-level imagery, which is another affordable way of collecting massive amounts of data, and we talked about a detailed workflow in recent “Road Feature Detection & GeoTagging with Deep Learning” post.

    The main disadvantages of mobile LiDAR data are irregular point density, high levels of noise in urban environments, and complexity of data labeling. On the bright side — LiDAR data has precise XYZ coordinates allowing for a high-fidelity georeferenced vector feature extraction.

    The main disadvantage of oriented imagery is in the lack of depth information, which affects the accuracy of translation of object detections from pixel space into real-world coordinates and complicates the extraction of polygonal objects like trees or linear objects like wires. The advantages are the lowest cost and ease of creating labeled data to train object detectors (you can even use pretrained neural network models to start experimenting: TensorFlow or PyTorch). Another unbeatable advantage of the imagery-based feature extraction is that it allows for efficient metadata capturing through Optical Character Recognition, e.g. providing the image resolution is high enough, we can automate the process of collecting not only the location and types of road signs, but also what’s written on them.

    The best of both worlds may be in combination of LiDAR and oriented imagery: for example, by calculating so-called raster depth maps from mobile LiDAR point clouds and then combining them with the imagery. This will result in RGB+D(depth) 4-channel rasters which could be used with traditional convolutional object detectors and have a higher accuracy on both object detection and pixel-to-world coordinates translation.

    This is where CycloMedia comes into the picture. Their street level capture vehicles are equipped with high resolution cameras and LiDAR. This data is then post processed to provide that unique combination of LiDAR and imagery that was used in this experiment.

    In this post, we are going to rely on mobile point clouds as the source of high-fidelity and accurately georeferenced vector features and will make use of the synchronized oriented imagery to demonstrate an efficient technique of labeling massive amounts of mobile point clouds needed to train deep neural networks.


    2. Materials and Methodology

    2.1. Data Sources

    The 1:5 million scale Digital Soil Map of the World (DSMW) is used as a basic soil map, and various regional and national soil databases or soil maps are also used to compile the GSDE (Figure 1). Details about the data sources are given in the supporting information. The soil mapping units in the soil maps are composed of one or more components (Figure 3). Each component occupies a certain percentage of the mapping unit but their location is unclear. The components usually have the same soil type or the same combination of soil type and other taxonomy information such as land use and texture class. The soil data sets, which are used in the HWSD, are included, i.e., the European Soil Database (ESDB), the 1:1 million Soil Map of China, and some SOTER-derived databases (referred as SOTWIS) [Batjes, 2007, 2008b FAO/ISRIC, 2003 FAO/UNEP/ISRIC/CIP, 1998 ]. The newly included soil data sets are the U.S. General Soil Map (GSM) [USDA-NCSS, 2006 ], the Soil Landscapes of Canada (SLC, version 3.2) [Soil Landscapes of Canada Working Group, 2010 ], the Australian Soil Resource Information System (ASRIS) polygon attributed surface [CSIRO, 2001a, 2001b, 2001c ], the soil database of China for land surface modeling [Shangguan et al., 2013 ], and the SOTWIS of the Indo-Gangetic Plains [Batjes et al., 2004 ], Jordan [Batjes et al., 2003 ], and Kenya [Batjes and Gicheru, 2004 ]. The DSMW is produced using the FAO-74 legend. The 1:1 million ESDB covers Europe and northern Eurasia with soil classification information of FAO-90. The soil database of China for land surface modeling was developed with the soil polygon linkage method based on the Genetic Soil Classification of China (GSCC) [Shangguan et al., 2013 ]. The soil properties of the SOTWIS are based on the FAO-90 classification using WISE-derived estimates to fill the gaps in the SOTER attribute data at scale from 1:250,000 to 1:5 million. The GSM of the US at 1:250,000 scale was developed to supersede the State Soil Geographic (STATSGO) dataset using the Soil Taxonomy (ST) [Soil Survey Staff, 1999 ]. The SLC at 1:1 million scale covers the major agricultural areas of Canada (about 2,000,000 km 2 ) using the Canadian System of Soil Classification. The ASRIS polygon attributed surfaces, including soil thickness, bulk density, sand, silt, and clay fractions of the topsoil and subsoil, were constructed with the best available soil survey information from various state and federal agencies. There are corresponding soil property tables linked to the soil maps for the ESDB, GSM, and SLC, though the available properties are quite different and do not cover the entire soil maps.

    We used two soil profile databases, version 3.1 of the WISE [Batjes, 2008a ] and version 2011 of the NCSS [NCSS, 2012 ], to derive the soil properties for the soil maps in this study. We combined these two profile databases in a uniform data structure (p1 of Figure 2). The WISE 3.1 holds 10,253 profiles with FAO-74 and FAO-90 legends collected worldwide from 1925 to 2005. The NCSS holds 41,218 profiles, approximately 1600 of which are collected outside the United States. The soil classification of the NCSS is the ST. After excluding soil profiles without soil classification or soil property measurement, 31,339 profiles remain. Of the 41,592 profiles, 36,638 in the WISE and NCSS have geographic coordinates. Soils in areas that have denser soil profiles tend to be better represented. Soil properties in WISE and NCSS were measured with different methods depending on the laboratories and time. Data quality of the NCSS is better because soil analyses in the NCSS were carried out in accordance with predefined procedures while soil analyses in the WISE took place in at least 150 laboratories worldwide, using a range of different methods. [Batjes, 2008a ]. The attributes of a soil profile are not always available for each horizon, especially for deep soils. The representation of different soil classes also varies with soil attributes.


    Voir la vidéo: MAB2: Pythagoraan lause, esimerkkejä