Suite

Méthode d'interpolation optimisée avec des points de données d'échantillon à emplacement fixe ?

Méthode d'interpolation optimisée avec des points de données d'échantillon à emplacement fixe ?


J'essaie de trouver une méthode d'interpolation spatiale optimisée qui traite des points de données d'échantillonnage à emplacement fixe. Dire si j'ai des sites d'échantillonnage à emplacement fixe et collecter des données quotidiennement, puis utiliser ces données pour créer des surfaces d'interpolation.

Existe-t-il une méthode qui pré-traite les relations spatiales entre ces sites d'échantillonnage, puis intègre cette relation spatiale dans la méthode d'interpolation pour accélérer l'ensemble du processus d'interpolation ?

J'ai cherché des informations mais je n'ai pas trouvé ce que je voulais. Quelqu'un peut-il me mettre sur la bonne direction?


Je suppose que vous devez accélérer l'ensemble du processus d'interpolation pour ajouter les mesures du jour suivant. Espérons qu'une optimisation suffisante (pré-calcul et mise à jour) soit possible lorsque vous écrivez un problème d'interpolation de spline tenseur-produit approprié sur une grille 2D régulière. Alternativement, vous pouvez voir cela comme une interpolation 1D le long de l'axe du temps d'un fonction à valeur vectorielle échantillonnés quotidiennement, chaque échantillon consistant en un tableau de valeurs sur des sites spatiaux.


Interpolation linéaire dans R

J'ai un ensemble de données de données réelles, par exemple ressemblant à ceci :

Maintenant, je veux obtenir une réponse à la question « Quelle serait la valeur Y pour 0,3, si tous les points de données intermédiaires de l'ensemble de données d'origine se trouvaient sur une ligne droite entre les valeurs mesurées environnantes ? »

Si vous regardez le graphique : je veux obtenir les valeurs Y, où les ablines se croisent avec l'interpolation linéaire des données connues

Ainsi, dans le cas idéal, je créerais un "linearInterpolationModel" avec mes données connues, par ex.

. que je peux ensuite demander les valeurs Y, par ex.

(qui devrait dans ce cas donner "3")

Comment puis-je m'en rendre compte ? Manuellement, je ferais pour chaque valeur quelque chose comme ceci:

  1. Quelle est la valeur X la plus proche plus petite Xsmall et la valeur X la plus proche plus grande Xlarge que la valeur X actuelle X .
  2. Calculer la position relative par rapport à la plus petite valeur X relPos = (X - Xsmall) / (Xlarge - Xsmall)
  3. Calculer la valeur Y attendue Yexp = Ysmall + (relPos * (Ylarge - Ysmall))

Au moins pour le logiciel Matlab, j'ai entendu dire qu'il existe une fonction intégrée pour de tels problèmes.


Propriétés

Points — Exemples de points matrice

Points d'échantillonnage, spécifiés sous forme de matrice. La taille de la matrice est m -by- 2 ou m -by-3 pour représenter m points dans un espace 2-D ou 3-D. Chaque rangée de points contient le (X, oui) ou alors (X, oui, z) les coordonnées d'un point d'échantillonnage unique. Les lignes dans Points correspondent aux valeurs de fonction dans Values ​​.

Types de données: double

Valeurs — Valeurs de fonction aux points d'échantillonnage vecteur

Valeurs de fonction aux points d'échantillonnage, spécifiées en tant que vecteur de valeurs associées à chaque point dans Points .

Types de données: double

Méthode — Méthode d'interpolation 'linéaire' (par défaut) | 'le plus proche' | 'Naturel'

Méthode d'interpolation, spécifiée comme 'linear' , 'nearest' ou 'natural' . Voir Méthode pour les descriptions de ces méthodes.

Méthode d'extrapolation — Méthode d'extrapolation 'linéaire' | 'le plus proche' | 'rien'

Méthode d'extrapolation, spécifiée comme 'le plus proche' , 'linéaire' ou 'aucun' . Voir ExtrapolationMethod pour une description de ces méthodes.

Types de données: double


2 réponses 2

Les fonctions à base radiale avec un support infini ne sont probablement pas ce que vous voulez utiliser si vous avez un grand nombre de points de données et que vous allez prendre un grand nombre de valeurs d'interpolation.

Il existe des variantes qui utilisent N voisins les plus proches et un support fini pour réduire le nombre de points qui doivent être pris en compte pour chaque valeur d'interpolation. Une variante de ceci peut être trouvée dans la première solution mentionnée ici Interpolation inverse à distance pondérée (IDW) avec Python. (même si j'ai un soupçon persistant que cette implémentation peut être discontinue dans certaines conditions - il existe certainement des variantes qui conviennent)

Votre table de correspondance n'a pas besoin de stocker tous point dans le carré 60k, seulement ceux une fois qui sont utilisés à plusieurs reprises. Vous pouvez mapper n'importe quelle coordonnée x à int (x * résolution) pour améliorer le taux de réussite en abaissant la résolution.


Exemples

Interpolation 2D

Définissez quelques points d'échantillonnage et calculez la valeur d'une fonction trigonométrique à ces emplacements. Ces points sont les valeurs d'échantillon pour l'interpolant.

Évaluez l'interpolation aux emplacements de requête ( xq , yq ).

Interpolation 3D

Créez un interpolant pour un ensemble de points d'échantillonnage dispersés, puis évaluez l'interpolant au niveau d'un ensemble de points de requête 3D.

Définissez 200 points aléatoires et échantillonnez une fonction trigonométrique. Ces points sont les valeurs d'échantillon pour l'interpolant.

Évaluez l'interpolant aux emplacements de la requête ( xq , yq , zq ).

Tracez des tranches du résultat.

Remplacement des valeurs d'échantillon

Remplacez les éléments de la propriété Values ​​lorsque vous souhaitez modifier les valeurs aux points d'échantillonnage. Vous obtenez des résultats immédiats lorsque vous évaluez le nouvel interpolant car la triangulation d'origine ne change pas.

Créez 50 points aléatoires et échantillonnez une fonction exponentielle. Ces points sont les valeurs d'échantillon pour l'interpolant.

Évaluer l'interpolant à (1.40,1.90) .

Modifiez les valeurs d'échantillon d'interpolation et réévaluez l'interpolant au même point.

Éliminer les points d'échantillonnage en double

Utilisez groupssummary pour éliminer les points d'échantillonnage en double et contrôler la façon dont ils sont combinés avant d'appeler SpreadInterpolant .

Créez une matrice 200 par 3 d'emplacements de points d'échantillonnage. Ajoutez des points en double dans les cinq dernières lignes.

Créez un vecteur de valeurs aléatoires aux points d'échantillonnage.

Si vous essayez d'utiliser spreadInterpolant avec des points d'échantillonnage en double, il émet un avertissement et fait la moyenne des valeurs correspondantes dans V pour produire un seul point unique. Cependant, vous pouvez utiliser groupssummary pour éliminer les points en double avant de créer l'interpolant. Ceci est particulièrement utile si vous souhaitez combiner les points dupliqués à l'aide d'une méthode autre que la moyenne.

Utilisez groupssummary pour éliminer les points d'échantillonnage en double et conserver la valeur maximale de V à l'emplacement du point d'échantillonnage en double. Spécifiez la matrice de points d'échantillonnage comme variable de regroupement et les valeurs correspondantes comme données.

Étant donné que la variable de regroupement a trois colonnes, groupsummary renvoie les groupes uniques P_unique sous forme de tableau de cellules. Convertissez le tableau de cellules en matrice.

Créez l'interpolant. Étant donné que les points d'échantillonnage sont désormais uniques, spreadInterpolant n'envoie pas d'avertissement.

Comparer les méthodes d'interpolation de données dispersées

Comparez les résultats de plusieurs algorithmes d'interpolation différents proposés par disperséInterpolant .

Créez un exemple de jeu de données de 50 points dispersés. Le nombre de points est artificiellement petit pour mettre en évidence les différences entre les méthodes d'interpolation.

Créez l'interpolant et une grille de points de requête.

Tracez les résultats en utilisant les méthodes « le plus proche », « linéaire » et « naturelle ». Chaque fois que la méthode d'interpolation change, vous devez réinterroger l'interpolant pour obtenir les résultats mis à jour.

Extrapolation 2D

Interrogez un interpolant en un seul point à l'extérieur de l'enveloppe convexe en utilisant l'extrapolation du voisin le plus proche.

Définissez une matrice de 200 points aléatoires et échantillonnez une fonction exponentielle. Ces points sont les valeurs d'échantillon pour l'interpolant.

Créez l'interpolant en spécifiant l'interpolation linéaire et l'extrapolation au plus proche voisin.

Évaluer l'interpolant à l'extérieur de l'enveloppe convexe.

Désactivez l'extrapolation et évaluez F au même point.


Comparaison des méthodes d'interpolation spatiale des précipitations et de la température utilisant plusieurs périodes d'intégration

Huit méthodes d'interpolation spatiale sont utilisées pour interpoler les précipitations et la température sur plusieurs périodes d'intégration à une échelle locale. Les méthodes utilisées sont la pondération de distance inverse (IDW), les polygones de Thiessen (TP), l'analyse de surface de tendance, l'interpolation polynomiale locale, la spline à plaque mince et trois méthodes de krigeage : ordinaire, universelle et simple (OK, UK et SK). Les observations quotidiennes de 17 stations dans le bassin de Seyhan, en Turquie, entre 1987 et 1994 sont utilisées. Une variété de paramètres et de modèles sont utilisés dans chaque méthode pour interpoler les surfaces pour plusieurs périodes d'intégration, à savoir les précipitations totales quotidiennes, mensuelles et annuelles, les précipitations moyennes mensuelles et annuelles et les températures moyennes quotidiennes, mensuelles et annuelles. La performance est évaluée à l'aide d'une validation indépendante basée sur quatre mesures : l'erreur quadratique moyenne, l'erreur relative quadratique moyenne, le coefficient de détermination (r 2 ) et le coefficient d'efficacité. Sur la base de ces mesures de validation, la méthode avec les plus petites erreurs pour la plupart des périodes d'intégration concernant à la fois les précipitations et la température est IDW avec une puissance de 3, tandis que TP a les erreurs les plus élevées. Le modèle gaussien s'avère supérieur aux autres modèles avec moins d'erreurs dans les trois méthodes de krigeage pour l'interpolation des précipitations, mais aucun modèle spécifique n'est meilleur qu'un autre pour la modélisation de la température. UK avec l'altitude comme dérive externe et SK avec la moyenne comme paramètre supplémentaire ne montrent aucune supériorité sur OK. Pour les précipitations, la moyenne annuelle et les totaux mensuels sont respectivement les pires et les meilleures périodes d'intégration modélisées, la moyenne mensuelle étant la meilleure pour la température.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Syntaxe

Entités ponctuelles, multipoints, polylignes ou surfaciques qui définissent les emplacements pour déterminer une ou plusieurs propriétés de surface.

Jeu de données LAS, raster, MNT ou surface TIN utilisé pour interpoler les valeurs z.

La propriété d'altitude de surface qui sera ajoutée à la table attributaire de la classe d'entités en entrée. La liste suivante récapitule les mots-clés de propriété disponibles et leurs types de géométrie pris en charge :

  • Z : valeurs de surface Z interpolées pour l'emplacement XY de chaque entité à point unique.
  • Z_MIN —Valeurs Z de surface les plus basses dans la zone définie par le polygone, le long d'une ligne ou parmi les valeurs interpolées pour les points d'un enregistrement multipoint.
  • Z_MAX —Altitude de surface la plus élevée dans la zone définie par le polygone, le long d'une ligne ou parmi les valeurs interpolées pour les points d'un enregistrement multipoint.
  • Z_MEAN —Altitude de surface moyenne de la zone définie par le polygone, le long d'une ligne ou parmi les valeurs interpolées pour les points d'un enregistrement multipoint.
  • SURFACE_AREA —surface 3D pour la région définie par chaque polygone.
  • SURFACE_LENGTH —distance 3D de la ligne le long de la surface.
  • MIN_SLOPE —Valeur de pente la plus proche de zéro le long de la ligne ou dans la zone définie par le polygone.
  • MAX_SLOPE —Valeur de pente la plus élevée le long de la ligne ou dans la zone définie par le polygone.
  • AVG_SLOPE —Valeur de pente moyenne le long de la ligne ou dans la zone définie par le polygone.

Méthode d'interpolation utilisée pour déterminer les informations sur la surface. Les options disponibles dépendent du type de données de la surface d'entrée :

  • BILINEAR —Méthode d'interpolation exclusive à la surface raster qui détermine les valeurs de cellule à partir des quatre cellules les plus proches. Il s'agit de la seule option disponible pour une surface raster.
  • LINEAR — Méthode d'interpolation par défaut pour les jeux de données TIN, MNT et LAS. Obtient l'élévation à partir du plan défini par le triangle qui contient l'emplacement XY d'un point de requête.
  • NATURAL_NEIGHBORS — Obtient l'altitude en appliquant des pondérations basées sur la zone aux voisins naturels d'un point de requête.
  • CONFLATE_ZMIN — Obtient l'altitude à partir de la plus petite valeur Z trouvée parmi les voisins naturels d'un point de requête.
  • CONFLATE_ZMAX — Obtient l'altitude à partir de la plus grande valeur Z trouvée parmi les voisins naturels d'un point de requête.
  • CONFLATE_NEAREST — Obtient l'altitude à partir de la valeur la plus proche parmi les voisins naturels d'un point de requête.
  • CONFLATE_CLOSEST_TO_MEAN — Obtient l'altitude à partir de la valeur Z la plus proche de la moyenne de tous les voisins naturels d'un point de requête.

L'espacement auquel les valeurs z seront interpolées. Par défaut, la taille de cellule raster est utilisée lorsque la surface en entrée est un raster, et la densification naturelle de la surface triangulée est utilisée lorsque l'entrée est un MNT ou un jeu de données TIN.

Facteur par lequel les valeurs Z seront multipliées. Ceci est généralement utilisé pour convertir les unités linéaires Z afin qu'elles correspondent aux unités linéaires XY. La valeur par défaut est 1, ce qui laisse les valeurs d'altitude inchangées.

La tolérance z ou la résolution de la taille de la fenêtre du niveau de la pyramide du terrain qui sera utilisé par cet outil. La valeur par défaut est 0 ou pleine résolution.

Exclut les portions de la surface qui sont potentiellement caractérisées par des mesures anormales de la contribution aux calculs de pente. Les entités linéaires offrent un filtre de longueur, tandis que les polygones fournissent un filtre de zone. La valeur correspondant à l'une ou l'autre des options de filtrage est évaluée dans les unités linéaires du système de coordonnées de l'entité. Les propriétés hors pente ne sont pas affectées par ce paramètre.

  • NO_FILTER —Aucun filtre de bruit ne sera utilisé pour limiter les segments de ligne ou les triangles de surface pris en compte dans les calculs de pente. C'est la valeur par défaut.
  • AREA <value> : les triangles de surface dont les surfaces 3D sont inférieures à la valeur spécifiée seront exclus des calculs de pente.
  • LENGTH <value> — Les segments de ligne dont la longueur 3D après avoir été interpolée sur la surface est plus courte que la valeur spécifiée seront exclus des calculs de pente.

Paramètres

Entités ponctuelles en entrée contenant les valeurs z à interpoler dans un raster de surface.

Le champ qui contient une valeur de hauteur ou de magnitude pour chaque point.

Il peut s'agir d'un champ numérique ou du champ Forme si les entités ponctuelles en entrée contiennent des valeurs z.

La taille de cellule du raster en sortie qui sera créé.

Ce paramètre peut être défini par une valeur numérique ou obtenu à partir d'un jeu de données raster existant. Si la taille de cellule n'a pas été explicitement spécifiée comme valeur de paramètre, la valeur de taille de cellule d'environnement sera utilisée si elle est spécifiée autrement, des règles supplémentaires seront utilisées pour la calculer à partir des autres entrées. Voir la section utilisation pour plus de détails.

Contrôle l'importance des points environnants sur la valeur interpolée. Une puissance plus élevée entraîne moins d'influence des points éloignés. Il peut s'agir de n'importe quel nombre réel supérieur à 0, mais les résultats les plus raisonnables seront obtenus en utilisant des valeurs comprises entre 0,5 et 3. La valeur par défaut est 2.

Définit lequel des points en entrée sera utilisé pour interpoler la valeur de chaque cellule du raster en sortie.

Il existe deux options : Variable et Fixe. La variable est la valeur par défaut.

Utilise un rayon de recherche variable afin de trouver un nombre spécifié de points d'échantillonnage en entrée pour l'interpolation.

  • Nombre de points : valeur entière spécifiant le nombre de points d'échantillonnage en entrée les plus proches à utiliser pour effectuer l'interpolation. La valeur par défaut est de 12 points.
  • Distance maximale — Spécifie la distance, en unités de carte, par laquelle limiter la recherche des points d'échantillonnage en entrée les plus proches. La valeur par défaut est la longueur de la diagonale de l'étendue.

Utilise une distance fixe spécifiée dans laquelle tous les points d'entrée seront utilisés pour l'interpolation.

    Distance : spécifie la distance en tant que rayon dans lequel les points d'échantillonnage en entrée seront utilisés pour effectuer l'interpolation.

La valeur du rayon est exprimée en unités cartographiques. Le rayon par défaut est cinq fois la taille de cellule du raster en sortie.

Si le nombre de points requis n'est pas trouvé dans la distance spécifiée, la distance de recherche sera augmentée jusqu'à ce que le nombre minimum de points spécifié soit trouvé.

Lorsque le rayon de recherche doit être augmenté, cela se fait jusqu'à ce que le nombre minimum de points tombe dans ce rayon, ou que l'étendue du rayon croise l'étendue inférieure (sud) et/ou supérieure (nord) du raster en sortie. NoData est affecté à tous les emplacements qui ne satisfont pas à la condition ci-dessus.

Entités polylignes à utiliser comme rupture ou limite dans la recherche des points d'échantillonnage en entrée.

Valeur de retour

Raster de surface interpolé en sortie.

Il s'agit toujours d'un raster à virgule flottante.

Entités ponctuelles en entrée contenant les valeurs z à interpoler dans un raster de surface.

Le champ qui contient une valeur de hauteur ou de magnitude pour chaque point.

Il peut s'agir d'un champ numérique ou du champ Forme si les entités ponctuelles en entrée contiennent des valeurs z.

La taille de cellule du raster en sortie qui sera créé.

Ce paramètre peut être défini par une valeur numérique ou obtenu à partir d'un jeu de données raster existant. Si la taille de cellule n'a pas été explicitement spécifiée comme valeur de paramètre, la valeur de taille de cellule d'environnement sera utilisée si elle est spécifiée autrement, des règles supplémentaires seront utilisées pour la calculer à partir des autres entrées. Voir la section utilisation pour plus de détails.

Contrôle l'importance des points environnants sur la valeur interpolée. Une puissance plus élevée entraîne moins d'influence des points éloignés. Il peut s'agir de n'importe quel nombre réel supérieur à 0, mais les résultats les plus raisonnables seront obtenus en utilisant des valeurs comprises entre 0,5 et 3. La valeur par défaut est 2.

La classe Radius définit lequel des points en entrée sera utilisé pour interpoler la valeur de chaque cellule dans le raster en sortie.

Il existe deux types de classes de rayon : RadiusVariable et RadiusFixed . Un rayon de recherche variable est utilisé pour trouver un nombre spécifié de points d'échantillonnage d'entrée pour l'interpolation. Le type Fixe utilise une distance fixe spécifiée dans laquelle tous les points d'entrée seront utilisés pour l'interpolation. Le type de variable est le type par défaut.

  • Variable de rayon (, )
    • : valeur entière spécifiant le nombre de points d'échantillonnage en entrée les plus proches à utiliser pour effectuer l'interpolation. La valeur par défaut est de 12 points.
    • : spécifie la distance, en unités de carte, par laquelle limiter la recherche des points d'échantillonnage en entrée les plus proches. La valeur par défaut est la longueur de la diagonale de l'étendue.

    La valeur du rayon est exprimée en unités cartographiques. Le rayon par défaut est cinq fois la taille de cellule du raster en sortie.

    Si le nombre de points requis n'est pas trouvé dans la distance spécifiée, la distance de recherche sera augmentée jusqu'à ce que le nombre minimum de points spécifié soit trouvé.

    Lorsque le rayon de recherche doit être augmenté, cela se fait jusqu'à ce que le tombent dans ce rayon, ou l'étendue du rayon croise l'étendue inférieure (sud) et/ou supérieure (nord) du raster en sortie. NoData est affecté à tous les emplacements qui ne satisfont pas à la condition ci-dessus.

    Entités polylignes à utiliser comme rupture ou limite dans la recherche des points d'échantillonnage en entrée.

    Valeur de retour

    Raster de surface interpolé en sortie.

    Il s'agit toujours d'un raster à virgule flottante.

    Exemple de code

    Cet exemple saisit un fichier de formes de points et interpole la surface en sortie en tant que raster TIFF.

    Cet exemple saisit un fichier de formes de points et interpole la surface en sortie en tant que raster de grille.


    Contenu

    Le géocodage – un sous-ensemble de l'analyse spatiale du système d'information géographique (SIG) – est un sujet d'intérêt depuis le début des années 1960.

    Années 1960 Modifier

    En 1960, le premier SIG opérationnel – nommé Système d'information géographique du Canada (SIG) – a été inventé par le Dr Roger Tomlinson, qui a depuis été reconnu comme le père du SIG. Le CGIS a été utilisé pour stocker et analyser les données recueillies pour l'Inventaire des terres du Canada, qui a cartographié les informations sur l'agriculture, la faune et la foresterie à une échelle de 1:50 000, afin de réglementer la capacité des terres pour le Canada rural. Cependant, le CGIS a duré jusqu'aux années 1990 et n'a jamais été disponible dans le commerce.

    Le 1er juillet 1963, des codes postaux à cinq chiffres ont été introduits dans tout le pays par le département des postes des États-Unis (USPOD). En 1983, les codes ZIP+4 à neuf chiffres ont été créés en tant qu'identifiant supplémentaire pour localiser plus précisément les adresses.

    En 1964, le Harvard Laboratory for Computer Graphics and Spatial Analysis a développé un code logiciel révolutionnaire - par ex. GRID et SYMAP – qui étaient tous des sources pour le développement commercial du SIG.

    En 1967, une équipe du Census Bureau – comprenant le mathématicien James Corbett [4] et Donald Cooke [5] – a inventé le double codage de carte indépendant (DIME) – le premier modèle de cartographie vectorielle moderne – qui a chiffré les plages d'adresses dans des fichiers de réseau routier et incorporé l'algorithme de géocodage « pour cent le long ». [6] Toujours utilisé par des plates-formes telles que Google Maps et MapQuest, l'algorithme "pourcentage le long" indique où une adresse correspondante est située le long d'un élément de référence en tant que pourcentage de la longueur totale de l'élément de référence. DIME était destiné à être utilisé par le Bureau du recensement des États-Unis et impliquait de cartographier avec précision les faces des blocs, de numériser les nœuds représentant les intersections de rues et de former des relations spatiales. New Haven, Connecticut, a été la première ville sur Terre à disposer d'une base de données de réseau de rues géocodables.

    Années 1980 Modifier

    À la fin des années 1970, deux principales plates-formes de géocodage du domaine public étaient en développement : GRASS GIS et MOSS. Le début des années 1980 a vu l'essor de nombreux autres fournisseurs commerciaux de logiciels de géocodage, à savoir Intergraph, ESRI, CARIS, ERDAS et MapInfo Corporation. Ces plates-formes ont fusionné l'approche des années 1960 consistant à séparer les informations spatiales avec l'approche consistant à organiser ces informations spatiales dans des structures de bases de données.

    En 1986, Mapping Display and Analysis System (MIDAS) est devenu le premier logiciel de géocodage de bureau, conçu pour le système d'exploitation DOS. Le géocodage est passé du service de recherche au monde des affaires avec l'acquisition de MIDAS par MapInfo. MapInfo a depuis été racheté par Pitney Bowes, et a été un pionnier dans la fusion du géocodage avec l'intelligence d'affaires permettant à l'intelligence de localisation de fournir des solutions pour les secteurs public et privé.

    Années 1990 Modifier

    La fin du 20e siècle a vu le géocodage devenir plus orienté utilisateur, notamment via un logiciel SIG open source. Les applications cartographiques et les données géospatiales étaient devenues plus accessibles sur Internet.

    Parce que la technique d'envoi/retour par la poste a connu un tel succès lors du recensement de 1980, le Bureau of Census des États-Unis a pu constituer une grande base de données géospatiale, en utilisant le géocodage interpolé des rues. [7] Cette base de données – ainsi que la couverture nationale des ménages du recensement – ​​a permis la naissance de TIGER (Topologically Integrated Geographic Encoding and Referencement).

    Contenant des plages d'adresses au lieu d'adresses individuelles, TIGER a depuis été implémenté dans presque toutes les plateformes logicielles de géocodage utilisées aujourd'hui. À la fin du recensement de 1990, TIGER « contenait une coordonnée latitude/longitude pour plus de 30 millions d'intersections et d'extrémités d'entités et près de 145 millions de points de « forme » d'entités définissant les plus de 42 millions de segments d'entités décrivant plus de 12 millions de polygones." [8]

    TIGER a été la percée des solutions géospatiales « big data ».

    Années 2000 Modifier

    Le début des années 2000 a vu l'essor de la normalisation des adresses du Coding Accuracy Support System (CASS). La certification CASS est offerte à tous les fournisseurs de logiciels et expéditeurs de publicité qui souhaitent que les services postaux des États-Unis (USPS) évaluent la qualité de leur logiciel de normalisation des adresses. La certification CASS renouvelée chaque année est basée sur des codes de point de livraison, des codes postaux et des codes ZIP+4. L'adoption d'un logiciel certifié CASS par les éditeurs de logiciels leur permet de bénéficier de remises sur les envois en nombre et les frais d'expédition. Ils peuvent bénéficier d'une précision et d'une efficacité accrues dans ces envois en nombre, après avoir une base de données certifiée. Au début des années 2000, les plateformes de géocodage étaient également capables de prendre en charge plusieurs jeux de données.

    En 2003, les plateformes de géocodage étaient capables de fusionner les codes postaux avec les données des rues, mises à jour mensuellement. Ce processus est devenu connu sous le nom de « conflation ».

    À partir de 2005, les plates-formes de géocodage incluaient le géocodage par centroïde de parcelle. Le géocodage par centroïde de parcelle permettait une grande précision dans le géocodage d'une adresse. Par exemple, parcel-centroid a permis à un géocodeur de déterminer le centroïde d'un bâtiment ou d'un terrain spécifique. Les plates-formes étaient désormais également en mesure de déterminer l'altitude de parcelles spécifiques.

    L'année 2005 a également vu l'introduction de l'Assessor's Parcel Number (APN). L'assesseur d'une juridiction a pu attribuer ce numéro à des parcelles immobilières. Cela a permis une identification et une tenue des dossiers adéquates. Un APN est important pour géocoder une zone couverte par un bail gazier ou pétrolier et pour indexer les informations fiscales foncières fournies au public.

    En 2006, le géocodage inversé et la recherche APN inversée ont été introduits sur les plateformes de géocodage. Cela impliquait de géocoder un emplacement de point numérique - avec une longitude et une latitude - vers une adresse textuelle et lisible.

    2008 et 2009 ont vu la croissance des plates-formes de géocodage interactives et orientées utilisateur, à savoir MapQuest, Google Maps, Bing Maps et Global Positioning Systems (GPS). Ces plates-formes ont été rendues encore plus accessibles au public avec la croissance simultanée de l'industrie mobile, en particulier des smartphones.

    Années 2010 Modifier

    Les années 2010 ont vu les fournisseurs prendre entièrement en charge le géocodage et le géocodage inversé à l'échelle mondiale. L'interface de programmation d'application (API) de géocodage basée sur le cloud et le géocodage sur site ont permis un taux de correspondance plus élevé, une plus grande précision et une plus grande vitesse. Il y a maintenant une popularité dans l'idée que le géocodage puisse influencer les décisions commerciales. Il s'agit de l'intégration entre le processus de géocodage et l'intelligence d'affaires.

    L'avenir du géocodage implique également le géocodage tridimensionnel, le géocodage intérieur et les retours multilingues pour les plates-formes de géocodage.

    Le géocodage est une tâche qui implique plusieurs ensembles de données et processus, qui fonctionnent tous ensemble. Un géocodeur est constitué de deux éléments importants : un ensemble de données de référence et l'algorithme de géocodage. Chacune de ces composantes est constituée de sous-opérations et de sous-composantes. Sans comprendre le fonctionnement de ces processus de géocodage, il est difficile de prendre des décisions commerciales éclairées basées sur le géocodage.

    Données d'entrée Modifier

    Les données d'entrée sont les informations textuelles descriptives (adresse ou nom du bâtiment) que l'utilisateur souhaite transformer en données numériques et spatiales (latitude et longitude) - par le processus de géocodage.

    Classification des données d'entrée Modifier

    Les données d'entrée sont classées en deux catégories : les données d'entrée relatives et les données d'entrée absolues.

    Données d'entrée relatives Modifier

    Les données d'entrée relatives sont les descriptions textuelles d'un emplacement qui, à elles seules, ne peuvent pas produire une représentation spatiale de cet emplacement. Ces données génèrent un géocode relatif, qui est dépendant et géographiquement relatif d'autres emplacements de référence. Un exemple de géocode relatif est l'interpolation d'adresses utilisant des unités surfaciques ou des vecteurs linéaires. "En face de l'Empire State Building" est un exemple de données d'entrée relatives. L'emplacement recherché ne peut être déterminé sans identifier l'Empire State Building. Les plates-formes de géocodage ne prennent souvent pas en charge de tels emplacements relatifs, mais des progrès sont réalisés dans cette direction.

    Données d'entrée absolues Modifier

    Les données d'entrée absolues sont les descriptions textuelles d'un emplacement qui, à elles seules, peuvent produire une représentation spatiale de cet emplacement. Ce type de données génère un emplacement connu absolu indépendamment des autres emplacements. Par exemple, les codes postaux USPS ZIP+4 codes USPS adresses postales complètes et partielles USPS boîtes postales routes rurales villes comtés intersections et lieux nommés peuvent tous être référencés dans une source de données absolument.

    Lorsqu'il y a beaucoup de variabilité dans la façon dont les adresses peuvent être représentées - comme trop de données d'entrée ou trop peu de données d'entrée - les géocodeurs utilisent la normalisation des adresses et la normalisation des adresses afin de résoudre ce problème.

    Une méthode simple de géocodage est l'interpolation d'adresses. Cette méthode utilise les données d'un système d'information géographique sur les rues où le réseau routier est déjà cartographié dans l'espace de coordonnées géographiques. Chaque segment de rue est attribué avec des plages d'adresses (par exemple, des numéros de maison d'un segment à l'autre). Le géocodage prend une adresse, la fait correspondre à une rue et à un segment spécifique (comme un pâté de maisons, dans les villes qui utilisent la convention « bloc »). Le géocodage interpole ensuite la position de l'adresse, dans la plage le long du segment.

    Exemple Modifier

    Disons que ce segment (par exemple, un bloc) d'Evergreen Terrace va de 700 à 799. Les adresses paires se trouvent du côté est d'Evergreen Terrace, avec les adresses impaires du côté ouest de la rue. Le 742 Evergreen Terrace serait (probablement) situé à un peu moins de la moitié du pâté de maisons, du côté est de la rue. Un point serait cartographié à cet emplacement le long de la rue, peut-être décalé d'une distance à l'est de l'axe de la rue.

    Facteurs de complication Modifier

    Cependant, ce processus n'est pas toujours aussi simple que dans cet exemple. Des difficultés surviennent lorsque

    • faire la distinction entre les adresses ambiguës telles que 742 Evergreen Terrace et 742 W Evergreen Terrace.
    • tenter de géocoder de nouvelles adresses pour une rue qui n'est pas encore ajoutée à la base de données du système d'information géographique.

    Bien qu'il puisse y avoir un 742 Evergreen Terrace à Springfield, il pourrait également y avoir un 742 Evergreen Terrace à Shelbyville. Demander le nom de la ville (et l'état, la province, le pays, etc. au besoin) peut résoudre ce problème. Boston, Massachusetts [9] a plusieurs emplacements "100 Washington Street" parce que plusieurs villes ont été annexées sans changer les noms de rue, nécessitant ainsi l'utilisation de codes postaux uniques ou de noms de district pour la désambiguïsation. La précision du géocodage peut être grandement améliorée en utilisant d'abord de bonnes pratiques de vérification des adresses. La vérification de l'adresse confirmera l'existence de l'adresse et éliminera les ambiguïtés. Une fois l'adresse valide déterminée, il est très facile de géocoder et de déterminer les coordonnées latitude/longitude. Enfin, plusieurs mises en garde sur l'utilisation de l'interpolation :

    • L'attribution typique d'un segment de rue suppose que toutes les parcelles paires sont d'un côté du segment et toutes les parcelles impaires sont de l'autre. Ce n'est souvent pas vrai dans la vraie vie.
    • L'interpolation suppose que les parcelles données sont uniformément réparties sur la longueur du segment. Ce n'est presque jamais vrai dans la vraie vie, il n'est pas rare qu'une adresse géocodée soit décalée de plusieurs milliers de pieds.
    • L'interpolation suppose également que la rue est droite. Si une rue est courbe, l'emplacement géocodé ne correspondra pas nécessairement à l'emplacement physique de l'adresse.
    • Les informations de segment (en particulier provenant de sources telles que TIGER) incluent une limite supérieure maximale pour les adresses et sont interpolées comme si la plage d'adresses complète était utilisée. Par exemple, un segment (bloc) peut avoir une plage répertoriée de 100 à 199, mais la dernière adresse à la fin du bloc est 110. Dans ce cas, l'adresse 110 serait géocodée à 10 % de la distance en bas du segment plutôt que vers la fin.
    • La plupart des implémentations d'interpolation produiront un point comme emplacement d'adresse résultant. En réalité, l'adresse physique est répartie sur toute la longueur du segment, c'est-à-dire envisagez de géocoder l'adresse d'un centre commercial - le terrain physique peut s'étendre sur une distance le long du segment de rue (ou pourrait être considéré comme un espace de remplissage bidimensionnel polygone qui peut faire face à plusieurs rues différentes - ou pire, pour les villes avec des rues à plusieurs niveaux, une forme tridimensionnelle qui rencontre différentes rues à plusieurs niveaux différents), mais l'interpolation le traite comme une singularité.

    Une erreur très courante consiste à croire les cotes de précision des attributs géocodables d'une carte donnée. Une telle précision telle que citée par les vendeurs n'a aucune incidence sur l'attribution d'une adresse au bon segment ou au bon côté du segment, ni sur une position précise le long de ce bon segment. Avec le processus de géocodage utilisé pour les ensembles de données TIGER du recensement américain, 5 à 7,5 % des adresses peuvent être attribuées à un secteur de recensement différent, tandis qu'une étude du système de type TIGER en Australie a révélé que 50 % des points géocodés étaient mappés sur la mauvaise propriété. parcelle. [10] L'exactitude des données géocodées peut également avoir une incidence sur la qualité de la recherche qui utilise ces données. Une étude [11] menée par un groupe de chercheurs de l'Iowa a révélé que la méthode courante de géocodage utilisant des ensembles de données TIGER, telle que décrite ci-dessus, peut entraîner une perte pouvant atteindre 40 % de la puissance d'une analyse statistique. Une alternative consiste à utiliser des données codées orthophoto ou image telles que les données de point d'adresse d'Ordnance Survey au Royaume-Uni, mais ces ensembles de données sont généralement coûteux.

    Pour cette raison, il est très important d'éviter d'utiliser des résultats interpolés, sauf pour les applications non critiques. Le géocodage interpolé n'est généralement pas approprié pour prendre des décisions faisant autorité, par exemple si la sécurité des personnes sera affectée par cette décision. Les services d'urgence, par exemple, ne prennent pas de décision faisant autorité sur la base de leurs interpolations, une ambulance ou un camion de pompiers sera toujours envoyé, peu importe ce que dit la carte. [ citation requise ]

    In rural areas or other places lacking high quality street network data and addressing, GPS is useful for mapping a location. For traffic accidents, geocoding to a street intersection or midpoint along a street centerline is a suitable technique. Most highways in developed countries have mile markers to aid in emergency response, maintenance, and navigation. It is also possible to use a combination of these geocoding techniques — using a particular technique for certain cases and situations and other techniques for other cases. In contrast to geocoding of structured postal address records, toponym resolution maps place names in unstructured document collections to their corresponding spatial footprints.

    Place codes offer a new way to create digitally generated addresses where no information exists using satellite imagery and machine learning, e.g., Robocodes

    Research has introduced a new approach to the control and knowledge aspects of geocoding, by using an agent-based paradigm. [12] In addition to the new paradigm for geocoding, additional correction techniques and control algorithms have been developed. [13] The approach represents the geographic elements commonly found in addresses as individual agents. This provides a commonality and duality to control and geographic representation. In addition to scientific publication, the new approach and subsequent prototype gained national media coverage in Australia. [14] The research was conducted at Curtin University in Perth, Western Australia. [15]

    With the recent advance in Deep Learning and Computer Vision, a new geocoding workflow, which leverages Object Detection techniques to directly extract the centroid of the building rooftops as geocoding output, has been proposed. [16]

    Geocoded locations are useful in many GIS analysis, cartography, decision making workflow, transaction mash-up, or injected into larger business processes. On the web, geocoding is used in services like routing and local search. Geocoding, along with GPS provides location data for geotagging media, such as photographs or RSS items.


    Continuous-tone

    Continuous-tone maps are unclassed isarithmic maps, in which each point is shaded with a gray tone or color proportional to the value of the surface at that point. Continuous-tone maps are valuable for showing subtle variations in a geographic pattern but can be difficult to interpret because it is difficult to associate values in the legend with specific locations on the map. [11]

    Continuous-tone maps differ from classified isarithmic maps because they do not use isolines. As noted, changes in the value of the data are depicted by a change in the value of the color chosen for its symbol rather than by isolines depicting classes or regions of data. The user does not need to interpolate values between the isolines, providing a more accurate map. Research has shown that color-based continuous-tone maps are easier to interpret than gray tone maps. [12] Typically, continuous tone maps are used to show elevation, heat, population, and other variables that are preferably shown without specific categories. This helps avoid the ecological fallacy.


    Voir la vidéo: Les méthodes déchantillonnage