Suite

Comment faire des polygones à partir de points interpolés ?

Comment faire des polygones à partir de points interpolés ?


Mon objectif est de créer un fichier de formes avec des polygones pour l'application d'engrais à taux variable dans un champ agricole.

J'ai un fichier de formes de points avec des valeurs d'échantillon de sol (pH, P, K, etc.) et un fichier de lignes/polygones avec des bordures de champ. IDW est reconnu comme une méthode d'interpolation appropriée pour les échantillons de sol. Je suis allé jusqu'à avoir les points interpolés sous forme de fichier raster et j'ai expérimenté la fonction "Contour" pour faire une classification appropriée.

Je recherche une solution dans QGIS pour convertir/créer/cuire le raster classé en polygones et découper les résultats à la bordure du champ. Quelqu'un a-t-il une solution appropriée pour cela en utilisant QGIS?

Éditer:

Je ne sais pas si ma question est assez claire. Pour illustrer mon objectif, la photo ci-jointe montre comment j'ai besoin de mon fichier de formes final.

La photo illustre le résultat final que je recherche. Les points sont interpolés, découpés à la bordure du champ, puis (d'une manière ou d'une autre) le raster classé est converti en un fichier de formes de polygones.


@Joseph a raison. Utilisez l'outil de polygonisation pour transformer le raster en polygone. Choisissez l'option pour écrire les valeurs raster dans une colonne d'attribut (c'est-à-dire : dn). Cela vous permettra de dissoudre le polygone sur des valeurs dn identiques, ce qui donnera un fichier plus propre. Avec votre polygone d'entrée qui est une limite de champ, utilisez l'outil de découpage (vecteurs/géotraitement) pour découper votre polygone rastérisé.


Comment interpoler des données entre des points clairsemés pour créer un tracé de contour dans R & plotly

J'aimerais créer un tracé de contour sur le plan xy à partir des données de concentration aux points de couleur suivants sur la première figure. Je n'ai pas de points d'angle à chaque hauteur, je dois donc extrapoler la concentration aux bords du plan xy (xlim=c(0,335),ylim=c(0,426)).

Le fichier plotly html des points est disponible ici : https://leeds365-my.sharepoint.com/:u:/r/personal/cenmk_leeds_ac_uk/Documents/Documents/HECOIRA/Chamber%20CO2%20Experiments/Sensors.html?csf =1&e=HiX8fF

J'essaye de trouver quelque chose comme ça. Toute aide serait très appréciée.


Points

Les points géographiques sont comme les points euclidiens - ils n'ont pas d'aire. Les points aux adresses sont simplement une position unique à cette adresse.

Il existe plusieurs façons d'afficher les points, et ceux-ci dépendent de ce qu'ils représentent et de ce que vous souhaitez présenter :

Densité

Les cartes thermiques sont des moyens populaires de montrer à quel point les zones sont denses ou populaires. Vous pouvez concevoir des cartes thermiques dans QGIS et les utiliser dans TileMill.

Les cartes thermiques sont les plus appropriées pour les données qui affectent un certain rayon et ont une atténuation : par exemple, la pollution lumineuse, les ondes radio ou les incidences de la criminalité. Certaines cartes thermiques sont pondéré - certaines valeurs rendent la carte plus colorée ou plus sombre que d'autres - mais elles représentent généralement la densité.

Le regroupement est une autre option pour représenter la densité de points. Cela peut se terminer par un aspect plus net que les cartes thermiques, et vous pouvez ajuster la taille des bacs pour correspondre à quelque chose comme la zone que vous pensez être affectée - comme un quartier ou la taille d'un bloc.

Valeur absolue

La valeur absolue signifie une valeur qui vient de zéro et représente quelque chose qui s'est passé «à» un point. Par exemple, une carte des dons politiques des donateurs individuels avec la taille relative du cercle par montant en dollars montre la valeur absolue.

Les points avec des valeurs absolues sont généralement représentés sous forme de points mis à l'échelle, comme ils le sont dans le cours accéléré, qui utilise l'exemple de l'échelle de Richter (qui est logarithmique pour les intransigeants). Cependant, ils peuvent aussi être représentés par des points de couleurs différentes, ou par un autre symbole.


.cor vers Shapefile - Problème de conversion

À l'aide de Pathfinder Office, j'essaie de convertir un fichier .cor (données GPS corrigées de manière différentielle) en un fichier de formes, mais je n'obtiens qu'un fichier .inf et un .txt. fichier en conséquence. Cela signifie-t-il que les données d'origine collectées ont été corrompues ? Je ne l'ai pas collecté et je n'ai pas les données d'origine sur le GPS, je travaille donc uniquement avec les fichiers .cor qui m'ont été envoyés.

par DanPatterson_Re fatigué

de tous les anciens threads utilisant . Bureau des éclaireurs. en tant que phrase de recherche clé, il semble que vous exportiez vers un fichier de formes à partir de là, et les fichiers inf et cor sont natifs de ce logiciel. Quelle est la procédure que vous utilisez? une sauvegarde ? ou une exportation vers un fichier de formes ?

Merci, Dan. Je l'ai fait de nombreuses fois sans aucun problème, mais dans ces cas, j'ai moi-même effectué la correction différentielle des données brutes. La procédure que j'utilise est :

-Dans le menu Utilitaires, choisissez "Exporter".

-Parcourir jusqu'au fichier .COR que je veux exporter et le choisir

-Parcourir et choisir le fichier de sortie que je veux

-J'ai déjà vérifié toutes les propriétés que je veux, mais je les ai vérifiées, juste au cas où

-Cela me demande toujours de me rappeler que je n'ai pas choisi de système de coordonnées (je laisse WGS 84 par défaut, puis le définis dans Arc car j'ai eu de meilleurs résultats en le faisant de cette façon), alors je le dis simplement continuer, puis il exporte.


4 réponses 4

Le comportement que vous voyez est qu'OpenGL (qui est très probablement utilisé) doit diviser votre polygone de nombreux sommets en triangles. Ce que vous voyez alors sont des artefacts de l'interpolation linéaire des couleurs. Lorsque vous attribuez une couleur aléatoire à chaque sommet, vous pouvez observer la structure du triangle

A ma connaissance, il n'est pas possible d'influencer le processus de décomposition d'un polygone en triangles et donc d'assurer une colorisation satisfaisante. Qu'est-ce que tu pouvez bien sûr, donnez des triangles sous forme de polygones et assurez-vous donc cela manuellement.

Dans votre cas, ce serait quelque chose comme

Comme on peut le voir sur les images présentées, l'interpolation qui se fait sous le capot par VertexColors dépend d'une triangulation préalable du polygone, aboutissant ainsi à des bandes triangulaires visibles. Les approches présentées jusqu'à présent ont toutes nécessité d'effectuer une triangulation préliminaire. Je vais maintenant présenter une méthode qui évite cette étape de prétraitement.

Une méthode particulièrement belle que j'ai rencontrée dans la littérature est l'utilisation de Floater et Hormann coordonnées de la valeur moyenne, qui sont une généralisation des coordonnées barycentriques classiques pour les triangles. (Il existe d'autres généralisations si vous êtes intéressé, jetez un œil à leur bibliographie.) En fait, l'une des applications présentées dans leur article est exactement ce problème.

Voici, maintenant, un Mathématique routine pour effectuer une interpolation de valeur moyenne sur un polygone arbitraire :

Il y a quelques légères différences dans cette implémentation par rapport au pseudocode présenté dans l'article en particulier, j'ai choisi d'utiliser une méthode plus stable pour calculer l'angle entre deux vecteurs en raison de Velvel Kahan.

Pour l'utiliser pour colorer une région polygonale, nous utiliserons également RegionPlot[] avec InPolygonQ [] non documenté pour tester si un point se trouve entièrement dans un polygone.

J'utiliserai d'abord mes propres exemples et je reviendrai à l'exemple du PO plus tard. Voici un aperçu simplifié des États-Unis, et une liste de couleurs correspondant aux sommets :

Comparons l'approche de la valeur moyenne (à gauche) et les VertexColors intégrées :

Comme deuxième exemple, voici un polygone en forme de haricot et un ensemble de couleurs associées :

Maintenant, colorez le haricot de deux manières différentes :

Enfin, voici l'exemple de l'OP :

Dans tous les cas, la coloration de la valeur moyenne a fait un bien meilleur travail que le VertexColors intégré. Bien sûr, vous n'avez plus un simple polygone, puisque RegionPlot[] a divisé votre polygone en minuscules triangles, mais si la coloration est nécessaire, cela peut être un petit prix à payer.


Ajustement d'un modèle au semi-variogramme empirique

L'étape suivante consiste à ajuster un modèle aux points formant le semi-variogramme empirique. La modélisation des semi-variogrammes est une étape clé entre la description spatiale et la prédiction spatiale. La principale application du krigeage est la prédiction de valeurs d'attributs à des emplacements non échantillonnés. Le semi-variogramme empirique fournit des informations sur l'autocorrélation spatiale des jeux de données. Cependant, il ne fournit pas d'informations pour toutes les directions et distances possibles. Pour cette raison, et pour s'assurer que les prédictions de krigeage ont des variances de krigeage positives, il est nécessaire d'adapter un modèle, c'est-à-dire une fonction ou une courbe continue, au semi-variogramme empirique. De manière abstraite, cela est similaire à l'analyse de régression, dans laquelle une ligne ou une courbe continue est ajustée aux points de données.

Pour adapter un modèle au semi-variogramme empirique, sélectionnez une fonction qui sert de modèle, par exemple, un type sphérique qui monte et se stabilise sur de plus grandes distances au-delà d'une certaine plage (voir l'exemple de modèle sphérique ci-dessous). Il y a des écarts des points sur le semi-variogramme empirique par rapport au modèle, certains points sont au-dessus de la courbe du modèle et certains points sont en dessous. Cependant, si vous ajoutez la distance à laquelle chaque point se trouve au-dessus de la ligne et la distance à laquelle chaque point se trouve en dessous de la ligne, les deux valeurs doivent être similaires. Il existe de nombreux modèles de semi-variogramme parmi lesquels choisir.


Créer des centaines de polygones à la main est une tâche très ardue. La plupart des gens traitent des fichiers SpatialPolygon qui ont déjà été créés et sont lus dans R via un fichier de formes. Dans la partie suivante de ce didacticiel, nous allons télécharger un SpatialPolygonDataFrame qui contient les frontières des États américains.

Nous pouvons obtenir les données directement depuis R en utilisant la fonction getData disponible dans le package raster.

Nous pouvons voir que l'objet States est un SpatialPolygonsDataFrame . Il contient des informations spatiales sur les frontières de l'État, mais également des données supplémentaires telles que le nom et d'autres éléments.

Tracez ceci pour voir qu'il ressemble

À des fins de traçage, sous-ensembleons l'Alaska et Hawaï à partir des données actuelles


Quelles sont les meilleures façons d'interpoler un champ vectoriel à l'intérieur de polygones (convexes) ?

Je veux interpoler un champ vectoriel à l'intérieur de polygones convexes dans un maillage polygonal.

Pour les maillages triangulaires, le schéma utilise une interpolation constante par morceaux dans le triangle, discrétisée au centre du triangle.

Je suis particulièrement intéressé par l'interpolation du gradient d'un champ scalaire sur les sommets, alors n'hésitez pas à suggérer des méthodes qui ne fonctionnent que pour le gradient.

  1. Augmenter le degré du polynôme d'interpolation.
  2. Résoudre un problème des moindres carrés.
  3. Utilisez une triangulation pour obtenir un champ continu mais en général non différentiel à l'intérieur du polygone.
  4. Utiliser des fonctions chapeau comme dans la méthode des éléments finis.

Je me demande s'il existe des techniques plus avancées et quels sont les avantages et les inconvénients des différentes façons d'interpoler le champ.

Je pense que 1) peut être une mauvaise idée, car je ne sais pas si cela dépassera les valeurs aberrantes dans les données. De plus, il peut se comporter différemment pour les polygones avec de nombreux sommets et les polygones avec de petits sommets dans le même maillage.

L'approche 2) est probablement utile pour éviter le surapprentissage et je suppose que la manière la plus courante d'interpoler dans des problèmes surdéterminés.

L'option 3) est peut-être la plus simple, mais entraînera un champ moins lisse à l'intérieur du polygone et je ne suis pas sûr des implications du choix de différentes triangulations.

Pour l'option 4), je ne sais pas si l'interpolation avec des fonctions chapeau d'un degré qui dépend du nombre de sommets du polygone n'est pas équivalente à l'option 1), c'est-à-dire augmenter le degré d'un polynôme d'interpolation.

Quelles sont les autres façons d'interpoler des champs de vecteurs / gradients dans des maillages polygonaux ?

Je voudrais garder cela plus général, car le concept peut être utile pour d'autres applications, mais je vais ajouter un exemple d'application que je recherche actuellement.

Application

En utilisant le calcul extérieur discret tel que défini dans le calcul extérieur discret (Hirani 2003), un gradient constant par morceaux $ abla phi_$ est défini (section 2.7) pour un simplexe avec $sum_ phi_(x) = 1$ .

La notation dans la somme signifie que la fonction est évaluée à tous les sommets du simplexe.

Un opérateur $sharp$ discret est défini dans l'équation 5.7.2.

où $v$ est un sommet arbitraire $sigma^0_i$ du simplexe $sigma^n$ .
(Notez que la définition ici n'est donné que pour le gradient)

Cette définition fonctionne certainement bien pour les simplices, car les bords $overline$ forment une base pour l'espace tangentiel, c'est-à-dire les arêtes du simplex (par exemple les deux arêtes adjacentes à un sommet d'un triangle).

Pour les polygones avec plus de $n+1$ sommets, il y a deux problèmes :

  • $overline$ n'est pas pour tous les sommets $sigma^0$ une arête du polygone.
  • $overline, dots, overline<>^0>$ est surdéfini. Par exemple, un quadrilatère définirait trois vecteurs pour couvrir un espace tangentiel 2D.

Il y a une raison sous-jacente au problème, c'est qu'un quadrilatère (ou polygone d'ordre supérieur) ne garantit pas que tous les points se trouvent dans le même espace tangentiel, ce qui explique pourquoi une solution des moindres carrés pourrait être une option lorsqu'on peut supposer que le polygone est principalement plat et pourquoi une interpolation d'ordre supérieur peut être utile lorsque le polygone est éventuellement très incurvé.


Syntaxe

Le jeu de données TIN qui sera généré.

La référence spatiale du TIN en sortie doit être définie sur un système de coordonnées projetées. Les systèmes de coordonnées géographiques ne sont pas recommandés car la triangulation de Delaunay ne peut pas être garantie lorsque les coordonnées XY sont exprimées en unités angulaires, ce qui pourrait avoir un impact négatif sur la précision des calculs basés sur la distance, tels que la pente, le volume et la ligne de visée.

Les entités en entrée et leurs propriétés associées qui contribueront à la définition du TIN.

  • in_features —L'entité dont la géométrie sera importée dans le TIN.
  • height_field : la source d'altitude pour les entités en entrée. Tout champ numérique de la table attributaire de l'entité en entrée peut être spécifié, ainsi que Shape.Z pour les valeurs Z des entités 3D et Shape.M pour les valeurs M stockées avec la géométrie. Le choix du mot-clé <None> entraînera l'interpolation de l'altitude de l'entité à partir de la surface environnante.
  • sf_type —Rôle de l'entité en entrée dans la définition de la surface TIN. Les options valides dépendent de la géométrie des entités en entrée. Les entités ponctuelles et multipoints peuvent être définies en tant que Mass_Points , qui contribuent aux valeurs d'altitude qui sont stockées en tant que nœuds de données TIN. Les entités linéaires peuvent être désignées comme Mass_Points ou lignes de rupture en spécifiant Hard_Line ou Soft_Line . Les entités polygonales peuvent représenter la limite d'interpolation en spécifiant Hard_Clip ou Soft_Clip , des portions intérieures sans données en choisissant Hard_Erase ou Soft_Erase , ou des zones de hauteur constante en spécifiant Hard_Replace ou Soft_Replace . De plus, les polygones peuvent également être utilisés pour attribuer des valeurs d'attributs entiers en spécifiant Hardvalue_Fill ou Softvalue_Fill .
  • tag_field : attribut numérique dérivé d'un champ entier dans la table attributaire de l'entité en entrée dont les valeurs peuvent être utilisées pour attribuer une forme de base d'attribution aux éléments de données du TIN. Si vous spécifiez <None>, aucune valeur de balise n'est attribuée.

Spécifie la technique de triangulation utilisée le long des lignes de rupture du TIN.

  • DELAUNAY —Le TIN utilisera une triangulation conforme à Delaunay, qui peut densifier chaque segment des lignes de rupture pour produire plusieurs arêtes de triangle. C'est la valeur par défaut.
  • CONSTRAINED_DELAUNAY —Le TIN utilisera une triangulation de Delaunay contrainte, qui ajoutera chaque segment en tant qu'arête unique. Les règles de triangulation de Delaunay sont respectées partout sauf le long des lignes de rupture, qui ne seront pas densifiées.

Comment faire des polygones à partir de points interpolés ? - Systèmes d'information géographique

L'analyse des données spatiales a reçu une attention considérable et a joué un rôle important dans les disciplines des sciences de l'environnement et des sciences socio-économiques en raison du développement rapide des systèmes d'information géographique (SIG) ces dernières années. Le besoin de bases de données géospatiales environnementales fiables augmente rapidement ( Croner et al . 1996 ). L'écologie est l'étude scientifique des relations que les gens entretiennent les uns avec les autres et leur environnement naturel. L'environnement est dynamiquement interconnecté, imposé et contraint les personnes à tout moment de leur vie. Des mesures météorologiques telles que la température et les précipitations sont nécessaires pour évaluer les liens entre l'environnement et les maladies de la population.

Les changements de température sont connus pour avoir des impacts importants sur la santé humaine. Les résultats de la recherche ont documenté l'impact de la température sur la mortalité due aux maladies respiratoires et cardiovasculaires ( Vaaler et al . 2010 ) à la transmission des maladies infectieuses ( Ludington-Hoe et al . 2002 Lee et al . 2005 Nommsen-Rivers et al . 2010 ) et à la malnutrition due aux mauvaises récoltes ( Parry et al . 2004 ). Aux États-Unis, des systèmes complets de surveillance des maladies surveillent la prévalence de la maladie aux niveaux national, étatique et régional afin d'élaborer des politiques de santé préventive et de suivre les populations à haut risque ( Centers for Disease Control and Prevention [CDC] 2009 ). Des estimations de la température au niveau du comté sont nécessaires pour approfondir l'étude de l'impact de la température sur la santé.

Diverses méthodes d'interpolation spatiale, y compris la pondération par distance inverse (IDW), la régression multiple, la spline de lissage à plaque mince (TPSS), le krigeage et le cokrigeage ont été évaluées (Boer et al. 2001 Lapen et Hayhoe 2003 Zhao et al. 2005 Ishida et Kawashima 1993 Mahdian et al. 2009). Le krigeage a été largement utilisé par les chercheurs pour créer des estimations de température ( Bolstad et al . 1998 Brown et Comrie 2002 Hudson et Wackernagel 1994 Benavides et al . 2007 Zhao et al . 2005 Li et al . 2005 Ninyerola et al . 2000 Mahdian et al . 2009 Ishida et Kawashima 1993 ) et s'est avérée être une méthode valide avec une grande précision et un faible biais par rapport à d' autres méthodes par les chercheurs ( Boer et al . 2001 Li et al . 2005 Mahdian et al . 2009 Ishida et Kawashima 1993 Yang et al . 2004 ) . Des études ont montré que les estimations pourraient être améliorées en tenant compte de l'altitude grâce au cokrigeage (Li et al. 2004 Hudson et Wackernagel 1994 Ishida et Kawashima 1993).

SAS et ArcGIS sont les outils les plus populaires en analyse statistique dans la recherche en santé publique. Les deux prennent en charge l'analyse spatiale. Le cokrigeage ordinaire est disponible dans ArcGIS Geostatistical Analyst Le krigeage ordinaire avec covariables est également disponible à partir de la procédure SAS Proc Mixed. ArcGIS Geostatistical Analyst estime la variance en modélisant un nuage de semi-variogramme et SAS Proc Mixed calcule la variance en utilisant une estimation de probabilité maximale restreinte. Avec ces deux méthodes, l'altitude peut être considérée comme une covariable dans les estimations basées sur un modèle de la température mensuelle par comté. Ces deux méthodes ont des performances comparables en termes de précision de prédiction, de biais d'estimation et de vitesse de traitement. ArcGIS Geostatistical Analyst a été utilisé par des chercheurs pour obtenir des estimations de température ( Brown et Comrie 2002 Li et al . 2005 Zhao et al . 2005 Ninyerola et al . 2000 ), cependant, très peu d'études évaluées par des pairs ont utilisé SAS Proc Mixed pour estimer la moyenne température (Boer et al. 2001). À notre connaissance, aucune étude n'a comparé les méthodes de krigeage pour l'estimation de la température dans ArcGIS et SAS, ni signalé des estimations de température au niveau du comté pour les centroïdes de population plutôt que les centroïdes géographiques. Le but de notre étude était de comparer les performances et la fiabilité des modèles géospatiaux dans la création d'estimations pondérées en fonction de la population au niveau du comté des températures moyennes mensuelles pondérées en fonction de la population aux États-Unis à l'aide d'ArcGIS Geostatistical Analyst et de SAS Proc Mixed.

Notre étude inclut tous les États des États-Unis à l'exception de l'Alaska et d'Hawaï, car ces deux États sont géographiquement séparés du continent américain et l'inclusion augmenterait l'erreur de prédiction d'interpolation si elle était analysée conjointement avec les données du continent (Fig. 1). Une base de données spatiale complète et intégrée a été construite à l'aide de données collectées par différentes agences fédérales américaines, notamment des données mensuelles sur la température des stations météorologiques, des données d'altitude, des données de polygones de comté et des données de répartition de la population. Les données ont été fournies dans différents formats, notamment sous forme de tableau, de trame et de vecteur (point et polygone). Toutes les données spatiales ont été converties dans le même système de coordonnées géographiques (GCS North American 1983) et système de coordonnées projetées (Albers). Les logiciels ArcGIS 9.3 et SAS 9.2 ont été utilisés pour le prétraitement et les analyses des données.

2.1.1 Données de température de la station météo

Les données de température moyenne mensuelle de 2007 ont été choisies pour tester la méthodologie d'estimation de la température au niveau du comté. Les données de la National Oceanic and Atmospheric Administration (NOAA) ont été collectées chaque mois dans plus de 5000 stations nationales de température. Les stations sont réparties de manière inégale à travers la zone continentale des États-Unis, avec une densité plus faible dans l'ouest ( Fig. 1 ). Il y a des valeurs manquantes pour certaines stations chaque mois. Pour maximiser la taille de l'échantillon, nous retenons les stations avec des données valides pour n'importe quel mois dans les analyses, le nombre de stations avec des données valides varie selon les mois. De janvier à décembre 2007, le nombre de stations météorologiques avec des données valides varie de 5252 à 5435. La température moyenne mensuelle observée variait de �.67 ଌ à 41,22 ଌ. Les stations ont été cartographiées sous la forme d'une couche de points dans ArcGIS à l'aide des informations de coordonnées x, y pour chaque station de l'ensemble de données NOAA.

GTOPO30 est un modèle numérique d'élévation (MNE) pour le monde, développé par United States Geological Survey (USGS). Il est au format raster et a une résolution de 30 secondes d'arc (environ 1 km). Après avoir comparé les valeurs d'altitude des stations à partir des données NOAA et GTOPO30 DEM, les valeurs manquantes et les valeurs divergentes ont été identifiées dans les données NOAA (Fig. 1), de sorte que les valeurs d'altitude finales des stations météorologiques et les valeurs d'altitude centroïde de la population dans chaque comté ont été extraites. de GTOPO30. Les altitudes de la station allaient de � m à 3664 m.

La couche SIG du polygone du comté de ESRI Data & Maps 9.3 (mise à jour en 2007) a été utilisée pour calculer le centroïde de la population et la température moyenne au niveau du comté. Le nombre total de comtés dans la zone continentale des États-Unis était de 3109 en 2007. Les codes FIPS des comtés peuvent être utilisés pour relier les estimations de température aux données de surveillance des maladies.

2.1.4 Données sur la répartition de la population

La répartition de la population humaine est importante pour améliorer la compréhension des maladies humaines en relation avec l'environnement. L'évaluation du nombre total de personnes exposées au risque d'une maladie dans une zone spécifique nécessite non seulement des données de population tabulaires ou juridictionnelles, mais également des données spatialement explicites et d'étendue mondiale à une résolution modérée (Balk et al. 2006). De nombreux facteurs peuvent affecter la répartition de la population humaine, tels que l'utilisation des terres ( Tian et al . 2005 ), la productivité primaire nette (NPP), l'altitude, la distribution urbaine et la distribution des infrastructures de transport ( Yue et al . 2005 ). Les données pour certains de ces facteurs sont capturées dans les données des capteurs à distance, telles que les images Thematic Mapper (TM) (Wu et Murray 2005).

Les données de répartition de la population pour cette étude ont été obtenues auprès de LandScan 2008 ™ , ORNL, UT-Battelle, LLC (développé sous contrat principal avec le département américain de l'Énergie). Il est au format raster à près de 1 km de résolution (30"휰"). Chaque valeur de cellule représente le nombre de personnes dans cette cellule de 30 secondes d'arc. Il utilise des technologies d'analyse de données spatiales et d'imagerie ainsi qu'une approche de modélisation multivariée et asymétrique pour désagréger les dénombrements du recensement américain à l'intérieur d'une limite administrative ( Dobson et al . 2000 ). Dans les modèles LandScan, le modèle disymétrique typique est amélioré en intégrant plusieurs couches de données auxiliaires ou indicatrices. Le processus de modélisation utilise des dénombrements de recensement au niveau infranational pour chaque pays et des données géospatiales primaires ou des ensembles de données auxiliaires, y compris la couverture terrestre, les routes, les pentes, les zones urbaines, l'emplacement des villages et l'analyse d'images haute résolution, qui sont tous des indicateurs clés de la répartition de la population. (ORNL : http://www.ornl.gov/sci/landscan/landscan/documentation.shtml). Les données de répartition de la population ont également été utilisées pour calculer le centroïde de la population de chaque comté avec des données de polygone de comté.

2.2 Répartition de la population au niveau du comté

Les études sur la santé de la population se concentrent sur l'impact de la température sur la santé de la population de chaque comté. La température moyenne peut avoir une plus grande variation spatiale au sein de chaque comté, en particulier dans les grands comtés de l'ouest des États-Unis. Il existe deux méthodes pour estimer avec précision la répartition de la population au niveau du comté. La meilleure est la méthode de la proportion de la population au niveau du comté. On pensait que la population de chaque cellule (1 km 2 ) d'un comté contribuerait proportionnellement à la répartition de la population en fonction de la population totale de ce comté. La proportion de population de chaque cellule sera considérée comme le poids de la population lors du calcul de la température au niveau du comté. Le processus de calcul d'ArcGIS est illustré à la Fig. 2 .

La seconde est appelée méthode du centroïde de population au niveau du comté. Le centroïde de la population peut être considéré comme un emplacement moyen de la population et pourrait être une autre façon de représenter l'emplacement de la majorité de la population. La température de ce point central est considérée comme la température au niveau du comté. La méthode du centre moyen pondéré en fonction de la population est utilisée pour le calcul du centroïde de la population :

X ‒ w = ∑ i = 1 n w i x i ∑ i = 1 n w i , Y ‒ w = ∑ i = 1 n w i y i ∑ i = 1 n w i

où xje Andyje sont les coordonnées pour chaque cellule de la grille de la répartition de la population dans chaque comté wje est le nombre de population dans chaque cellule de grille et n est le nombre de cellules de grille de population dans un comté. La paire de coordonnées X̄ , Ȳ résultante est l'emplacement du centre moyen pondéré en fonction de la population, appelé centroïde de la population. Le processus de calcul d'ArcGIS est illustré à la Fig. 3 .

À partir de là, nous obtenons le nombre de grilles dans chaque comté, les emplacements des grilles et le nombre de personnes dans chaque grille. Ensuite, le centre moyen de la population dans chaque comté est calculé sur la base de la formule ci-dessus. L'un des problèmes du centroïde de population est que le centroïde ne représentera pas le groupe de population s'il y avait deux ou plusieurs centres de population dans un comté. Le centre de gravité sera situé au milieu des deux centres.

La température moyenne simple, la température centroïde de la population et la proportion de la population au niveau du comté ont été comparées. Si la méthode de la proportion de la population était considérée comme l'étalon d'or, le résultat de la méthode du centroïde de la population en est plus proche (StDev est de 0,05) que la méthode de la moyenne simple (StDev est de 0,18) sur la base des zones entières. Pour certains comtés spécifiques, tels que les comtés des régions montagneuses occidentales, la méthode de la moyenne simple peut apporter plus de biais. Dans cet article, le centroïde de population a finalement été sélectionné car le logiciel SAS ne peut pas interpoler la température au niveau de la cellule à l'échelle américaine, ce qui coûtera des mois.

2.3 Analyse géostatistique avec ArcGIS

La géostatistique est une branche des statistiques se concentrant sur la théorie et les méthodes d'analyses spatiales ou spatio-temporelles avec une large application dans les enquêtes environnementales ( Juan et al . 2010 ). Elle est intimement liée à la méthodologie d'interpolation, mais s'étend bien au-delà des simples problèmes d'interpolation. Il s'agit d'un ensemble de techniques numériques et mathématiques permettant de caractériser les phénomènes spatiaux. Notre objectif est de prendre un ensemble de points de données spatialement liés (température mesurée aux emplacements des stations météorologiques) et de créer un modèle décrivant la distribution de la température à travers les États-Unis contigus, à des emplacements avec et sans mesures de température enregistrées ( Goovaerts 2000 ).

2.3.1 Analyse exploratoire des données spatiales (ESDA)

L'objectif de l'ESDA est d'acquérir une meilleure compréhension des données et de prendre de meilleures décisions lors de la création d'une surface, les résultats d'un modèle de distribution de température. L'ESDA comprend la visualisation de la distribution des données, l'évaluation de la présence de tendances et de valeurs aberrantes mondiales et locales, l'examen de l'autocorrélation spatiale et la compréhension de la covariation entre plusieurs ensembles de données ( ESRI 2001 ). Les histogrammes, les diagrammes QQ normaux, les analyses de tendance et les nuages ​​de semi-variogramme/covariance sont les méthodes utilisées pour l'ESDA (Johnston et al. 2003).

L'ESDA des données des stations météorologiques a révélé que : les mesures de température aux stations météorologiques étaient approximativement normalement distribuées et le tracé QQ normal a confirmé la distribution normale, de sorte qu'aucune transformation n'a été nécessaire pour les analyses ultérieures. au sud-est, ce qui suggère qu'un modèle avec un polynôme du second ordre s'adapterait bien aux données. Le semi-variogramme a indiqué une autocorrélation spatiale entre les mesures de température observées.

2.3.2 Interpolation de krigeage et de cokrigeage

De nombreux chercheurs ont évalué diverses méthodes d'interpolation de données climatiques ponctuelles, telles que les polygones de Thiessen, la pondération de distance inverse, la régression polynomiale des moindres carrés, l'ajustement de surface spline, le krigeage et le cokrigeage (Zhao et al. 2005 He et al. 2005 Li et al. 2006 Lapen et Hayhoe 2003). Dans notre étude, nous avons utilisé le cokrigeage ordinaire en considérant l'altitude comme une covariable car, à plus grande échelle, l'altitude est plus étroitement liée à la température ( Stahl et al . 2006 ).

Le krigeage est une procédure géostatistique avancée qui génère une surface estimée à partir d'un ensemble de points dispersés avec des valeurs mesurées. Ses poids dépendent d'un modèle adapté aux points mesurés, de la distance à l'emplacement de prédiction et des relations spatiales entre les valeurs mesurées autour de l'emplacement de prédiction. Le cokrigeage est similaire au krigeage sauf que le cokrigeage incorpore des informations provenant de plusieurs variables. La principale variable d'intérêt dans notre étude est la température de la station météorologique, et à la fois l'autocorrélation pour la température et les corrélations croisées entre la température et l'altitude sont utilisées pour faire de meilleures prévisions. Les moindres carrés pondérés sont le principal algorithme du cokrigeage Arcgis. Sur la base des résultats de l'ESDA, nous avons choisi le cokrigeage ordinaire pour cette étude. Il suppose les modèles :

Z 1 ( s ) = μ 1 + ε 1 ( s ) Z 2 ( s ) = μ 2 + ε 2 ( s ) ,

où le symbole s indique l'emplacement Z 1( s ) décrit la température en fonction de l'emplacement et Z 2( s ) décrit l'élévation en fonction de l'emplacement µ 1 et µ 2 sont des constantes inconnues, ε 1( s ) et ε 2( s ) sont deux erreurs aléatoires. Il existe une autocorrélation entre les erreurs au sein de chaque modèle et une corrélation croisée entre les erreurs des deux modèles. L'algorithme détaillé du cokrigeage Arcgis a été publié ailleurs (Cressie 1993).

Plusieurs modèles de semi-variogramme peuvent être choisis dans le cokrigeage ordinaire, tels que les méthodes SPHERIQUE, CIRCULAIRE, EXPONENTIELLE, GAUSSIENNE et LINEAIRE, qui sont utilisées pour ajuster une ligne ou une courbe aux données de semi-variance dans le semi-variogramme ( Calder et al. 2009 ) . Le semi-variogramme quantifie l'hypothèse selon laquelle les choses proches ont tendance à être plus similaires que les choses qui sont plus éloignées les unes des autres. Après avoir comparé les résultats de la validation croisée et de la validation, la méthode EXPONENTIELLE a été choisie car elle montre le et1'or le plus faible. Ci-dessous se trouve la forme générale et l'équation du modèle EXPONENTIEL utilisé pour décrire la semi-variance.

where γ ( h ) represents semivariance as a function of the distance between observations h is a lag distance c 0, or the "nugget" is defined as the intercept c is known as the partial sill or strnctural variance, which is the difference of the sill minus the nugget the sill is defined as the value of the semivariogram at the plateau reached for larger h r represents range which is defined as the value of r at which the semivariogram reaches the sill. For distances less than the range, observations are spatially c01Telated. For distances greater than or equal to the range, spatial correlation is effectively zero.

2.4 Spatial Analysis with SAS Proc Mixed

The spatial correlation model employed by Proc Mixed can be conceptualized as follows ( Littell et al. 2006 ):

where Yje represents the i th observed air temperature with mean μ and the eje represents the corresponding error term. An independent error structure cannot be assumed due to spatial autocorrelation, unlike inference from the ordinary least squares regression.

In general, the spatial correlation model can be defined as ( Littell et al. 2006 ):

V a r [ e i ] = σ i 2 and C o v [ e i , e j ] = σ i j

Let sje and sj denote geographic locations, which are specified by the coordinates latitude and longitude dje denotes the distattce between sje and sj . The covariance is a function of the distance between the locations sje and sj , and it has the general fom1( Littell et al. 2006 ):

C o v [ e i , e j ] = σ 2 [ f ( d i j ) ]

Several common isotropic variance models can be fitted in Proc Mixed. In our study, we test two widely used models—spherical and exponential—to estimate monthly population-weighted average temperature.

Spherical : f ( d i j ) = [ 1 − 1.5 ( d i j ρ ) + 0.5 ( d i j ρ ) 3 ] × 1 < d i j < ρ >Exponential : f ( d i j ) = e x p ( d i j ∕ ρ )

The parameter σ 2 corresponds to the sill and ρ is the range of the process. The range of a second-order stationary spatial process is that distance at which observations are no longer correlated ( Littell et al. 2006 ).

The ordina1y kriging model with elevation as a covariate in SAS Proc Mixed (SAS cokriging) can be expressed as:

T e m p e r a t u r e = β 0 + β 1 E l e v a t i o n + e i

where Temperature represents an estimate of air temperature, β 0 is the fixed effect of geographic locations. β 1 is the regression coefficient of covrariate-elevation and eje is a random error of a spatial correlation model. However, unlike standard regression, inference on this model must take into account spatial correlation runong the errors ( Littell et al. 2006 ).

The covariance between two observations (with coordinates x and y is computed as ( Littell et al. 2006 ):

where θ 1, θ 2 are the decay parameters which tell us how quickly the correlation decays as the distances increases σ 2 is the partial sill or va11ance.

Proc Mixed does not compute semivariograms or use them in model fitting . The variance components of these models are estimated using a restricted maximum likelihood (REML) method ( Littell et al. 2006 ). Although Proc Mixed can fit models by using parameters of the range, sill, and nugget estimated from separate analyses, such as in SAS procedures Proc Variogram, Proc Kt1g2d and Proc NLIN, these approaches were not explored in our study because they require user interaction to select parruneters for each area, which is not feasible for a study with a large number of areas.

2.5 Evaluation 2.5.1 Cross validation

ArcGIS Geostatistical Analyst includes a cross-validation procedme that uses all of the data. The procedure omits one location point, calculates the value of this location using the remaining points, and then repeats the procedure for each remaining location. Finally, measured and predicted values from all points are compared. SAS Proc Mixed does not include a cross–validation option, and we did not manually conduct a cross-validation in SAS.

In ArcGIS Geostatistical Analyst, test and training data sets were created by randomly selecting data points’ geographic locations based on certain percentage cut points. Training data points were used to fit the models, omitting the test data points. We tested the model performance using different cut points: 60%, 65%, 70%, 75% and 80% for training data sets and found that lowest RMSE and highest adjust R 2 were achieved with 70% of the samples in the training data set. So in our study, we randomly selected 30% of weather stations as test data points, and the remaining 70% of weather stations served as the training data points. The same test and training datasets for split validation were used in SAS Proc Mixed and ArcGIS Geostatistical Analyst.

2.5.3 Mean Absolute Error (MAE) and Root Mean Square Error (RMSE)

MAE and RMSE were used in evaluating prediction precision and bias. MAE and RMSE were calculated using the following equations:

M A E = 1 n Σ i = 1 n ∣ Z ∗ − Z ∣ RMSE = ( 1 n ) Σ i = 1 n ( Z ∗ − Z ) 2

where Z * is the estimated temperature, Z is the observed temperature, and n is the number of weather stations.

MAE measures the magnitude of error ignoring direction. RMSE provides a measure of error magnitude that is sensitive to outliers. Lower MAE and RMSE represent higher prediction accuracy and lower prediction bias.

3 Results 3.1 Correlation between temperature and elevation, latitude and longitude

Strong correlation exists between monthly temperature average and latitude, between monthly temperature average and elevation for all twelve months of 2007 ( Table 1 ). Inverse relationships between monthly temperature average and latitude, and between monthly temperature average and altitude were found.

3.2 Split validation of monthly population-weighted average temperature estimates

Split validation results are shown in Table 2 . Seventy percent of weather stations were spatially randomly assigned to the training data set and the remaining 30% of weather stations were assigned to the test data set. Models were fit using the training data set. The prediction accuracy and bias were examined by comparing estimates from the training data set to observed values for locations in the test data set. Three different models of Arc GIS cokriging, SAS ordinary kriging and SAS cokriging were used to estimate monthly population-weighted average temperature for the training and test data sets separately. Compared with estimates from SAS ordinary kriging, SAS cokriging had higher prediction accuracy (higher adjusted R 2 ) and lower estimation bias (lowers MAE and lower RMSE). Results from Arc GIS cokriging and SAS cokriging indicated that estimates from SAS cokriging had higher adjusted R 2 and lower MAE and RMSE.

3.3 County-level estimation using ArcGIS cokriging and SAS co kriging

Table 3 shows mean, minimum and maximum of standard prediction error for the monthly population-weighted average temperature estimates in 3109 US counties and correlation coefficients of predicted values from ArcGIS cokriging and SAS cokriging. All correlation coefficients for each of the 12 months were larger than 0.95. If using mean standard prediction error to judge which method has better prediction comprehensively, SAS cokriging produced better estimates in most of the months.

3.4 Estimation bias distribution at the grid and county level

The prediction standard errors for each grid ranged from 0.7 to 3.6 ଌ ( Fig. 4 ) and for counties ranged from 0.3 to 1.67 ଌ ( Fig. 5 ). The distribution illustrates the higher estimation bias of monthly temperature averages in the western and mid-western United States. Similar patterns of estimated prediction standard errors were found for other months of the year (not shown).

3.5 Processing times for SAS Proc Mixed and ArcGIS

Table 4 displays the processing times for SAS ordinary kriging and cokriging in producing monthly population-weighted average temperature estimates for counties using the spherical and exponential models. Processing time was tested on a Citrix-based platform with SAS version 9.2 during January and February of 2011. For test data, ordinary kriging with the spherical model was 3 to 15 times faster than the same kriging method with the exponential model cokriging with the spherical model was about 29 times faster than cokriging with the exponential model. For county data, cokriging with the spherical model was about 16 times faster than cokriging with the exponential model. Although a little higher prediction accuracy and a little lower prediction bias were achieved with the exponential model relative to the spherical model in our primary analysis for 2007 April and May data (For April’s estimation, Adj. R 2 is 0.9329 and 0.9328 respectively with spherical and exponential model RMSE is 1.19767 and 1.19700 respectively with spherical and exponential model), the spherical model was chosen for the final analysis due to its shorter processing time.

Processing time of ArcGIS was tested on a Citrix-based platform with ArcGIS Info 9.3. Processing time in ArcGIS was much shorter than in SAS. Producing estimates for one month with ordinary cokriging took about two minutes in processing. However, model adjustments that require user interaction, including optimizing parameters and removing trends, would take longer, from 10 minutes to one hour for the models used in this study.

Relative to ArcGIS ordinary kriging and SAS ordinary kriging, ArcGIS cokriging and SAS cokriging using elevation as a covariate increased precision and decreased bias substantially in estimation of population-weighted average temperature for each month in 2007. This result is consistent with previously published findings from other researchers ( Ishida and Kawashima 1993 Hudson and Wackernagel 1994 Li et al . 2004 ).

Results from the split validation using SAS cokriging and ArcGIS cokriging indicated that better precision can be achieved with SAS cokriging than with ArcGIS cokriging. Cokriging in SAS uses the restricted maximum likelihood method to estimate variance and covariance of the models. The estimation processes do not require building semivariograms and computing corresponding semivariogram parameters. The model fitting process can be automated without manual intervention required by ArcGIS cokriging. However, cokriging in SAS had longer processing times, especially for the exponential model.

ArcGIS Geostatistical Analyst obtained spatial interpolations of monthly population-weighted average temperature by constructing semivariogram models. The model building process requires manual intervention to select model parameters such as nugget, range and lag size. Although the precision obtained by ArcGIS methods is not higher than that obtained by SAS cokriging method, ArcGIS has a strong advantage in the pre-processing of spatial data, such as import of elevation data spatially random division of training and testing data and estimating county population centroid point. Considering the models, restricted maximum likelihood (REML) is the most accurate method for determining variography parameters however, it doesn't scale well. For large datasets, the method quickly becomes computationally infeasible. Because SAS uses REML, it takes an very long time to process larger data sets with thousands or millions of points. The ArcGIS weighted least-squares algorithm, however, is able to efficiently handle datasets with billions of points.

The results of split validation showed that prediction accuracy rates in all twelve months of 2007 were above 90% for about 1600 weather stations using SAS cokriging similar prediction accuracy rates were also reached in ten months of 2007 (except for June and July 2007) for the same test locations using ArcGIS cokriging. MAEs of the estimates ranged from 0.74 to 0.87 ଌ using ArcGIS cokriging and ranged from 0.68 to 0.77 ଌ with SAS cokriging. Among other temperature interpolation studies: Mahdian et al . estimated monthly temperature averages in southeastern Iran using cokriging and obtained MAEs of the estimates ranging from 1.2 to 2.0 ଌ ( Mahdian et al . 2009 ) Bolstad et al . conducted daily mean temperature interpolation in the southern Appalachian mountains with autoregressive moving average models and reported MAEs of the estimates ranging from 1.39 to 2.40 ଌ ( Bolstad et al . 1998 ) Ninyerola et al. reported correlation coefficients between observed and estimated monthly mean temperatures ranging from 0.75 to 0.97 through validation with independent data ( Ninyerola et al . 2000 ) Jiang et al . found R 2 values ranging from 0.76 to 0.97 between observed and predicted values from cokriging estimates of daily maximum temperature in China ( Jiang et al . 2010 ). Compared with these studies, our study found much lower MAEs and much larger correlation coefficients between observed and predicted values. These results indicated that both SAS cokriging and ArcGIS cokriging used in our study reached higher prediction accuracy and can be effective spatial interpolation methods for producing county-level monthly average temperature estimates.

Highly positive relationships (all adjusted correlation coefficient for twelve months are greater than 0.95) were found from cokriging in SAS and cokriging in ArcGIS for corresponding estimates in all twelve months of 2007 for 3109 US counties. These results support the performance of both methods in creating county-level estimates for monthly population-weighted average temperature.

The geographic distribution of weather stations in Fig. 1 displayed uneven geographic distribution characteristics of weather stations in the US. The densities of weather stations are lower in the western and mid-western US than that in the eastern US The lower densities of weather stations in the West and Midwest likely contributed to the larger estimation bias in the area.

The study confirmed findings from previous studies that reported the value of elevation as a covariate to improve estimation precision and reduce bias in temperature interpolation using cokriging methods.

This study first compared precision, bias, and advantages and disadvantages of using SAS cokriging and ArcGIS cokriging for county-level temperature estimation from weather surface observing stations. The study found that higher prediction accuracy and lower estimation bias can be achieved with cokriging in SAS as compared to cokriging in ArcGIS. ArcGIS has strong advantages in pre-processing of spatial data and in processing time for estimation. Both methods from ArcGIS and SAS produced reliable US county-level temperature estimates however, ArcGIS’s advantages in data pre-processing and estimation processing time may be important considerations for software selection, especially for multi-year or multi-area projects.

The study first created monthly temperature average estimates in US county level by using SAS cokriging and ArcGIS cokriging and confirmed the reliability and performance of SAS cokriging and ArcGIS cokriging in creating these estimates. Population-weighted monthly temperature estimates is the specific application in public health since it considers the interaction between environment and population within the ecosystem. It can be used by researchers to study temperature’s health impacts at the county level.


Voir la vidéo: conversion coordonnées géographiques