Suite

Comment changer le signe de la valeur z dans un grand ensemble de données ?

Comment changer le signe de la valeur z dans un grand ensemble de données ?


J'ai des données au format XYZ (enregistrées sous forme de fichier .txt) que j'importe dans ArcGIS, puis que je convertis en raster à l'aide de la conversion point à raster. Cependant, le champ Z dans les données représente une profondeur sous la surface de la mer, mais a été généré en tant que valeur positive par le logiciel source. Afin de tracer cela correctement dans ArcGIS, existe-t-il un moyen simple de convertir ces valeurs en valeurs négatives ou de les tracer comme sous-marines ? Le tableau contient près de 40 000 000 de lignes, je ne peux donc pas faire la conversion dans un éditeur de texte. J'ai essayé d'utiliser la fonction Calculatrice de champ dans le tableau, mais cette option est grisée ?


Vous pouvez prendre le raster résultant de votre conversion initiale et utiliser Spatial Analyst --> Math --> Times pour multiplier le raster par -1.


Erreurs standard GLM élevées, mais les variables ne sont certainement pas colinéaires

Lorsque j'utilise un GLM avec R, mes erreurs standard sont ridiculement élevées. Cela ne peut pas être dû au fait que les variables indépendantes sont liées, car ce sont toutes des évaluations distinctes pour un individu (c'est-à-dire que les variables d'interaction ne sont pas prises en compte). Une idée de ce qui cause cela ?

Vous trouverez ci-dessous le tableau de contingence et le résumé du glm :

Remarque : j'utilise swagtype au lieu du vrai nom car les informations avec lesquelles je traite sont confidentielles.


Méthodes

Collecte de données

Dans cet article, nous présentons plusieurs ensembles de données pour la région amazonienne brésilienne. Notre base de données comprend des informations sur les neuf États qui font partie de l'Amazonie légale du Brésil, tels que définis par l'Institut brésilien de géographie et de statistique, IBGE (Instituto Brasileiro de Geografia e Estatística) : Acre (AC), Amapá (AP), Amazonas (AM), Maranhão (MA), Mato Grosso (MT), Pará (PA), Rondônia (RO), Roraima (RR) et Tocantins (TO). Même si l'Amazonie légale se termine officiellement à l'est du 44e méridien, nous incluons des données pour l'ensemble de l'État du Maranhão. Pour compiler la base de données, nous avons recherché sur le Web des indicateurs et des moteurs de changements environnementaux et sociaux liés aux projets de développement d'infrastructures dans la région. Nous avons concentré notre recherche sur les variables liées au développement socio-économique, à la démographie, à l'utilisation et à l'occupation des sols, à la santé publique, aux systèmes hydrologiques, aux barrages hydroélectriques et au climat. Les ensembles de données sélectionnés sont organisés en cinq thèmes généraux décrits en détail ci-dessous : santé, environnement, socio-économie, hydrologie et barrages hydroélectriques. À l'exception des ensembles de données sur l'hydrologie et les barrages hydroélectriques, tous sont agrégés au niveau municipal.

Dossiers de santé

Les dossiers de santé publique ont été tirés des sites Web du gouvernement brésilien. Ces dossiers indiquent le nombre annuel de cas de maladie par commune de résidence, y compris la dengue, la leishmaniose cutanée et le VIH/SIDA. FIOCRUZ (Fondation Oswaldo Cruz) a fourni des données révisées supplémentaires sur l'incidence du paludisme, collectées à l'origine par le programme du gouvernement brésilien, SIVEP-malaria (Sistema de Informação de Vigilância Epidemiologica—Notificação de Casos). Les fichiers de données sur les cas de dengue, de leishmaniose cutanée et de VIH/sida ont été téléchargés à partir des sites Web du ministère brésilien de la Santé associés au SINAN (Sistema de Informação de Agravos de Notificação) et DATASUS (Departamento de Informática do Sistema Único de Saúde). Étant donné que les liens vers ces pages Web sont instables, les informations concernant l'accès aux ensembles de données d'origine sont détaillées dans le fichier supplémentaire 1.

Variables environnementales

Les ensembles de données associés au thème Environnement comprennent les précipitations mensuelles, la couverture forestière d'origine et la couverture des eaux de surface. Ces variables ont été collectées à partir de trois sources distinctes et résumées au niveau municipal à l'aide d'ArcGIS (ArcMap 10.2), sur la base de la carte du comté brésilien de 2010. Les utilisateurs intéressés à accéder aux variables environnementales désagrégées originales peuvent accéder à ces données à partir des sources originales indiquées ci-dessous.

Précipitations rapporte les précipitations mensuelles moyennes accumulées et la durée de la saison sèche dans la région d'étude sur la base des données raster de janvier 2000 à décembre 2010. Les données raster originales sont disponibles sur une résolution de grille de 0,25° × 0,25° latitude/longitude, et ont été acquises auprès du National Mission de mesure des précipitations tropicales (TRMM) de l'Administration de l'aéronautique et de l'espace (NASA), produit TRMM 3B43 (réf. 33). Après avoir isolé notre zone d'étude et converti le raster en point dans ArcGIS, les valeurs des points pour les précipitations mensuelles accumulées ont été moyennées au sein des municipalités. Lorsqu'aucun point ne se situe dans une commune donnée, le point de précipitation le plus proche du centre de gravité de la commune a été utilisé. Ensuite, les valeurs municipales des précipitations accumulées mensuellement ont été moyennées sur la période 2000-2010. La durée de la saison sèche a été calculée comme le nombre de mois consécutifs avec des précipitations mensuelles moyennes inférieures à 100 mm. Cet indice a été largement utilisé pour caractériser la sécheresse dans la région 34,35 . Les données originales sont accessibles en ligne à l'adresse http://disc.gsfc.nasa.gov/datacollection/TRMM_3B43_V7.shtml.

Couverture forestière originale affiche la superficie forestière totale (Km 2 ) et le pourcentage de couvert forestier par municipalité estimé à l'époque de la « découverte » du Brésil par les Européens en 1500. Ces données sont dérivées d'une carte de la végétation brésilienne produite par l'IBGE (Végétation du Brésil 1:500 000). Les cartes originales affichent tous les types de végétation, mais les données présentées ici ne prennent en compte que les classes de végétation forestière. À l'aide d'ArcMap 10.2, nous sous-ensembleons les données pour englober les États de l'Amazonie légale. Nous avons ensuite utilisé l'outil Intersect pour diviser les informations sur la végétation par comté et ensuite calculé la superficie forestière pour chaque municipalité. La superficie forestière totale correspond à l'agrégation des classes de végétation originales suivantes : Vegetação Ombrófila Aberta, Vegetação Ombrófila Aberta Aluvial, Vegetação Ombrófila Aberta Submontana, Vegetação Ombrófila Aberta Terras Baixas, Campinarana/Floresta Ombrófila, Floresta Ombrófila / Floresta Estacional, Floresta Estacional Déciduel, Floresta Estacional Decidual Submontana, Floresta Estacional Semi-déciduel, Floresta Estacional Semi-déciduel Aluvial, Floresta Estacional Semidecidual Submontana, Floresta Estacional Semi-decidual Terras Baixas, Floresta Ombrófila Densa, Floresta Ombrófila Densa Aluvial, Floresta Ombrófila Densa Montana, Floresta Ombrófila Densa Submontana, Floresta Ombrófila Densa Terras Baixas. Les fichiers de forme originaux de la carte de la végétation sont téléchargeables sur ftp://geoftp.ibge.gov.br/informacoes_ambientais/vegetacao/vetores/brasil/vegetacao/.

Couverture d'eau est dérivé du masque à eau MODIS (Moderate Resolution Imaging Spectroradiometer), qui peut être téléchargé à partir de http://modis.gsfc.nasa.gov/data/dataprod/mod44w.php. Cet ensemble de données reposait principalement sur les données de la Shuttle Radar Topography Mission et a été complété par des données MODIS 250 m si nécessaire 36 avec des données collectées entre 2000-2008. La résolution spatiale du jeu de données est de 250 m. À l'aide d'ArcGIS, l'ensemble de données mondial a été limité aux masses d'eau douce de la région d'étude amazonienne, et les polygones représentant les zones d'eau ont été agrégés par municipalité. À partir de ces données, la superficie totale de couverture en eau et le pourcentage de couverture ont été calculés pour chaque municipalité.

Indicateurs socio-économiques

Une première recherche de données socio-économiques a été effectuée auprès de deux principales sources brésiliennes : l'IBGE et l'Institute for Applied Economic Research, IPEA (Instituto de Pesquisa Econômica Aplicada). Les données de recensement de l'IBGE sont disponibles au niveau municipal et couvrent des variables liées à la démographie, l'éducation, le revenu, le travail, l'agriculture, la qualité de vie et la pauvreté. Une attention particulière a été accordée au fait que les limites municipales brésiliennes ont considérablement changé au cours des deux dernières décennies, à mesure que de nouvelles municipalités ont été créées et que les frontières municipales ont été déplacées. Ces changements ont été particulièrement répandus dans la région amazonienne, car de nouvelles populations ont migré dans la région. Entre les recensements brésiliens de 1991 et 2000, 263 nouvelles municipalités ont été créées dans notre zone d'étude (grâce à la division de municipalités précédemment existantes), et entre 2000 et 2010, 15 nouvelles municipalités ont été créées (toutes dans l'État du Mato Grosso). Ces changements compliquent les comparaisons dans le temps. Pour éviter les problèmes liés à ces changements, nous avons choisi d'utiliser les données de l'Atlas du développement humain au Brésil (Atlas do Desenvolvimento Humano no Brasil—http://www.atlasbrasil.org.br), qui résume un grand sous-ensemble de variables de recensement démographique collectées par l'IBGE en 1991, 2000 et 2010, et ajuste chaque variable pour s'adapter aux frontières municipales associées au recensement de 2010. Cela a été accompli en utilisant les informations originales au niveau du secteur de recensement des recensements de 1991 et 2000 et en réorganisant/recalculant les données pour qu'elles correspondent aux limites municipales de 2010.

Dans cet ensemble de données, nous incluons également l'extraction d'or en tant qu'activité économique. L'exploitation minière au Brésil est signalée au Département national brésilien des mines, DNPM (Departamento Nacional de Produção Mineral). Les fichiers de forme originaux décrivant toutes les zones d'activité minière signalées au Brésil ont été téléchargés par État à partir du site Web de la DNPM (http://sigmine.dnpm.gov.br/webmap/). Pour notre jeu de données, nous avons spécifiquement sélectionné les catégories d'extraction d'or suivantes, telles que définies par la DNPM : laure garimpeira (exploitation minière à petite échelle/alluviale), licence (permis minier), requerimento de lavra (autorisation minière), requerimento de licenciamento (autorisation de licence), et concession de lave (concession minière). À l'aide d'ArcGIS, nous avons fait correspondre le centre de chaque polygone minier avec la municipalité correspondante et attribué la présence/absence d'extraction d'or (1 et 0, respectivement) à chaque municipalité, sur la base de la carte du comté brésilien de 2010.

Hydrologie amazonienne

Des données ponctuelles sur le niveau de l'eau (938 stations de jaugeage), le débit/débit des rivières (551 stations de jaugeage) et les précipitations quotidiennes (1342 stations de jaugeage) ont été recueillies auprès de l'Agence nationale de l'eau du gouvernement brésilien, ANA (Agence nationale de guas) via leur site Web HidroWeb (http://hidroweb.ana.gov.br/default.asp). Les stations de jaugeage fluviométrique mesurent le niveau d'eau et/ou le débit des rivières et les stations de jaugeage pluviométrique enregistrent les précipitations quotidiennes. Dans notre région d'étude, y compris les bassins versants de l'Amazone, du Tocantins/Araguaia, du Paraná et de l'Atlantique, les stations fluviométriques et pluviométriques mesurent quotidiennement des variables hydrologiques clés depuis 1922, bien que la plupart des enregistrements de données s'étendent de 1965 à 2015. Pour niveau d'eau, débit et précipitations, nous avons utilisé le progiciel Hidro1.2 (largement utilisé par l'ANA) pour traiter les données et générer des fichiers de feuille de calcul séparés pour chaque station de jaugeage.

Énergie hydroélectrique

À titre d'exemple de développement d'infrastructures en cours, nous présentons des informations sur les grands barrages hydroélectriques en Amazonie. L'ensemble de données des barrages contient les variables suivantes : nom du barrage, rivière touchée, date de début de la construction, date de remplissage du réservoir, date d'exploitation, production d'énergie approuvée, production d'énergie réelle, superficie du réservoir, municipalités directement touchées par le barrage et superficie de chaque municipalité inondée par le barrage. Seuls les barrages en exploitation d'une capacité de production supérieure à 30 MW d'énergie sont inclus, conformément aux critères du gouvernement brésilien pour les « grands » barrages (Usinas Hidrelétricas de Energia-UHE). Les détails du barrage ont été principalement acquis auprès de l'Agence nationale brésilienne de l'énergie électrique, ANEEL (Agência Nacional de Energia Elétrica http://www.aneel.gov.br). Ces données ont été extraites sous forme de fichiers .KMZ (http://sigel.aneel.gov.br/kmz.html) et de sous-pages sous Compensação Financeira pela Utilização de Recursos Hídricos (http://www.aneel.gov.br/aplicacoes/cmpf/gerencial/). Les dates de construction du barrage et de remplissage du réservoir ont été recueillies à partir de diverses sources Internet, généralement à partir de sites Web officiels associés au barrage ou de documents gouvernementaux autorisant la construction de barrages, mais parfois à partir de sites Web de journaux ou d'entreprises de construction. Dans la mesure du possible, les dates de remplissage des réservoirs ont été confirmées en comparant plusieurs images satellite Landsat dans une série chronologique suivant la date de construction, à l'aide de Google Earth Engine 37 .

Anomalies de données connues

Une grande partie des données trouvées dans notre base de données (c'est-à-dire les variables socio-économiques) ont été initialement collectées par l'IBGE dans le cadre des recensements nationaux brésiliens en 1991, 2000 et 2010. 2010, avec la création de nouvelles municipalités et la diminution ou l'expansion d'autres. Cette complexité rend les comparaisons entre périodes difficiles cependant, grâce à une initiative du Programme des Nations Unies pour le développement (PNUD) (en collaboration avec l'IPEA et le Fondation João Pinheiro), l'Atlas du développement humain au Brésil, les données socio-économiques présentées ici ont été ajustées pour s'aligner sur la carte municipale la plus récente du Brésil en 2010. Une source de données plus complète couvrant un éventail encore plus large de variables socio-économiques et de développement collectées par le recensement brésilien est accessible via le site Web de l'IBGE (http://www.ibge.gov.br) cependant, les données de 1991 et 2000 ne sont pas ajustées. pour correspondre aux limites municipales de 2010, et par conséquent, des cartes municipales téléchargeables pour chaque année correspondante - également disponibles sur le site Web de l'IBGE - doivent être utilisées pour analyser les données, et les comparaisons entre les années sont limitées. De plus, certaines variables de notre ensemble de données socio-économiques ont été mesurées en 2000 et 2010, mais pas en 1991 (par exemple, le produit intérieur brut [PIB]). Dans ce cas, nous avons conservé la variable dans l'ensemble de données de 1991 pour maintenir la cohérence entre les années de recensement, mais nous avons attribué des valeurs manquantes (NA) à toutes les municipalités.

Bien que les données sur la santé dans ce document n'aient pas subi d'ajustements pour les limites municipales, tous les ensembles de données rapportent l'incidence de la maladie à partir de 2001. Après 2001, seules trois municipalités de la région amazonienne ont été soit nouvellement créées, soit ont subi des modifications frontalières importantes. Nous avons désigné des valeurs pour ces trois municipalités du Mato Grosso (Ipiranga do Norte, Itanhaga et Tapurah) comme valeurs manquantes (NA). Les pages Web initialement consultées pour télécharger les ensembles de données sur la dengue, la leishmaniose cutanée et le VIH/sida sont disponibles de manière incohérente (c'est-à-dire que les liens vers ces sites Web échouent par intermittence). Nous offrons plus de détails concernant l'accès Web aux ensembles de données sur la santé dans le fichier supplémentaire 1.

Les données hydrologiques présentaient également des défis uniques dans la mesure où les stations de jaugeage ont enregistré des données sur des périodes de temps variables (certaines remontent à 1922), et une quantité substantielle de données est manquante ou non collectée. Néanmoins, il existe un chevauchement temporel et, bien que parfois inégales, ces données fournissent les meilleures informations disponibles aux utilisateurs intéressés par l'hydrologie amazonienne et son lien avec le système socio-écologique plus vaste de l'Amazonie.

Pour faciliter l'intégration des données hydrologiques avec d'autres ensembles de données, des informations sur le code municipal ont été ajoutées à chaque station de jaugeage fluviométrique et pluviométrique. Au cours de ce processus, nous avons observé que certains noms de municipalités associés aux stations de jaugeage sur HidroWeb ne correspondaient pas aux emplacements des stations lorsqu'ils étaient cartographiés sur la carte municipale de 2010. Ces stations ont probablement conservé le nom actuel de la municipalité au moment où les mesures ont commencé (par exemple, les années 1960), créant un écart où de nouvelles municipalités ont été établies depuis le début de la surveillance. Par conséquent, nous avons confirmé et, au besoin, mis à jour, les noms des municipalités et les codes municipaux associés aux stations hydrologiques, sur la base des limites municipales de 2010.


Comment calculer un intervalle de confiance

Pour montrer comment calculer un intervalle de confiance, imaginons un groupe de chercheurs qui souhaitent déterminer si les oranges cultivées dans une ferme particulière sont suffisamment grosses pour être vendues à une chaîne d'épicerie potentielle.

Étape 1 : Trouvez le nombre d'échantillons (n).

Les chercheurs sélectionnent au hasard 46 oranges dans les arbres de la ferme.

Donc, n = 46.

Étape #2 : Calculez la moyenne (x) des échantillons.

Les chercheurs calculent ensuite un poids moyen de 86 grammes à partir de leur échantillon.

Donc, x = 86.

Étape #3 : Calculez l'écart-type (s).

Il est préférable d'utiliser l'écart type de l'ensemble de la population, cependant, dans de nombreux cas, les chercheurs n'auront pas accès à cette information. Si tel est le cas, les chercheurs doivent utiliser l'écart type de l'échantillon qu'ils ont établi.

Pour notre exemple, disons que les chercheurs ont eu recours au calcul de l'écart type à partir de leur échantillon. Ils reçoivent un écart type de 6,2 grammes.

Donc, s = 6,2.

Étape 4: Décidez de l'intervalle de confiance qui sera utilisé.

Les intervalles de confiance à 95 % et à 99 % sont les choix les plus courants dans les études de marché typiques.

Dans notre exemple, disons que les chercheurs ont choisi d'utiliser un intervalle de confiance de 95 pour cent.

Étape #5 : Trouvez la valeur Z pour l'intervalle de confiance sélectionné.

Les chercheurs utiliseraient ensuite le tableau suivant pour déterminer leur valeur Z :

Intervalle de confianceZ
80%1.282
85%1.440
90%1.645
95%1.960
99%2.576
99.5%2.807
99.9%3.291

Puisqu'ils ont décidé d'utiliser un intervalle de confiance de 95 pour cent, les chercheurs déterminent que Z = 1.960.

Étape #6: Calculez la formule suivante.

Ensuite, les chercheurs auraient besoin de brancher leurs valeurs connues dans la formule.

En continuant avec notre exemple, cette formule apparaîtrait comme suit :

86 ± 1.960 (6.2/6.782)

Une fois calculée, cette formule donne aux chercheurs le résultat de 86 ± 1.79 comme leur intervalle de confiance.

Étape #7: Tirez une conclusion.

Les chercheurs ont maintenant déterminé que la vraie moyenne de la plus grande population d'oranges est probablement (avec une confiance de 95%) entre 84,21 grammes et 87,79 grammes.


5 réponses 5

Vous ne pouvez pas "gzip le tout" car gzip ne compresse qu'un seul fichier, vous pouvez créer un fichier tar et le gzip pour "gzip le tout", mais vous perdriez la capacité de rsync de ne copier que le fichier modifié.

La question est donc la suivante : est-il préférable de stocker le fichier dont j'ai besoin pour rsync gziped ou pour utiliser l'option -z de rsync.
La réponse est probablement que vous ne voulez pas que le fichier soit décompressé sur votre serveur ? Je suppose que oui, donc je ne vois pas comment vous pourriez gérer le fichier gzip avant de faire le rsync.

Peut-être n'avez-vous pas besoin de la capacité rsync de copier uniquement le fichier modifié ? Dans ce cas pourquoi utiliser rsync au lieu de faire un scp d'un fichier tar.gz contenant vos trucs ?

Quoi qu'il en soit pour répondre à la question, rsync gzip sera un peu moins efficace que gziping file avec gzip. Pourquoi ? parce que rsync va gzip les données morceau par morceau, donc un plus petit ensemble de données sera utilisé pour créer la table que gzip utilise pour faire la compression, un plus grand ensemble de données (gzip utiliserait tout le fichier à la fois) donnera une meilleure table de compression. Mais la différence sera très très petite dans la plupart des cas mais dans de très rares cas la différence peut être plus importante (si vous avez un très gros fichier avec un très long partern se répétant plusieurs fois sur le fichier mais loin les uns des autres) (c'est un exemple très simplifié)


3 réponses 3

Le terme d'interception est l'interception dans la partie linéaire de l'équation GLM, donc votre modèle pour la moyenne est $E[Y] = g^<-1>(mathbf)$, où $g$ est votre fonction de lien et $mathbf$ est votre modèle linéaire. Ce modèle linéaire contient un "terme d'interception", c'est-à-dire :

$mathbf = c + X_1eta_1+X_2eta_2+cdots$

Dans votre cas, l'interception est significativement non nulle, mais la variable ne l'est pas, donc cela dit que

Parce que votre fonction de lien est binomiale, alors

Et donc avec juste le terme d'interception, votre modèle ajusté pour la moyenne est :

Vous pouvez voir que si $c=0$ alors cela correspond simplement à une chance de 50:50 d'obtenir Y=1 ou 0, c'est-à-dire $E[Y] = frac<1> <1+1>= 0.5$

Ainsi, votre résultat indique que vous ne pouvez pas prédire le résultat, mais une classe (1 ou 0) est plus probable que l'autre.

Il me semble qu'il peut y avoir un problème avec les données. Il est étrange que l'estimation du paramètre pour le coefficient soit de 0,000. Il semble que votre DV et votre IV soient dichotomiques et que les proportions de votre DV ne varient pas du tout avec votre IV. Est-ce correct?

L'interception, comme je l'ai noté dans mon commentaire (et comme l'implique la réponse de @corone) est la valeur de la DV lorsque l'IV est 0. Comment votre IV a-t-elle été codée ? Tel quel, cependant, le fait que l'estimation du coefficient soit de 0,000 implique que l'IV ne fait aucune différence.

Par conséquent, l'interception de 2,708 est le logit estimé de la DV : c'est-à-dire $ ext(frac

<1-p>)$ à tous les niveaux du IV.

Traitement + Essai + Traitement * Essai + (1 | Oiseau) Données : données AIC BIC déviance logLik 139,6 153,8 -64,78 129,6 Effets aléatoires : Groupes Nom Variance Std.Dev. Bird (Intercept) 0.87795 0.93699 Nombre d'obs : 128, groupes : Bird, 32 $endgroup$ &ndash Samuel Waldron 21 janvier 2013 à 15:33

Dans votre cas, l'interception est la moyenne générale de Attack_exclu_app , calculée pour toutes les données, quel que soit le traitement . Le test de signification dans le tableau des coefficients teste s'il est significativement différent de zéro. Que cela soit pertinent dépend si vous avez une raison a priori de vous attendre à ce qu'il soit nul ou non.

Par exemple, imaginez que vous ayez testé un médicament et un placebo pour leur effet sur la tension artérielle. Pour chaque sujet, vous enregistrez l'évolution de sa tension artérielle en calculant (pression après traitement - pression avant traitement) et traitez cela comme la variable dépendante dans votre analyse. Vous constatez alors que l'effet du traitement (médicament vs placebo) est non significatif mais que l'interception est significativement > 0 - cela vous indiquerait qu'en moyenne, la tension artérielle de vos sujets a augmenté entre les deux temps de mesure. Cela pourrait être intéressant et nécessiter une enquête plus approfondie.


Méthodologie

Pour prévoir un chemin pour le Zestimate individuel, nous nous appuyons sur deux types de données différents. La première est la prévision de la valeur des maisons de Zillow au niveau du comté qui prévoit l'indice de valeur des maisons de Zillow (ZHVI) et est produite à l'aide d'une variété de données économiques et de logement. La prévision est combinée avec des données sur les caractéristiques individuelles de la propriété, y compris ses caractéristiques et le comportement passé de son Zestimate. Cette section méthodologique se concentrera sur la façon dont ces prévisions globales, en combinaison avec les caractéristiques de la propriété, sont utilisées pour construire la prévision pour une propriété particulière. En gros, la prévision est construite en formant d'abord une prévision pour le Zestimate dans un an (une prévision ponctuelle), qui est ensuite interpolée pour construire un chemin pour le Zestimate d'ici là.


1. Introduction

1.1 Terminologie

Sentier : une série ininterrompue d'empreintes de pas faites par un animal

Empreinte : Une seule empreinte faite par un pied

Piste : couramment utilisé dans la littérature pour décrire à la fois une empreinte individuelle et un sentier.

1.2 Le défi et la nécessité d'étudier les populations de pumas

Le puma (Puma concolor également connu sous le nom de lion de montagne, couguar, panthère, fauve) est le mammifère terrestre en liberté le plus répandu dans les Amériques, allant du nord du Canada au sud des Andes. Comme d'autres carnivores cryptiques avec de vastes territoires, les populations de pumas sont notoirement difficiles à étudier [1]. Malgré les défis, les agences responsables de la gestion des pumas sont souvent chargées d'estimer leurs populations [2]. Le besoin de données fiables sur les populations de pumas a conduit au développement d'une gamme d'approches de recherche comprenant : capture-recapture [3,4], extrapolation des données de récolte des chasseurs [2], comparaison des données de récolte et démographiques [5], caméra relevés au casier [6,7], dénombrements aériens de pistes enneigées [8] et plusieurs variantes de relevés sur piste [9–11]. Cependant, chacune de ces méthodes présente des lacunes qui empêchent une adoption à grande échelle.

Alors que les estimations de l'abondance absolue (le nombre total d'animaux dans une population) sont généralement préférées aux indices d'abondance relative, les premières nécessitent généralement l'identification d'animaux individuels. Une méthode courante pour identifier les pumas individuels dans une population en liberté, la capture-marquage-recapture, est d'un coût prohibitif pour une utilisation pratique à grande échelle [12]. Par conséquent, les chercheurs utilisent souvent des indices d'abondance relative (comptes d'empreintes ou de sentiers, récolte par les chasseurs, etc.) qui, bien que plus abordables, peuvent être moins fiables, et définissent rarement la véritable relation entre l'indice et la population réelle [4].

1.3 Les risques et les pénalités des techniques de surveillance invasives

Des méthodes d'enquête invasives telles que la capture de pumas avec des chiens ou des collets sont souvent utilisées lorsque des estimations de la taille absolue de la population sont nécessaires, mais peuvent entraîner des blessures physiques directes ou la mort [13,14].

Les méthodes d'enquête invasives ont également des conséquences moins évidentes. Par exemple, la stimulation répétée de l'axe corticosurrénalien des mammifères par des facteurs de stress externes dans les procédures standard de capture-marque-libération peut avoir des effets profondément négatifs sur une gamme de systèmes physiologiques, y compris les systèmes immunitaire et reproducteur [15-17]. Le processus d'immobilisation, et en particulier l'immobilisation répétée, peut également avoir des effets inattendus sur le comportement, notamment des aires de répartition réduites chez les ours noirs [18], une condition corporelle réduite chez les ours polaires [19] et des changements dans le sex-ratio de la progéniture des campagnols aquatiques [20 ]. De plus, les colliers radio et GPS peuvent causer des blessures ou même la mort chez diverses espèces, notamment : le lycaon [21], les renards nains, [22], le cerf mulet [23] et le rhinocéros noir [24]. Un examen approfondi est fourni par Murray & Fuller [25].

Les écologistes sont également de plus en plus conscients des problèmes de bien-être et d'éthique liés à la surveillance [26] et de la façon dont les approches invasives pourraient également compromettre la validité des données qu'ils collectent.

1.4 L'utilisation de signes indirects pour la surveillance

Les signes indirects (empreintes de pas, excréments, nids, etc.) peuvent être le moyen le plus efficace et le moins coûteux de détecter de nombreux animaux [12,27]. Les empreintes animales sont beaucoup plus fréquemment rencontrées sur le terrain que les animaux eux-mêmes, et ont servi de base aux indices et estimateurs de population [12,28,29]. Les relevés d'empreintes (également appelés relevés de piste) sont également non invasifs, l'animal n'a pas besoin d'être vu, capturé ou manipulé.

1.5 Approches non invasives utilisées pour étudier les populations de pumas

Les chercheurs ont utilisé au moins trois méthodes non invasives pour étudier les populations de pumas : les pièges photographiques, l'analyse génétique des poils et des excréments et les relevés d'empreintes [30]. Des pièges photographiques ont été utilisés pour identifier des animaux individuels par analyse de taches et de rayures [31,32], mais peuvent sous-estimer le nombre de carnivores [7]. Parce que les pumas manquent de marques distinctives, une identification précise par des images de pièges photographiques avec de grandes tailles d'échantillon s'est avérée difficile [6,33]. L'identification génétique d'individus à partir d'excréments et de poils a également été utilisée [34-36], mais les excréments de puma peuvent être difficiles à trouver sur le terrain. Certains chercheurs ont utilisé avec succès des chiens de détection des excréments pour améliorer les taux de détection [37] cependant, les chiens d'excréments nécessitent une formation et des soins considérables, facteurs qui peuvent être prohibitifs pour certains gestionnaires.

1.6 Tentatives antérieures de classification des empreintes par individu et par sexe

Il existe de nombreux récits dans la littérature d'efforts pour résoudre ce défi en identifiant des individus d'un large éventail d'espèces à partir de leurs empreintes de pas, y compris : pêcheur, Martes pennanti [38] tigre, Panthera tigris [39–42] rhinocéros noir, Diceros bicornis [43] rhinocéros blanc, Ceratotherium simum [28] léopard des neiges, Panthera uncia [41] jaguar, Panthera onca [44] ours brun Ursus arctos [45,46] et la martre d'Europe, Martes Martes [47]. De plus, l'extraordinaire capacité des experts autochtones à identifier des individus à partir d'empreintes de pas a été signalée par Stander et al. [48].

Des empreintes de pas ont également été utilisées pour classer les tigres et les puma par sexe. Les premiers travaux se sont concentrés sur la description de la forme des empreintes [40,49,50]. Ceci a été remplacé par une approche plus quantitative basée sur une simple comparaison des mesures [51-54]. Des travaux plus récents se sont concentrés sur l'analyse statistique d'une ou plusieurs mesures [42,55,56].

1.7 Recherches antérieures sur l'empreinte puma

Les chercheurs ont tenté d'utiliser des empreintes de pas pour identifier et sexer des pumas individuels [57-60]. Smallwood et Fitzhugh [60] ont été les premiers, à notre connaissance, à publier une méthode mathématique objective pour discriminer les empreintes individuelles de puma à l'aide de mesures. Leur méthode était basée sur des mesures prises à partir de tracés d'empreintes effectués sur le terrain et a été testée avec succès avec neuf pumas en liberté. Grigione et al. [57] ont affiné la technique développée par Smallwood et Fitzhugh [60] et l'ont testée avec succès avec une population connue de 10 pumas. Lewison et al. [58] ont validé la méthodologie présentée par Smallwood et Fitzhugh avec des empreintes de pas réalisées à partir de moulages en plâtre prélevés sur les pieds de 13 pumas. Cependant, la rigidité des moulages en plâtre diffère de celle des pieds flexibles des animaux vivants et peut ne pas être un substitut idéal aux conditions naturelles du terrain. Bien que ces projets aient connu un succès initial, la petite taille de leurs échantillons et leurs méthodologies complexes continuent de limiter l'application sur le terrain à grande échelle.

1.8 La technique d'identification de l'empreinte (FIT)

Le logiciel Footprint Identification Technique (FIT) permet l'identification des pumas par sexe et individu à l'aide d'un algorithme de classification basé sur des mesures de distance, d'angle et de surface prises entre des points dérivés anatomiquement sur l'empreinte. Le logiciel a été développé pour la surveillance des rhinocéros noirs [28,43] mais a par la suite été adapté pour un large éventail d'espèces [61].

À notre connaissance, le FIT présenté ici est le premier système d'identification de puma individuel basé sur un vaste ensemble de données d'entraînement (535 empreintes de 35 animaux uniques) et le premier à avoir tous les processus analytiques encapsulés dans un logiciel. package avec une interface utilisateur graphique intégrée.

L'algorithme FIT puma s'appuie sur les approches précédentes de classification de l'empreinte puma dans les domaines suivants :

1.8.1 Utilisation d'un grand ensemble d'apprentissage pour développer un algorithme optimal.

Le logiciel FIT a dérivé un algorithme de meilleur ajustement à partir d'un grand ensemble d'empreintes d'entraînement, dans ce cas à partir de 35 pumas individuels connus (puma individuels connus utilisés dans des études précédentes : Smallwood et Fitzhugh [60] n = 9, Grigione [57] n = 3, Lewison [58] n = 13). L'algorithme FIT spécifie quelles mesures d'empreinte (variables) sont capables de discriminer entre les individus à l'aide d'une analyse discriminante robuste à validation croisée qui alimente un modèle de clustering de Ward.

1.8.2 Extrait plus de données de chaque empreinte.

Le FIT a extrait plus de données de chaque empreinte, augmentant ainsi la résolution et la précision potentielles pour la classification individuelle. Le logiciel a généré 123 variables morphométriques à partir de chaque empreinte, y compris les surfaces, les longueurs et les angles (variables analysées dans les études précédentes : Smallwood et Fitzhugh [60] n = 11, Grigione [57] n = 9, Lewison [58] n = 17) Le grand nombre de variables a été utilisé pour développer un ensemble de données d'entraînement plus robuste qu'il n'était possible auparavant.

1.8.3 Analyse de plus d'empreintes par animal.

Pour construire la base de données initiale de l'ensemble d'entraînement de l'algorithme, le FIT a utilisé une moyenne de 14 à 16 empreintes de pied arrière gauche de chaque animal afin d'ajuster la variabilité de l'empreinte individuelle.

1.8.4 Développer une interface logicielle intégrée.

The FIT employs a user-friendly integrated software interface to a new customized statistical model, providing minimal risk of subjective interpretation.

1.8.5 Integrated algorithm validation.

The FIT software provides integrated algorithm validation in the form of sequential data holdout testing, by randomly apportioning the data into training and test sets.

1.8.6 Provided a standardized protocol for data collection.

Data collection uses a simple, standardized digital protocol for photographing footprints [28].

The overall aim of this research was to demonstrate the potential utility of a new monitoring tool for widespread application in large felid populations, using the puma as a model. This was successfully met.


Background & Summary

Critical infrastructures (CIs) are physical or virtual assets or systems of assets that are vital to ensuring health, well-being and security of people and whose disruption or destruction may undermine communities or countries at large 1,2 . They include (and are not limited to) infrastructure related to transport, energy generation and transmission, water, industry, education and health, information and communication technology. Exposure of CIs to hazards poses a risk to economies and societies 3,4,5 . Recent events, such as the Eyjafjöll volcanic eruption in Iceland in 2010 6 , the Great East Japan Earthquake in 2011 7 , and Hurricane Harvey in the Unites States in 2017 8 , have shown how disruption of key systems and essential services can lead to substantial socio-economic impacts. The main threats presented by hazards to CIs include damage or destruction from extreme events 9,10,11,12,13 , whose effects can be exacerbated when multiple hazards co-occur 14,15,16,17 . Dependency networks of CIs may further amplify economic damages and trigger cascading failures 18 with possible global scale effects 16,19,20 . This is of particular concern for Europe, as the severity and frequency of weather-related hazards is expected to intensify in view of climate change 21 .

The development of reliable and resilient infrastructure is among the United Nations’ Sustainable Development Goals 22 . Besides, there is increasing interest in identifying and assessing disaster risk at large scale, expressed by the Sendai Framework for Disaster Risk Reduction 2015–2030 23 and the Decision on a European Union Civil Protection Mechanism 24 that calls participating states to perform National Risk Assessments with periodic reporting. The aim of the latter is to promote an effective and coherent approach to prevention of and preparedness for disasters.

Risk assessment requires the integration of hazard, exposure and vulnerability 25 . The hazard represents the agent that may affect CIs, exposure refers to the spatial distribution of CIs and their associated services exposed to the hazard, and vulnerability expresses the propensity of CIs to be affected by the hazard. Typically, a risk assessment consists in overlaying geospatial information on infrastructures and key socioeconomic assets with hazard maps.

Information on the spatial distribution of CIs is, therefore, a prerequisite for quantifying hazard risk to CIs and planning suitable risk reduction measures in order to safeguard CIs and ultimately secure the functioning of societies 26 . However, geospatial data on CIs is often incomplete and scattered across multiple and inconsistent data sources, thus hampering their integration in large-scale risk frameworks. The European Pollutant Release and Transfer Register (E-PRTR), for instance, contains the location of industrial, energy and waste treatment facilities. Its original scope was to monitor emissions of pollutants from the main emitters hence, facilities whose emissions levels fall under a certain threshold are not included, regardless of their economic importance. Other sources, such as the voluntary geographical information project Open Street Map (OSM), or the proprietary navigation dataset TomTom Multinet miss many features of the real world, especially those deemed less interesting to the average user. Data completeness differs between data sources and across domains or geographical areas within the same data source. Furthermore, information on data quality and completeness often does not exist due to the lack of benchmarks and validation efforts.

Data inconsistency may arise in various ways: different nomenclatures and/or mapping criteria across data sources or types of critical infrastructures. For example, transport infrastructure can be represented in a Geographical Information System (GIS) using alternative data structures: roads or railways are typically represented by line segments, while ports and airports by points or polygons. Such variety in format and spatial representation raises a series of technical problems for their use in a common risk assessment framework. How, for example, can a port represented as point feature in a GIS be compared to 1 km of road? How can 1 km of motorway be compared to 1 km of local road? How can a metal industry be compared to a refinery, or a hospital to a school? In order to compare impacts of a given hazardous event on different infrastructure types and sectors using a consistent methodology applicable at large scale, there is need for harmonized exposure information.

Here, we describe and make publicly available the ‘HARmonized grids of Critical Infrastructures in EUrope’ (HARCI-EU) 27 , employed in a previous study to quantify future risks to CIs in Europe due to climate extreme events 5 . To solve the referred data completeness and inconsistency issues, we integrate CIs-relevant geospatial data from state-of-the-art sources with national-scale statistics of their productivity or use. HARCI-EU is a novel, coherent representation of CIs in Europe, consisting of 22 grid maps at 1 km spatial resolution, covering the transport, energy, industry and social sectors. Each map represents the spatial distribution of a given infrastructure type expressed in sector-specific economic units.

According to the relevant European Directive 1 , CIs in the energy and transport sectors were deemed priority for their identification, designation and protection. Although HARCI-EU goes beyond these two sectors alone, it is not a complete account of all possible CIs in existence. While there is no ultimate list or classification of CIs, the United States Presidential Policy Directive on CI Security and Resilience, for example, cites 16 sectors of CIs, some of which are not included in HARCI-EU (e.g. defence, food, finance, water supply) 28 . Notwithstanding, the high spatial and thematic resolution and coverage make HARCI-EU a useful exposure dataset for assessing the risks of hazards to critical infrastructures in Europe. Future developments should focus on expanding HARCI-EU to encompass further CI categories.


UsSEABED

usSEABED is the collaborative product of the U.S. Geological Survey, the University of Colorado, and other partners, and provides integrated data from small and large marine research efforts by many entities—federal and state agencies, local authorities, universities, as well as private and public consortiums.

Information about seafloor characteristics from the beach to the deep sea improves the understanding of interactions between land and sea, effects of river discharge and sea level changes, distributions of benthic flora and fauna, location and type of resources, potential consequences of human activities on the oceans, and other critical issues. Large- and small-scale maps of the seabed, as well as reliable data over broad geographical areas, allow for integrated insights into these issues and more.

To assist in addressing these issues, the USGS and the University of Colorado have created usSEABED. The usSEABED datasets currently hold georeferenced point data for more than 300,000 data sites in U.S. waters from the beach to the deep sea, rivers, lakes, and estuaries. In usSEABED, existing data from the USGS and other research groups are processed and extended to maximize their density and usability creating unified, comprehensive, relationally linked datasets for mapping and analysis. Source data include surficial and subbottom data from physical sampling equipment (grabs and cores) and virtual sampling such as descriptions from seafloor photographs and videos.

In addition to quantified lab-derived data, the datasets of usSEABED also include estimated numeric values for those typical seabed characteristics—noted above—based on the extensive accumulation of word-based data in U.S. waters. These data are rich in information, but were previously difficult to quantify, map, plot, or use in comparative analyses or models.

These descriptive data—from short sentences, small essays, or single phrases—are treated as a mathematical equation that is considered as a whole. Filters based on fuzzy set theory assign relative weight to each word in the description, and estimate the values of textural and other parameters. In addition, the textural implications of non-textural terms—such as 'broken shells' or Halimeda—are included in the calculation of grain-size parameters.

The resulting numeric data, now useable in a GIS or model, should be considered "fuzzy" that is, they give an approximation—not a rigorous measurement—of the assessed values.