Suite

Y a-t-il un problème avec les statistiques zonales qui calculent des valeurs moyennes erronées ?

Y a-t-il un problème avec les statistiques zonales qui calculent des valeurs moyennes erronées ?


J'ai essayé de résoudre le problème suivant par moi-même mais sans succès. D'une part j'ai un fichier raster qui est le résultat du traitement de l'outil "shapes to grid". D'autre part, j'ai un fichier vecteur de frontière. Maintenant, je voulais utiliser l'outil de statistique zonale via la boîte à outils de traitement. Mais le résultat n'est pas correct. La valeur moyenne n'est pas ce qu'elle devrait être. Les métadonnées (probabilités du fichier de grille) me montrent la valeur moyenne correcte. Ce qui est fou, c'est que lorsque je convertis à nouveau le raster en fichier de forme, puis que je convertis à nouveau cette forme en fichier raster, l'outil de statistiques zonales fonctionne correctement.

Quelqu'un pourrait-il vérifier cela pour moi s'il vous plaît? J'utilise QGIS 2.2. Les fichiers sont ici (EPSG 25833) : Lien


Voici le billet : Billet

Ce problème est-il peut-être lié à ce problème (rapport de bogue) ?


Moyenne des décibels

Le décibel (dB) est une unité logarithmique qui indique le rapport d'une quantité physique (généralement puissance ou intensité) par rapport à un niveau de référence spécifié ou implicite.

Si je mesure une quantité physique en décibels, quelle est la méthode préférée pour calculer la moyenne des valeurs mesurées ? Est-ce suffisant de simplement les moyenner, ou dois-je les reconvertir à l'échelle linéaire, calculer la moyenne et la reconvertir en décibels (exemple) ? Quand dois-je utiliser quelle approche et pourquoi ?


Je trouve une petite manipulation algébrique de la nature suivante pour fournir un chemin agréable pour résoudre des problèmes comme celui-ci - où vous connaissez la matrice de covariance des variables $(B,C)$ et souhaitez estimer la variance de certaines de leurs fonctions, telles que comme $B/C.$ (Ceci est souvent appelé la "Méthode Delta.")

où $eta$ est l'espérance de $B$ et $gamma$ celle de $C.$ Cela fait de $(X,Y)$ une variable aléatoire à moyenne nulle avec les mêmes variances et covariance que $(B,C ).$ Apparemment rien n'est accompli, mais cette décomposition est algébriquement suggestive, comme dans

C'est-à-dire, $A$ est proportionnel à un rapport de deux nombres qui pourraient tous deux être proches de l'unité. C'est la circonstance qui permet un calcul approximatif de la variance de $A$ basé uniquement sur la matrice de covariance de $(B,C).$

Tout de suite cette division par $gamma$ montre la futilité de tenter une solution quand $gamma approx 0.$ (Voir https://stats.stackexchange.com/a/299765/919 pour des illustrations de ce qui ne va pas lors de la division d'une variable aléatoire par une autre qui a de bonnes chances d'être très proche de zéro.)

En supposant que $gamma$ est raisonnablement loin de ,$ l'expression précédente fait également allusion à la possibilité d'approximer la deuxième fraction en utilisant la série de MacLaurin pour $(1+Y/gamma)^<-1>,$ qui sera possible à condition il y a peu de changement que $|Y/gamma|ge 1$ (en dehors de la plage de convergence absolue de cette expansion). En d'autres termes, supposons en outre que la distribution de $C$ soit concentrée entre $ et $2gamma.$ Dans ce cas, la série donne

$commencer frac<1 + X/eta> <1+Y/gamma>&= left(1 + X/eta ight)left(1 - (Y/gamma) + Oleft((Y /gamma)^2 ight) ight)&= 1 + X/eta - Y/gamma + Oleft(left(X/eta ight)(Y/gamma)^2 ight).fin$

On peut négliger le dernier terme à condition que la chance que $(X/eta)(Y/gamma)^2$ soit grand soit minuscule. Cela revient à supposer que la plus grande partie de la probabilité de $Y$ est très proche de $gamma$ et que $X$ et $Y^2$ ne sont pas trop fortement corrélés. Dans ce cas

Vous vous demandez peut-être pourquoi je m'attarde sur les hypothèses. Ils comptent. Une façon de les vérifier est de générer des variables normalement distribuées $B$ et $C$ dans une simulation : cela fournira une bonne estimation de la variance de $A$ et, dans la mesure où $A$ apparaît approximativement normalement distribué, confirmera les trois hypothèses audacieuses nécessaires pour s'appuyer sur ce résultat sont effectivement valables.

Par exemple, avec la matrice de covariance $pmatrix<1&-0.9-0.9&1>$ et signifie $(eta,gamma)=(5, 10),$ l'approximation est OK (panneau de gauche) :

La variance de ces 100 000 valeurs simulées est de 0,0233,$ proche de la valeur de la formule de 0,0215.$ Mais en réduisant $gamma$ de 10$ à 4,$ ce qui semble assez innocent (4$ est toujours quatre écarts types de $C $ loin de $ ) a des effets profonds en raison de la forte corrélation entre $B$ et $C,$ comme le montre l'histogramme de droite. De toute évidence, $C$ a une chance faible mais appréciable d'être proche de ,$ créant de grandes valeurs de $B/C$ (à la fois négatives et positives). C'est un cas où il ne faut pas négliger le terme $XY^2$ dans le développement de MacLaurin. Maintenant, la variance de ces 100 000 valeurs simulées de $A$ est de 2,200$ mais la formule donne 0,301,$ bien trop petit.

C'est le code R qui a généré le premier chiffre. Un petit changement dans la troisième ligne génère le deuxième chiffre.


Y a-t-il un problème avec les statistiques zonales qui calculent des valeurs moyennes erronées ? - Systèmes d'information géographique

Effectuer une substitution de lecteur

Effectuer une substitution de lecteur pour créer les lecteurs virtuels L et M.

    Télécharger le fichier q1822.zip, et enregistrez-le dans M:. (L'ensemble complet des DEM de l'État de Washington est disponible sur un serveur de Geological Sciences.)

    Si vous êtes curieux de connaître la structure du fichier, ouvrez une invite de commande et utilisez la commande


Cela montre que le fichier représente le quadrilatère d'Eatonville, WA, la source de données était une photographie à haute altitude (HAP) réalisée le 6 août 1981. La taille de la cellule est de 30 m. Les grandes valeurs numériques sont les valeurs d'en-tête pour l'origine XY de la grille, la rotation, etc. Les plus petites valeurs sont l'altitude en mètres.

    Met le Saisir le fichier USGS DEM au dem décompressé.

Vous venez de télécharger avec succès un modèle d'élévation numérique du domaine public, de l'importer dans ArcGIS et de l'afficher dans un dégradé de couleurs étiré par élévation. Presque tous les DEM pour les États-Unis sont disponibles en téléchargement gratuit. Les DEM sont utilisés dans tous les aspects de l'analyse SIG des paysages. L'altitude est l'une des choses les plus fondamentales que nous devons savoir sur les paysages. De plus, les jeux de données d'altitude constituent la base des jeux de données de pente et d'aspect et seront utilisés pour développer les délimitations des bassins versants.

Obtenir et importer des DEM USGS de 10 m

Harvey Greenberg gère un serveur dans Earth & Space Sciences qui gère un grand nombre d'ensembles de données pour l'État de Washington, y compris des DEM de 10 m (ceux que vous venez d'utiliser font 30 m).

    Créer un répertoire appelé 10m pour tenir les DEM de 10 mètres dans votre M: _an_2.

10m

30m

Fusion de grilles adjacentes ("mosaicking")

Le mosaïquage créera une seule grille transparente et facilitera également la transition entre les grilles en effectuant une fonction de moyenne près du bord.

    En utilisant la même méthode que ci-dessus, téléchargez, importez et décompressez le DEM Elbe, WA 30 m (q1823.dem). Appeler la grille de sortie Elbe.


Même si vous utilisez un dégradé de couleurs similaire, vous pouvez toujours voir le bord dur entre les deux grilles. Vous pouvez également voir qu'il s'agit toujours de deux grilles distinctes dans la table des matières du bloc de données.

Voici une vue agrandie avec une symbologie classée plutôt qu'étirée.

Pour ces cellules en bordure, le dénivelé est de 9 mètres.

Cet outil va "créer une nouvelle couche raster en mosaïquant la grille d'Eatonville avec la grille de l'Elbe."

Vous venez de télécharger, d'importer et de fusionner deux modèles d'élévation numériques USGS adjacents. Si votre zone d'étude s'étend sur plusieurs limites de feuille quad USGS et que vous devez effectuer une analyse à l'aide de données d'altitude, vous devrez les mosaïquer.

    Retournez au Eatonville trame de données.

  1. Réglez l'intervalle de contour sur 10 m.
  2. Placez la sortie sous forme de fichier de formes appelé Contour_10m.

Vous venez de créer un calque de ligne de contour vectoriel entier. Utilisez cette technique pour créer des données de courbe de niveau si vous ne disposez que de données d'altitude raster, mais que vous avez besoin de courbes de niveau sur votre carte. Attention, cependant, que les lignes de contour ne sont aussi bonnes que les données d'entrée, qui dans de nombreux cas, ne sont pas très bonnes du tout. Il existe également des problèmes de généralisation des lignes qui peuvent affecter la qualité des données.

Calcul des surfaces de distance et des zones tampons

Calculer des surfaces de distance

    Créez un nouveau bloc de données appelé Pack Forêt.

Désormais, chaque cellule de la grille de sortie a une valeur pour sa distance au flux le plus proche. Cela ressemble à un tampon avec des zones tampons concentriques, mais plutôt que des zones de distance quantifiées, chaque cellule est codée pour sa propre distance par rapport au flux le plus proche plutôt que d'être simplement codée pour "à l'intérieur ou à l'extérieur" d'un tampon avec une plage particulière de valeurs de distance .

Voyez-vous en quoi cela diffère de la fonction tampon dans le monde vectoriel ?

Maintenant que vous avez une surface qui a une distance à chaque ruisseau, créez une couche de grille qui représente les cellules à moins de 500 pieds des ruisseaux existants.

    Du Analyste spatialOutilsCarte Algeba, sélectionnez Calculatrice raster.

Pour créer une grille de masque contenant des cellules valides à une distance de 500 pieds, effectuez une autre Calcul raster en utilisant le setnull fonction d'algèbre cartographique :

Cette expression signifie "pour chaque cellule, si la valeur de buf_stream_500 est égal à 0, faire la valeur de sortie pas de données, sinon définissez la valeur de sortie 1."


Cela créera une nouvelle grille identique à la grille de distance d'origine, mais elle n'aura de valeur pour les cellules que dans la grille de masque. Le masque limite l'étendue spatiale des cellules de sortie.

L'autre méthode pour limiter la distance est :

    Effectuez le même calcul de distance que précédemment, mais entrez le Distance maximale de 500 pieds :

Vous venez de créer une grille de surface de distance à partir d'une couche vectorielle de flux. Ces surfaces de distance sont similaires aux tampons, mais plutôt que d'avoir une simple valeur binaire d'entrée ou de sortie, les cellules sont codées avec la distance réelle du centre de la cellule au flux le plus proche. Si vous effectuez une sorte de modélisation où la distance réelle par rapport à une entité (plutôt qu'à l'intérieur/à l'extérieur d'une zone tampon) est importante, vous pouvez utiliser cette technique. Par exemple, les salamandres sont plus susceptibles d'être trouvées plus près des chenaux des cours d'eau.

Calcul des attributs récapitulatifs pour les entités à l'aide d'une couche de grille ("Statistiques zonales")

Les statistiques de zone sont utilisées lorsque vous disposez d'un ensemble de données de zone (la source peut être une grille ou un ensemble de données vectorielles) et que vous souhaitez connaître les statistiques récapitulatives d'une grille sous-jacente.

    Créez un nouveau bloc de données et ajoutez la couche de grille dem et la couche polygonale des stands depuis le fichier L:packgispackgis.mdb.

  1. Choisir peuplements polygone comme le Jeu de données de zone.
  2. Sélectionnez l'article SITE_INDEX comme champ de zone. Ceci précise que nous sommes intéressés à regrouper les stands et à analyser par valeur unique d'indice de site.
  3. Sélectionner dem comme le Raster de valeur.
  4. Sélectionner Signifier comme le Statistiques du graphique.
  5. Mettez la table de sortie dans M:NETID.gdbZonalSt_stands1.

Zones de tabulation croisée

La tabulation croisée par zone est utile pour comparer différents ensembles de données pour la même zone, ainsi que pour comparer les mêmes couches de données à différents moments.

Une approximation raster du vecteur d'intersection

    Créez un nouveau bloc de données appelé XTab.

  1. Convertir en fonction du ESPÈCE domaine.
  2. Placez l'ensemble de données de sortie dans M:NETID.gdbstand_sp_grid.
  3. Utilisez une taille de cellule de 30 m.

  1. La première couche d'entrée est la grille de sol
  2. La deuxième couche d'entrée est la grille de support.
  3. Placez la table de sortie dans M:NETID.gdbsoil_stand_xtab.
  4. Cliquez sur d'accord.

Reclassification d'une couche de grille raster

Parfois, il est plus judicieux de travailler avec des données reclassées plutôt que des données brutes continues. Par exemple, il peut exister des plages d'altitude spécifiques dans lesquelles vous pouvez trouver différents types de végétation. Afin de modéliser la distribution de la végétation, il peut être préférable d'avoir une grille de classes d'élévation plutôt qu'une grille contenant des élévations continues brutes. La reclassification de vos données est similaire à la modification de la classification dans la légende d'une couche, mais au lieu de simplement modifier la symbologie, elle crée un nouvel ensemble de données de grille avec ces valeurs.

    Fermer la Propriétés.

Utilisez la fonction de remplissage automatique d'Excel pour rendre cela un jeu d'enfant (demandez à votre gourou Excel local ou demandez à l'instructeur une démonstration si vous ne savez pas comment faire cela, ou recherchez-le dans l'aide d'Excel). Chaque enregistrement de la table définit la plage et les valeurs de sortie. Par exemple, le premier enregistrement prendra des cellules d'entrée avec des valeurs comprises entre 400 et 500 et les remappera à une valeur de 500 dans la sortie.

La reclassification d'une couche de grille raster attribue de nouvelles valeurs en sortie à des groupes de cellules en entrée. Dans ce cas, nous avons créé une nouvelle grille raster à partir de l'ensemble sélectionné du Dem_int couche de grille raster. Le reclassement est une technique qui peut rendre les données plus compréhensibles, mais inclut toujours une perte des informations d'origine (les valeurs d'origine sont perdues). L'autre problème avec la reclassification est que la table attributaire de grille raster résultante n'a pas de valeurs descriptives, uniquement des numéros de classe. Reclassifier est également une fonction locale, car elle attribue de nouvelles valeurs de cellule pour chaque cellule indépendamment des autres cellules.

Calculer les statistiques du quartier

Quelles parties de la forêt ont la plus grande complexité topographique ? Sur la base d'un noyau de cellules de 5 sur 5 passé sur l'ensemble du paysage, calculez l'écart type d'altitude dans ce noyau de cellules de 5 sur 5 et placez la sortie de chacun de ces calculs dans la cellule centrale de la grille de sortie.

    Du Analyste spatialOutilsQuartier, sélectionnez Statistiques de bloc.

  1. Sélectionner dem comme jeu de données d'entrée
  2. Sélectionnez la statistique Écart-type.
  3. Utilisez un rectangle de 5 par 5 de cellules.
  4. Définissez la taille de la cellule de sortie de 10 à partir du EnvironnementsAnalyse raster.
    <Note> Ce fichier ne peut pas être stocké dans la géodatbase, enregistrez-le plutôt sur votre lecteur amovible

La même technique de base pourrait être utilisée, par exemple, pour caractériser l'utilisation des terres ou les types d'occupation des sols. Pour les données nominales telles que l'utilisation des terres ou la couverture des terres, la statistique de voisinage Variety afficherait une nouvelle couche de grille dans laquelle les cellules de sortie représentent le nombre de classes distinctes dans la zone du noyau.

Voici un exemple de calcul de quartier basé sur l'âge des peuplements. Les peuplements forestiers ont été convertis en une grille basée sur les valeurs d'âge des peuplements (Age_2003). Les bords les plus contrastés (ceux qui ont la plus grande différence d'âge) donnent des cellules avec une valeur d'écart type plus élevée (affichée dans une nuance de violet plus foncé). Pouvez-vous reproduire quelque chose comme ça en utilisant les polygones de peuplement Pack Forest, basés sur les valeurs du champ Site_index ?


3 réponses 3

Cet extrait du texte souffre d'ambiguïté et d'inexactitude.

Traitons d'abord ce dernier. L'indépendance de deux variables aléatoires $X$ et $Y$ est ne pas à propos d'une variable "ne fournissant aucune information sur la première" (une expression remarquablement ambiguë en elle-même !). L'indépendance est strictement une question de probabilités et cela signifie ni plus ni moins que la chance d'un événement conjoint (à savoir, que la valeur de $X$ se trouve dans un certain ensemble $mathcal A$ et la valeur de $Y$ se trouve simultanément dans un autre set $mathcal B$ ) est déterminé à partir des seules chances séparées (c'est-à-dire en les multipliant).

Dans ce contexte il est naturel de mettre en place un modèle d'urne pour comprendre l'échantillonnage. Un exemple extrême de cette situation se produit avec une année scolaire tronquée (comme beaucoup l'ont récemment vécu !) dans laquelle l'élève ne fait que deux jours de trajet. L'urne contiendrait deux bouts de papier représentant les deux trajets. Sur chaque feuillet est inscrit le temps de ce trajet. Un échantillon aléatoire de taille un est obtenu en retirant à l'aveugle un seul feuillet. Soit $X$ la valeur sur ce bordereau : c'est une variable aléatoire. Soit $Y$ la collection de valeurs sur tous les feuillets restants dans l'urne (c'est-à-dire le jour de déplacement qui n'a pas été sélectionné). Il est simple de montrer que la variable aléatoire $(X,Y)$ est ne pas indépendant : en effet, la corrélation entre $X$ et $Y$ est de $-1$ et toutes les variables ayant une corrélation non nulle ne sont pas indépendantes.

Si vous trouvez des échantillons de taille $1$ conceptuellement répréhensibles, étendez cet exemple à une année scolaire avec trois jours de trajet domicile-travail et considérez un échantillon aléatoire (sans remplacement) de taille $2.$ Cet échantillon consiste à retirer deux billets -- dans l'ordre -- sans remplacement. Soit $X_1$ la valeur inscrite sur le premier ticket et $X_2$ la valeur sur le second. La corrélation de la variable aléatoire $(X_1,X_2)$ est à nouveau $-1/2,$ non nulle : ces deux temps de trajet ne sont pas indépendants. (La question sur la covariance pour l'échantillonnage sans remise explique comment calculer cette covariance.)

Il est possible que les auteurs aient en tête un modèle dans lequel l'urne est remplie de milliards de billets reflétant une certaine distribution des temps de trajet « hypothétiques ». Si tel est le cas, les valeurs de l'échantillon se comporteront pratiquement comme si elles étaient indépendantes. Mais quelle serait la base conceptuelle pour construire un tel modèle ?

Les auteurs pourraient également avoir (implicitement) fait appel à l'idée que lorsqu'il y a un "grand" nombre de tickets dans l'urne et que "relativement peu" sont retirés de l'échantillon, les valeurs sur les tickets échantillonnés sont approximativement indépendant. Mais cela semble tout simplement trop qualitatif et glissant pour servir d'explication décente à n'importe quel public.

Plus nous pensons à cette situation, plus la réalité s'immisce. Par exemple, même lorsqu'une année scolaire comprend 180 jours complets (environ), pourquoi devrions-nous supposer que les temps de trajet échantillonnés pendant les mois d'hiver "ne fournissent aucune information" sur les autres temps de trajet à proximité ? Dans les régions aux hivers rigoureux, personne ne le croirait. "Je vois qu'il t'a fallu deux heures pour aller à l'école hier. Il doit y avoir beaucoup de neige là-bas. Je parie que votre trajet au cours de la semaine prochaine va être très long."

Nous avons déjà passé sous silence plusieurs ambiguïtés concernant ce que l'on entend par "aucune information" et quel modèle est utilisé. Il y a d'autres ambiguïtés. Aux fins de l'évaluation de l'indépendance des valeurs dans l'échantillon, devrions-nous - ou ne devrions-nous pas - supposer que nous pourrions inspecter le contenu complet de l'urne ? Si un temps de trajet "ne fournit aucune information" sur tout autre temps de trajet dans l'échantillon, alors combien moins d'informations doit-il fournir sur les temps de trajet qui n'ont pas été échantillonnés ! Comment, alors, pourrait-il être possible de faire des inférences sur les temps de trajet de l'année sur la base des valeurs échantillonnées ?

Bien que cela puisse sembler pénible ou excessivement technique de le faire, le seulement manière de démontrer l'indépendance des variables aléatoires doit faire appel à sa définition probabiliste. Cela nécessite d'indiquer clairement un modèle de probabilité et de montrer que les probabilités dans ce modèle obéissent à la loi du produit caractéristique de l'indépendance. Tout le reste n'est qu'un signe de la main et menace de semer la confusion chez l'étudiant réfléchi.


Un modèle de régression est souvent utilisé pour l'extrapolation, c'est-à-dire pour prédire la réponse à une entrée qui se situe en dehors de la plage des valeurs de la variable prédictive utilisée pour ajuster le modèle. Le danger associé à l'extrapolation est illustré dans la figure suivante.

Le modèle de régression est « par construction » un modèle d'interpolation, et ne doit pas être utilisé pour l'extrapolation, à moins que c'est bien justifié.

En utilisant les points de données de Cueball (l'homme au bâton), il a extrapolé que la femme aura "quatre douzaines" de maris d'ici la fin du mois prochain, et a utilisé cette extrapolation pour conclure à l'achat du gâteau de mariage en gros.

Edit 3: Pour ceux d'entre vous qui disent "il n'a pas assez de points de données", voici une autre bande dessinée xkcd :

Ici, l'utilisation du mot « durable » au fil du temps est indiquée sur un graphique semi-logarithmique, et en extrapolant les points de données, nous recevons une estimation déraisonnable de la fréquence à laquelle le mot « durable » apparaîtra à l'avenir.

Edit 2 : Pour ceux d'entre vous qui disent "vous avez aussi besoin de tous les points de données passés", encore une autre bande dessinée xkcd :

Ici, nous avons tous les points de données passés, mais nous ne parvenons pas à prédire avec précision la résolution de Google Earth. Notez qu'il s'agit également d'un graphique semi-logarithmique.

Éditer: Parfois, même la plus forte des corrélations (r=.9979 dans ce cas) est tout simplement fausse.

Si vous extrapolez sans autre preuve à l'appui, vous violez également la corrélation n'implique pas la causalité, un autre grand péché dans le monde des statistiques.

Si vous extrapolez X avec Y, cependant, vous devez vous assurer que vous peut avec précision (assez pour satisfaire vos besoins) prédire X avec seulement Y. Presque toujours, il y a plusieurs facteurs que l'impact X.

Je voudrais partager un lien vers une autre réponse qui l'explique dans les mots de Nassim Nicholas Taleb.

"La prédiction est très difficile, surtout s'il s'agit de l'avenir". La citation est attribuée à de nombreuses personnes sous une forme ou une autre. Je limite dans la "extrapolation" suivante à la "prédiction en dehors de la plage connue", et dans un cadre unidimensionnel, l'extrapolation d'un passé connu à un avenir inconnu.

Alors qu'est-ce qui ne va pas avec l'extrapolation. Première, il n'est pas facile de modéliser le passé. Seconde, il est difficile de savoir si un modèle du passé peut être utilisé pour l'avenir. Derrière les deux affirmations se cachent de profondes questions sur la causalité ou l'ergodicité, la suffisance des variables explicatives, etc. qui dépendent tout à fait de la casse. Ce qui ne va pas, c'est qu'il est difficile de choisir un seul schéma d'extrapolation qui fonctionne bien dans différents contextes, sans beaucoup d'informations supplémentaires.

Cette inadéquation générique est clairement illustrée dans l'ensemble de données du quatuor Anscombe présenté ci-dessous. La régression linéaire est également (en dehors de la plage de coordonnées $x$) une instance d'extrapolation. La même ligne régresse quatre ensembles de points, avec les mêmes statistiques standard. Cependant, les modèles sous-jacents sont assez différents : le premier est assez standard. Le second est une erreur de modèle paramétrique (un polynôme du deuxième ou du troisième degré pourrait être mieux adapté), le troisième montre un ajustement parfait à l'exception d'une valeur (valeur aberrante ?), le quatrième un manque de relations fluides (hystérésis ?).

Cependant, les prévisions peuvent être rectifiées dans une certaine mesure. En plus d'autres réponses, quelques ingrédients peuvent aider à l'extrapolation pratique :

  1. Vous pouvez peser les échantillons en fonction de leur distance (indice $n$ ) à l'emplacement $p$ où vous souhaitez extrapoler. Par exemple, utilisez une fonction croissante $f_p(n)$ (avec $pge n$ ), comme une pondération ou un lissage exponentiel, ou des fenêtres glissantes d'échantillons, pour donner moins d'importance aux valeurs plus anciennes.
  2. Vous pouvez utiliser plusieurs modèles d'extrapolation et les combiner ou sélectionner le meilleur (Combining Forecasts, J. Scott Armstrong, 2001). Récemment, il y a eu un certain nombre de travaux sur leur combinaison optimale (je peux fournir des références si nécessaire).

Récemment, j'ai été impliqué dans un projet d'extrapolation de valeurs pour la communication de sous-systèmes de simulation dans un environnement temps réel. Le dogme dans ce domaine était que l'extrapolation peut provoquer une instabilité. Nous avons en fait réalisé que la combinaison des deux ingrédients ci-dessus était très efficace, sans instabilité notable (sans encore preuve formelle : CHOPtrey : extrapolation polynomiale contextuelle en ligne pour une co-simulation multicœur améliorée de systèmes complexes, Simulation, 2017). Et l'extrapolation a fonctionné avec des polynômes simples, avec une charge de calcul très faible, la plupart des opérations étant calculées au préalable et stockées dans des tables de consultation.

Enfin, comme l'extrapolation suggère des dessins amusants, voici l'effet inverse de la régression linéaire :


Comment lire les statistiques avec la distance

Une première bonne chose serait bien sûr de se tenir devant une enquête/expérience/recherche honnête – choisissez celle que vous avez sous les yeux –, qui a appliqué les bonnes techniques de collecte et d'interprétation des données. Mais vous ne pouvez pas savoir tant que vous ne vous posez pas quelques questions et n'analysez pas les résultats que vous avez entre les mains.

Comme le conseille l'entrepreneur et ancien consultant Mark Suster dans un article, vous devriez vous demander qui a effectué la recherche principale de ladite analyse. Groupe d'étude universitaire indépendant, équipe de recherche affiliée à un laboratoire, société de conseil ? De là découle naturellement la question : qui les a payés ? Comme personne ne travaille gratuitement, il est toujours intéressant de savoir qui parraine la recherche. De même, quelles sont les motivations de la recherche ? Qu'est-ce que le scientifique ou les statisticiens ont essayé de comprendre ? Enfin, quelle était la taille de l'ensemble d'échantillons et qui en faisait partie ? À quel point était-ce inclusif ?

Ce sont des questions importantes auxquelles il faut réfléchir et répondre avant de diffuser partout des résultats biaisés ou biaisés – même si cela se produit tout le temps, à cause de l'amplification. Un exemple typique d'amplification se produit souvent avec les journaux et les journalistes, qui prennent une donnée et doivent la transformer en gros titres – donc souvent hors de son contexte d'origine. Personne n'achète un magazine où il déclare que l'année prochaine, la même chose va se produire sur le marché XYZ que cette année - même si c'est vrai. Les éditeurs, les clients et les gens veulent quelque chose de nouveau, pas quelque chose qu'ils connaissent, c'est pourquoi nous nous retrouvons souvent avec un phénomène d'amplification qui fait écho et plus qu'il ne le devrait.


Il y a une faille dans la réponse de Jason R, qui est discutée dans "Art of Computer Programming" de Knuth, vol. 2. Le problème survient si vous avez un écart type qui est une petite fraction de la moyenne : le calcul de E(x^2) - (E(x)^2) souffre d'une grande sensibilité aux erreurs d'arrondi à virgule flottante.

Vous pouvez même essayer cela vous-même dans un script Python :

J'obtiens -128.0 comme réponse, ce qui n'est clairement pas valide sur le plan informatique, car les calculs prédisent que le résultat devrait être non négatif.

Knuth cite une approche (je ne me souviens pas du nom de l'inventeur) pour calculer la moyenne courante et l'écart type qui ressemble à ceci :

puis après chaque étape, la valeur de m est la moyenne, et l'écart type peut être calculé comme sqrt(S/n) ou sqrt(S/n-1) selon votre définition préférée de l'écart type.

L'équation que j'écris ci-dessus est légèrement différente de celle de Knuth, mais elle est équivalente en termes de calcul.

Quand j'aurai quelques minutes de plus, je coderai la formule ci-dessus en Python et montrerai que vous obtiendrez une réponse non négative (qui, espérons-le, est proche de la valeur correcte).

Vous remarquerez qu'il y a encore une erreur d'arrondi, mais ce n'est pas mal, alors que naive_stats ne fait que vomir.

edit: Je viens de remarquer le commentaire de Belisarius citant Wikipedia qui mentionne l'algorithme de Knuth.

Quel serait le moyen idéal pour trouver la moyenne et l'écart type d'un signal pour une application en temps réel. J'aimerais pouvoir déclencher un contrôleur lorsqu'un signal est à plus de 3 écarts-types de la moyenne pendant un certain temps.

La bonne approche dans des situations comme celle-ci consiste généralement à calculer une moyenne courante et un écart-type à pondération exponentielle. Dans la moyenne pondérée de manière exponentielle, les estimations de la moyenne et de la variance sont biaisées vers l'échantillon le plus récent, ce qui vous donne des estimations de la moyenne et de la variance au cours des dernières $ au$ secondes, ce qui est probablement ce que vous voulez, plutôt que la moyenne arithmétique habituelle sur tous les échantillons jamais vus.

Dans le domaine fréquentiel, une "moyenne courante pondérée exponentiellement" est simplement un véritable pôle. Il est simple à mettre en œuvre dans le domaine temporel.

Implémentation du domaine temporel

Soit moyenne et moyenneq les estimations actuelles de la moyenne et de la moyenne du carré du signal. A chaque cycle, mettez à jour ces estimations avec le nouvel échantillon x :

Ici < a < 1$ est une constante qui détermine la longueur effective de la moyenne courante. Comment choisir $a$ est décrit ci-dessous dans "analyse".

Ce qui est exprimé ci-dessus comme un programme impératif peut également être décrit comme un diagramme de flux de signaux :

L'algorithme ci-dessus calcule $y_i = a x_i + (1-a) y_$ où $x_i$ est l'entrée à l'échantillon $i$, et $y_i$ est la sortie (c'est-à-dire l'estimation de la moyenne). Il s'agit d'un simple filtre IIR unipolaire. En prenant la transformée $z$, on trouve la fonction de transfert $H(z) = frac<1-(1-a)z^<-1>>$.

En condensant les filtres IIR dans leurs propres blocs, le diagramme ressemble maintenant à ceci :

Pour passer au domaine continu, on fait la substitution $z = e^$ où $T$ est le temps d'échantillonnage et $f_s = 1/T$ est le taux d'échantillonnage. En résolvant $1-(1-a)e^<-sT>=0$, nous trouvons que le système continu a un pôle à $s = frac<1> log (1-a)$.


Calcul de l'écart type

Donc je fais quelques devoirs et j'ai vraiment du mal à essayer de comprendre comment calculer l'écart type. Je crois comprendre que pour l'obtenir, vous avez besoin de la variance, mais apparemment, je fais quelque chose de mal car j'obtiens toujours des réponses incorrectes.

Le problème se lit comme suit :

Lorsqu'ils stationnent une voiture dans un parking du centre-ville, les conducteurs paient en fonction du nombre d'heures ou d'une fraction d'heures. La distribution de probabilité du nombre d'heures de stationnement des voitures a été estimée comme suit :

$commencer <|c|c|c|c|c|c|c|c|c|>hline x & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 hline P(x) & 0,205 & 0,131 & 0,113 & 0,095 & 0,067 & 0,029 & 0,023 & 0,337 hline end$

Trouver:

Un moyen pour

B. Écart type =

Le coût du stationnement est de 4,75 dollars de l'heure. Calculez la moyenne et l'écart type du montant des revenus générés par chaque voiture.

A. Moyenne =

B. Écart type =

Maintenant, j'ai calculé la moyenne (4,552) pour la partie 1, mais je ne sais pas comment obtenir l'écart type, je crois comprendre que vous utilisez la moyenne pour trouver la variance et prenez la racine carrée de celle-ci, mais je semble avoir la mauvaise réponse (11.49) - quelqu'un pourrait-il m'aider à comprendre ce que je fais mal ?


Mise à jour 04/12/2014

Il s'agit d'une question d'estimation au sein d'un modèle linéaire à effets mixtes. Le problème est que la variance de la grande moyenne est une somme pondérée de deux composantes de la variance qui doivent être estimées séparément (via une ANOVA des données). Les estimations ont différents degrés de liberté. Par conséquent, bien que l'on puisse tenter de construire un intervalle de confiance pour la moyenne en utilisant les formules habituelles pour petits échantillons (t de Student), il est peu probable qu'il atteigne sa couverture nominale car les écarts par rapport à la moyenne ne suivront pas exactement une distribution t de Student.

Un article récent (2010) d'Eva Jarosova, Estimation avec le modèle linéaire à effets mixtes, aborde cette question. (À partir de 2015, il ne semble plus être disponible sur le Web.) Dans le contexte d'un « petit » ensemble de données (même ainsi, environ trois fois plus grand que celui-ci), elle utilise la simulation pour évaluer deux calculs approximatifs d'IC ​​(le puits -approximation de Satterthwaite connue et la "méthode de Kenward-Roger"). Ses conclusions comprennent

Une étude de simulation a révélé que la qualité de l'estimation des paramètres de covariance et, par conséquent, l'ajustement des intervalles de confiance dans les petits échantillons peuvent être assez médiocres. Une mauvaise estimation peut influencer non seulement le niveau de confiance réel des intervalles conventionnels, mais elle peut également rendre l'ajustement impossible. Il est évident que même pour des données équilibrées, trois types d'intervalles [conventionnels, Satterthwaite, K-R] peuvent différer considérablement. Lorsqu'une différence frappante entre les intervalles conventionnels et ajustés est observée, les erreurs types des estimations des paramètres de covariance doivent être vérifiées. En revanche, lorsque les différences entre [les trois] types d'intervalles sont faibles, l'ajustement semble inutile.

Bref, une bonne approche semble être

Calculez un IC conventionnel en utilisant les estimations des composantes de la variance et en prétendant qu'une distribution t s'applique.

Calculez également au moins un des IC ajustés.

Si les calculs sont « proches », acceptez le CI conventionnel. Sinon, signalez qu'il n'y a pas suffisamment de données pour produire un CI fiable.