Suite

Enveloppes de simulation et niveaux de signification

Enveloppes de simulation et niveaux de signification


De nombreux progiciels d'analyse spatiale fournissent des techniques de Monte Carlo pour simuler des « enveloppes » supérieure et inférieure pour une statistique récapitulative en fonction de la distance (par exemple, fonction K, voisin le plus proche, etc.). J'ai parfois vu l'importance de l'écart par rapport à l'enveloppe exprimée comme suit :

p = m * 1 / (n +1)

m est le nombre de simulations et m est le rang de l'observation la plus grande et la plus petite d'un échantillon de simulation pour chaque distance r. Par exemple, si m = 1, les premières valeurs les plus grandes et les premières plus petites de l'échantillon de simulation sont utilisées pour tracer les enveloppes de simulation supérieure et inférieure. Si m = 2, la deuxième plus grande et la deuxième plus petite valeur sont utilisées pour tracer les enveloppes de simulation.

Mes questions sont :

1/ d'où vient le + 1 au dénominateur proviennent de ? Par exemple, si nous effectuons 39 simulations, pourquoi diviser par 40 ?

2/ Quel que soit le nombre de simulations réalisées (soit 39 ou 9999), m semble avoir une influence disproportionnée sur le calcul du seuil de signification. Il semblerait que prendre les 2e valeurs les plus élevées et les plus basses d'un échantillon de simulation à partir de 9999 simulations aurait moins d'impact sur la largeur de l'enveloppe de simulation qu'à partir de 39 simulations. Je suis sûr qu'il y a une base théorique solide pour cela, mais sa logique m'échappe. Existe-t-il une analogie dans les statistiques inférentielles (non spatiales) qui peut aider à rendre cela un peu plus intuitif ?

3/ Comment présenter les résultats d'une enveloppe de simulation ? je vois parfois un p valeur définie pour une simulation, mais comment savoir si la p est pour m=1 ou plus strict m=3?

Éditer: Par commentaire de whuber, voici quelques éclaircissements :

1/ Le type de simulation concerne le test de l'hypothèse nulle telle que l'aléatoire spatial complet (CSR)

2/ Un exemple de package qui calcule des enveloppes de simulation est spatstat (R). La fonction s'appelle enveloppe et nrank est le paramètre m décrit dans l'équation ci-dessus.


  1. Le +1 est une convention. Il s'agit de convertir les rangs en centiles. Considérez 99 itérations. Le rang ira de 1 à 99 (par étapes entières). Vous pouvez convertir le rang en centile en divisant par 99 et en multipliant par 100. Cela produirait des centiles de 100/99 = 1,01 % à 99*100/99 = 100 %. Cela manque d'une symétrie souhaitable : vous dites que le le plus bas la valeur est de 1,01 % à partir du bas mais le plus haut la valeur est juste en haut de la gamme. Pour restaurer cette symétrie, vous devez décaler les rangs de 0,5 : la valeur la plus basse se voit attribuer un centile de (1-0,5)*100/99 = 0,50 % et la valeur la plus élevée reçoit un centile de (99-0,5)*100/ 99 = 99,50% = 100 - 0,50%. Tout devient beau et symétrique. Vous pouvez éviter d'ajuster les rangs en ajoutant simplement 1 au dénominateur. Maintenant, les centiles dans l'exemple vont de 1*100/100 = 1 % jusqu'à 99 % par pas symétriques de 1 %. (J'illustre cela, et en discute plus généralement, à http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm : regardez vers le bas de cette page.)

  2. Le but de la simulation est de calculer ce qui est susceptible d'arriver par hasard seul (la « distribution nulle »). Par exemple, nous pouvons nous demander si le record de Joe Paterno dans le bowl de football à Penn State de 24 victoires en 37 tentatives est simplement le résultat d'une chance aveugle, pas mieux (ou pire) que si chaque match avait été décidé par un tirage au sort équitable. Pour ce faire, nous pourrions en fait lancer une pièce 37 fois, compter les faces (pour représenter les victoires) et répéter cela pour un total de 99 itérations. Nous trouverions que très peu de ces 99 tentatives ont atteint 24 têtes ou plus - très probablement 5 ou moins. C'est une assez bonne preuve qu'au fil du temps, ses équipes étaient meilleures que la compétition de bowl, indiquant qu'elles avaient tendance à être sous-estimées. (99 est un nombre trop petit pour être utilisé ici, vraiment : j'ai en fait utilisé 100 000, dans lequel j'ai observé 4972 occasions de 24 têtes ou plus.)

    Le seul aspect de cet exemple que vous contrôlez est le poids de la preuve : une chance de 5/100 suffit-elle pour vous convaincre que le résultat n'était pas dû au hasard (ou à la chance) ? Selon les circonstances, certaines personnes ont besoin de preuves plus solides, d'autres plus faibles. C'est le rôle de m. Lorsque vous dessinez les enveloppes au plus extrême sur (disons) 99 itérations, vous estimez alors le 1 % le plus bas et le 1 % le plus élevé. Vous devineriez que des fluctuations aléatoires placeraient la courbe entre ces enveloppes 100 - 1 - 1 = 98% du temps. Cela correspond (très grossièrement, car 99 itérations est encore trop peu) à une "valeur p bilatérale de 0,02". Si vous n'avez pas besoin de preuves aussi solides, vous pouvez choisir (par exemple) m = 3. Maintenant, l'enveloppe inférieure représente les 3/99 inférieurs = 3,03 % de la distribution aléatoire et l'enveloppe supérieure représente les 3,03 % supérieurs de cette distribution. Votre valeur p bilatérale est d'environ 6%. (Parce que 99 est si petit, la vraie valeur p peut atteindre 15 % environ, alors méfiez-vous ! Faites beaucoup plus d'itérations Monte-Carlo si vous le pouvez.)

  3. En quelques sortes vous essayez de décrire un répartition des enveloppes (courbes). C'est une chose compliquée. Une façon consiste à choisir à l'avance certains centiles, tels que 1 % (et donc, par symétrie, 99 %), 5 % (et 95 %), 10 % (et 90 %), 25 % (et 75 %). Sur 99 courbes simulées, celles-ci correspondraient à peu près à la plus basse (et la plus haute), la cinquième la plus basse (et la cinquième la plus haute), etc. plus extrême que l'autre ?) Tracer ces courbes sélectionnées donne au moins une idée visuelle de la propagation qui est produite par les seuls mécanismes du hasard.

J'espère que vous avez l'impression que cette approche consistant à générer un petit groupe de courbes (sous l'hypothèse nulle) et à en dessiner quelques-unes sélectionnées est exploratoire, approximatif, et un peu brut, car c'est tout ça. Mais c'est bien mieux que de simplement deviner si vos données ont pu ou non provenir du hasard.