Suite

Comment créer un point aléatoire par cellule de grille ? (c.-à-d. échantillonnage systématique avec des points placés au hasard)

Comment créer un point aléatoire par cellule de grille ? (c.-à-d. échantillonnage systématique avec des points placés au hasard)


En utilisant ArcMap, j'ai utilisé l'outil Fishnet pour créer une grille de carrés de 1 km. Je cherche à créer des points aléatoires afin qu'il y ait un point (placé au hasard) par cellule de grille, avec une distance minimale de 150 m entre les points. (pour référence, voir « Echantillonnage systématique avec placement de points aléatoires à mi-chemin environ sur http://www.quantdec.com/sample/ )

Je comprends que je peux utiliser l'outil Fishnet pour placer des points au centre des cellules ; cependant, je recherche une distribution de points aléatoire, les seules contraintes étant la distance minimale entre et les points limités à 1 par cellule.

De plus, il y a un calque avec lequel j'aimerais que les points se chevauchent. Une fois les points générés, je sais que je peux utiliser l'outil Intersection pour m'assurer que les points restants coupent ce calque; cependant, j'espère créer autant de points que possible et beaucoup de points qui ne se croisent pas seront perdus si je fais cela.

Pour vous donner une idée, voici une image d'une petite zone de ce avec quoi je travaille


Si vous disposez d'ArcInfo, 3D ou Spatial analyst, vous pouvez utiliser l'outil de création de points aléatoires pour générer vos points.

Tout d'abord, je commencerais par l'intersection entre votre résille et un fondu de votre autre classe d'entités. Cela vous donnera un polygone en plusieurs parties par cellule de grille, y compris certains des polygones jaunes.

Ensuite, vous pouvez placer un point pour chacune des classes d'entités résultantes en utilisant les paramètres facultatifs de "créer des points aléatoires" (prendre le résultat de l'intersection comme constraining_feature_class et définir le nombre de points = 1).

A titre de remarque, je n'utiliserais pas la contrainte de 150 m si j'étais vous car vous avez déjà beaucoup de contraintes, mais vous pouvez utiliser un paramètre "minimum_allowed_distance" pour éviter que les points ne tombent à moins de 150 m les uns des autres.

Si vous n'avez pas la licence appropriée, jetez un œil à Geospatial Modeling Environment (anciennement les outils de Hawth) et à leur outil de géostratégie


Comment connaître les valeurs optimales de la grille K-points pour un bon calcul DFT ?

Je fais des calculs DFT avec l'exécutable pw.x dans Quantum Espresso. Pour cela, nous devons choisir la bonne grille de points K afin d'effectuer un calcul sans erreur. Mais je n'ai aucune idée de la façon dont puis-je choisir les valeurs optimales des points K ? Comment le faire converger ? Dois-je effectuer le même calcul avec différentes valeurs de points K (en le devinant au hasard).
Quel sera l'effet sur la structure de la bande si je prends des valeurs très élevées de K-points ou une faible valeur de K-points ?

S'il vous plaît, clarifiez mes doutes. Te remercie!


Échantillonnage de points aléatoires uniformément répartis à l'intérieur d'un volume sphérique

Je cherche à pouvoir générer un échantillon uniforme aléatoire d'emplacements de particules qui se situent dans un volume sphérique.

L'image ci-dessous (avec l'aimable autorisation de http://nojhan.free.fr/metah/) montre ce que je recherche. Il s'agit d'une coupe à travers la sphère, montrant une répartition uniforme des points :

Voici ce que j'obtiens actuellement :

Vous pouvez voir qu'il y a un groupe de points au centre en raison de la conversion entre les coordonnées sphériques et cartésiennes.

Vous trouverez ci-dessous du code MATLAB censé créer un échantillon sphérique uniforme, similaire à l'équation donnée par http://nojhan.free.fr/metah. Je n'arrive tout simplement pas à le déchiffrer ou à comprendre ce qu'ils ont fait.

J'apprécierais grandement toute suggestion sur la génération d'un échantillon vraiment uniforme à partir d'un volume sphérique en Python.

Il semble y avoir beaucoup d'exemples montrant comment échantillonner à partir d'une coque sphérique uniforme, mais cela semble être un problème plus facile. Le problème est lié à la mise à l'échelle - il devrait y avoir moins de particules à un rayon de 0,1 qu'à un rayon de 1,0 pour générer un échantillon uniforme à partir du volume de la sphère.

Éditer: Correction et suppression du fait que je demandais normalement et que je voulais dire uniforme.


Méthodes

Nous avons effectué une revue de cadrage systématique dans Scopus en utilisant les termes : ("gridded" OU "landscan" OU "worldpop" OU "gpw" OU "ghs-pop" OU "hrsl" OU "wpe" OU "demobase") ET (" population” OU “ménage”) ET “enquête”. Aucune limite n'a été imposée à la recherche (par exemple, l'année ou le statut de publication). Les résumés des articles ont été examinés indépendamment par les co-auteurs DRT et DAR et conservés s'ils faisaient référence à un échantillonnage de populations humaines. Nous avons également sollicité des rapports, des sites Web et des articles de collègues. DRT a effectué un examen du texte intégral de tous les articles et rapports sélectionnés, et a retenu ceux qui décrivaient une méthode, un outil ou une enquête basée sur des données de population maillées. Les publications retenues ont été examinées pour les détails de l'enquête de population maillée, y compris la base de sondage, le plan d'échantillonnage, la taille de l'échantillon, la population cible, les outils et les protocoles utilisés. Cet examen a suivi les directives PRISMA-ScR (voir le dossier supplémentaire 1). Un programme de recherche stratégique sur les enquêtes démographiques maillées a été élaboré de manière itérative parmi les co-auteurs avec les commentaires des experts en enquêtes lors d'un atelier de 2 jours et par courrier électronique.


Échantillonnage systématique vs. Échantillonnage en grappe

L'échantillonnage systématique et l'échantillonnage en grappes diffèrent dans la façon dont ils tirent les points d'échantillonnage de la population incluse dans l'échantillon. L'échantillonnage en grappes divise la population en grappes, tandis que l'échantillonnage systématique utilise des intervalles fixes de la population plus large pour créer l'échantillon.

L'échantillonnage systématique sélectionne un point de départ aléatoire dans la population, puis un échantillon est prélevé à intervalles réguliers fixes de la population en fonction de sa taille. L'échantillonnage en grappes divise la population en grappes, puis prend un échantillon aléatoire simple de chaque grappe.

L'échantillonnage en grappes est considéré comme moins précis que les autres méthodes d'échantillonnage. Cependant, il peut économiser des coûts sur l'obtention d'un échantillon. L'échantillonnage en grappes est une procédure d'échantillonnage en deux étapes. Il peut être utilisé lorsqu'il est difficile de remplir une liste de l'ensemble de la population. Par exemple, il pourrait être difficile de construire l'ensemble de la population des clients d'une épicerie à interviewer.

Cependant, une personne peut créer un sous-ensemble aléatoire de magasins, ce qui est la première étape du processus. La deuxième étape consiste à interroger un échantillon aléatoire de clients de ces magasins. Il s'agit d'un processus manuel simple qui peut vous faire gagner du temps et de l'argent.


Développement d'une procédure d'échantillonnage aléatoire pour les emplacements de comptage de la circulation routière locale

Sarah T. Bowling*
JWA/HMB Indiana, LLC
Lisa Aultman-Hall*
Université du Connecticut

ABSTRAIT

Les programmes de comptage du trafic traditionnellement conçus pour la gestion du trafic nécessitent une certaine refonte afin de fournir des estimations précises des véhicules-miles parcourus par jour par classe de route pour la planification de la qualité de l'air. La prévision de la DVMT implique généralement le comptage du trafic à des points aléatoires le long des autoroutes, mais les routes locales/petites, malgré leur kilométrage important, ne sont pas systématiquement comptées.

Nous présentons une procédure pour déterminer des emplacements de comptage aléatoires sur des routes fonctionnellement locales. Nous avons utilisé une grille générée par un système d'information géographique (SIG) pour découper les routes en sections ponctuelles à partir desquelles nous avons tiré un échantillon aléatoire. Les avantages de cette procédure sont qu'elle surmonte les limitations de la base de données SIG sur les routes locales, utilise des fonctions SIG standard et génère une sortie qui peut être directement cartographiée pour les équipes de terrain. Couper les routes en différentes tailles et formes a introduit un certain biais au cours de ce processus. Une procédure de pondération basée sur 750 comptages routiers locaux dans le Kentucky a mesuré l'effet du biais (qui a été jugé minime et n'est donc pas nécessaire dans l'application). Notre expérience dans l'utilisation des procédures d'échantillonnage nous permet de recommander des tailles de grille qui tiennent compte des limites du temps de traitement informatique et de la taille des fichiers tout en limitant les biais et en garantissant un caractère aléatoire acceptable.

INTRODUCTION

Traditionnellement, les agences de transport effectuent des comptages de routine du volume de circulation sur les corridors routiers à plus grand volume. Cependant, les routes locales 1 sont également importantes et uniques, car elles représentent une quantité considérable de kilométrage total des routes. Par exemple, les routes locales représentent 67 % du kilométrage total des routes dans le Kentucky, la zone d'étude de ce projet (CKTC 1997). Étant donné que les comptages de trafic sont généralement effectués sur les routes locales uniquement pour des événements tels que des projets d'amélioration des routes et des développements spécifiques, les comptages ne sont pas aléatoires et ne peuvent donc pas fournir d'estimations précises du nombre total de déplacements sur cette catégorie de route.

En septembre 1998, le besoin d'estimations de l'ensemble des déplacements sur les routes locales a été renforcé par un mandat de l'Agence américaine de protection de l'environnement (EPA) exigeant que 22 États et le District de Columbia soumettent des plans de mise en œuvre d'État relatifs au transport de l'ozone à travers les frontières des États ( EPA 1998). Oxydes d'azote (NOX) forment de l'ozone, ou smog, qui peut nuire à l'environnement et à la santé humaine (p. ex. végétation endommagée, détérioration de la qualité de l'eau, pluies acides et maladies respiratoires et cardiaques). Sources de NOX les émissions comprennent les véhicules à moteur et les services publics d'électricité. L'EPA exige des agences d'État qu'elles fournissent les véhicules-miles parcourus par jour (DVMT) par classification d'utilisation des terres, type de route et type de véhicule afin d'estimer la quantité d'émissions de véhicules produites au niveau du comté.

Le DVMT est le plus souvent estimé à partir des comptages de trafic moyens sur 24 heures à des points le long des routes ou d'un sous-ensemble de routes. Pour obtenir le DVMT, le décompte du trafic est ajusté pour des facteurs quotidiens et saisonniers, puis multiplié par la longueur de la section de route. Par exemple, si 1 000 véhicules par jour parcourent une section de route de 2 milles, le DVMT est estimé à 2 000 véhicules-miles. De même, s'il y a un total de 100 miles d'une classe de route particulière dans un comté et que la moyenne d'un nombre de comptages aléatoires de la circulation est de 40 000 véhicules par jour, alors l'estimation DVMT à l'échelle du comté est de 4 millions de véhicules-miles pour cette classe de routes . Le DVMT estimé à partir des comptages de routes locales non aléatoires existants et du kilométrage total surestimerait le DVMT étant donné que les routes locales les plus fréquentées sont celles qui sont le plus souvent comptées.

Lorsque la qualité de l'air, par opposition à la gestion du trafic, est au centre des efforts de DVMT et de comptage du trafic, des emplacements aléatoires doivent être choisis. Une source courante de comptages aléatoires de la circulation est le Highway Performance Monitoring System (HPMS) établi en 1978 par la Federal Highway Administration (FHWA). Les données du HPMS fournissent des statistiques actuelles sur l'état, l'utilisation, les caractéristiques de fonctionnement et les performances des principales autoroutes du pays. Ces informations sur les déplacements sont régulièrement disponibles pour les principaux réseaux routiers, à l'échelle de l'État et au niveau national, et sont utiles pour l'estimation de la DVMT.

Au Kentucky et ailleurs, les données HPMS sont utilisées pour estimer le DVMT total pour l'ensemble des artères et des routes collectrices, même si l'échantillon n'est pas complètement aléatoire. Afin d'obtenir l'échantillon HPMS, chaque État a dû diviser les artères et les collecteurs en sections de route logiques. Les longueurs des sections rurales devaient aller de 3 à 10 milles tout en essayant d'assurer des sections de circulation homogènes. De même, les sections d'installations urbaines à accès contrôlé ne devaient pas dépasser cinq milles. Toutes les autres sections urbaines devaient être comprises entre un et trois milles. Un échantillon aléatoire 2 a ensuite été tiré de cet ensemble total de tronçons routiers, mais n'incluait pas le réseau routier national et les principales artères qui, en théorie, ont une couverture complète (USDOT 2000). Ce qui rendait l'échantillon non aléatoire, c'était les différentes longueurs de section et le fait qu'il n'y avait pas d'instructions pour sélectionner le point sur la section pour compter le trafic. Certaines agences peuvent avoir compté au point le plus achalandé ou au centre. Bien que certains États comptent les routes locales dans le cadre du HPMS, la plupart ne le font pas.

Il peut sembler facile de produire un échantillon spatialement aléatoire en divisant les routes locales en segments d'une longueur particulière (un dixième de mile est courant pour un certain nombre d'objectifs) et en sélectionnant un échantillon aléatoire à partir de cette base de données. Cependant, les bases de données des systèmes d'information géographique (SIG) des routes locales à partir desquelles les emplacements des échantillons seraient tirés sont moins développées que celles des routes plus importantes. Étant donné une section d'un dixième de mile, il serait nécessaire d'attribuer des points de départ, des points d'arrivée et des emplacements de points de mile à chaque segment de route dans la base de données afin de produire des cartes des emplacements de comptage pour les travailleurs sur le terrain. De plus, de nombreuses routes locales, en particulier dans les zones urbaines, sont plus courtes que la longueur du segment en lequel les routes sont normalement divisées. Cela rend la discrétisation des itinéraires compliquée. Les routes plus courtes que la longueur du segment seraient toujours un seul segment et auraient une plus grande chance par unité de longueur d'être sélectionnées. Si les routes plus courtes ou plus longues ont des volumes de trafic systématiquement plus élevés ou plus faibles, respectivement, cela biaiserait l'estimation DVMT si les routes plus courtes étaient plus susceptibles d'être sélectionnées.

Il serait utile d'avoir une méthode pour sélectionner des points aléatoires sur les routes directement ou graphiquement en utilisant des procédures aléatoires simples plutôt que de dépendre d'un échantillonnage pondéré ou proportionnel. Dans ce cas, la procédure spatiale est analogue à lancer une fléchette sur une carte les yeux bandés et à compter à l'emplacement de la route que la fléchette a touché. Passer du comptage du trafic sur des tronçons routiers à trafic homogène au comptage du trafic à des points aléatoires représente un changement fondamental de philosophie et est cohérent avec l'idée que le volume de trafic change d'un point à l'autre aux entrées et aux intersections. En raison de la diversité des utilisations du sol sur les routes locales, la non-homogénéité du trafic est particulièrement problématique.

L'objectif de cette étude est de développer une procédure d'échantillonnage aléatoire basée sur le SIG pour déterminer les emplacements de comptage en tant que points aléatoires sur des routes fonctionnellement locales. Au total, 750 dénombrements de routes locales sur 24 heures ont été effectués au cours de cette étude afin d'évaluer les propriétés de l'échantillon résultant de la procédure. Le grand échantillon nous a permis d'analyser les problèmes de biais résultant 1) de la nature maillée de la procédure, 2) de la longueur plus courte de certaines routes locales, et 3) des différentes directions ou courbes des routes individuelles. Dans l'application, des tailles d'échantillon beaucoup plus petites sont susceptibles d'être utilisées.

La section suivante décrit d'autres efforts pour estimer la DVMT sur les routes locales. Le reste de l'article décrit la procédure basée sur une grille SIG et l'évaluation du biais qu'elle crée. Les résultats de l'analyse du biais sont présentés avec une description d'une procédure pour corriger le biais d'échantillonnage. Cependant, le biais d'échantillonnage a été considéré comme suffisamment faible pour recommander l'utilisation de la procédure d'échantillonnage simple sans la procédure de correction du biais plus compliquée.

AUTRES EFFORTS D'ESTIMATION DE LA ROUTE LOCALE DVMT

Les programmes de plusieurs États estiment les déplacements globaux sur les routes locales à l'aide d'échantillons aléatoires. Par exemple, le Tennessee compte sur les routes locales pour des projets routiers spécifiques, des études de passage à niveau et des analyses d'intersection, bien que les emplacements de comptage ne soient généralement pas sélectionnés au hasard. Pour cette raison, le Tennessee Department of Transportation (TDOT) a cherché d'autres méthodes pour obtenir un échantillon aléatoire de lieux de comptage (Crouch et al. 2001). Leur étude a analysé un programme qui collecte des informations sur le comptage du trafic pour tous les ponts de l'État avec une longueur de travée de 24 pieds ou plus.

Crouch et al. (2001) ont proposé une méthode pour mesurer le caractère aléatoire de ces comptages de ponts pour l'estimation DVMT sur les routes locales rurales. Les comptages de trafic aux emplacements des ponts ont été comparés à un échantillon aléatoire de comptages de trafic aux emplacements sans pont sur les routes locales dans huit comtés. Les chercheurs ont développé la procédure utilisée pour collecter l'échantillon aléatoire pour les emplacements sans pont. Chacun des huit comtés a été divisé en grilles de quatre milles carrés (la largeur et la longueur étaient de deux milles), et un processus d'échantillonnage systématique répété a été utilisé.

Tout d'abord, les grilles à travers le comté ont été échantillonnées. Ensuite, dans chaque grille, l'emplacement du décompte réel a été choisi en sélectionnant au hasard les coordonnées x et y. Chaque cellule de la grille était constituée d'une matrice de 10 par 10. À partir des coordonnées sélectionnées au hasard, l'emplacement de la route locale la plus proche a été sélectionné, et à cet endroit, un comptage de la circulation a été collecté par TDOT. Il s'agit en effet d'une procédure aléatoire avec un biais possible : les routes plus courtes peuvent être moins susceptibles d'être les plus proches de la grille de 0,2 mile sur 0,2 mile sélectionnée. Lorsque vous travaillez avec un grand nombre de comtés, le processus peut être laborieux et prendre du temps. En utilisant les dénombrements aléatoires générés de cette manière, les chercheurs ont découvert que les dénombrements des ponts n'étaient pas un échantillon représentatif de toutes les routes locales rurales dans chaque comté.

Dans une étude californienne (Niemeier et al. 1999), les kilomètres-véhicules parcourus sur des routes en cul-de-sac non pavées ont été estimés à partir d'un échantillon aléatoire. Les comptages de trafic ont été collectés à des points d'accès routiers locaux non pavés aléatoires aux routes pavées. Étant donné que le comptage a été effectué aux points d'accès pour éviter les intrusions sur les routes privées, les chercheurs n'ont pas eu à traiter la question de la sélection du point le long d'une route et, ainsi, un échantillon aléatoire de routes entières a été prélevé. Les emplacements de comptage ont été cartographiés à l'aide d'un SIG afin que les sites puissent être facilement trouvés. Le décompte a fourni une estimation du nombre de déplacements générés sur la route non pavée, qui a été converti en DVMT en supposant qu'il y avait une seule destination sur la route et que chaque véhicule entrant ou sortant de la route parcourait la moitié de la longueur du segment. Cependant, l'hypothèse selon laquelle le véhicule se déplace vers ou depuis le milieu de la route peut entraîner une estimation incorrecte du DVMT. Par exemple, les routes locales en impasse et non pavées pourraient avoir un point d'origine/destination à la fin de la route. Cette méthode est aléatoire, mais elle ne convient que pour les routes locales qui se terminent en impasse et ont très peu de points d'origine/destination.

Dans le cadre de cette étude de recherche, une enquête par courrier électronique auprès de 45 États a été menée à l'aide des noms de contact fournis par le bureau de division de la FHWA. Les 29 réponses indiquaient diverses méthodes pour obtenir des comptages locaux de volumes routiers et des emplacements d'échantillons. Dans l'Oregon, les emplacements sont choisis parmi un groupe sélectionné de routes locales qui, selon un programme informatique, sont sous-échantillonnées. Les dénombrements les plus récents des routes locales qui sont fréquemment échantillonnées sont ensuite ajoutés aux dénombrements des routes échantillonnées. L'échantillon total peut être non aléatoire car les routes locales fréquemment échantillonnées sont généralement sélectionnées en fonction de l'emplacement des projets d'amélioration des routes, des développements construits ou des problèmes de circulation. Ce sont historiquement les zones les plus fréquentées. L'échantillon aléatoire des segments de route sous-échantillonnés est construit en agrégeant l'ensemble de données complet comme s'il s'agissait d'une route continue. Microsoft Excel sélectionne ensuite au hasard un point kilométrique le long des segments de route, et chaque sélection devient un emplacement pour un décompte du trafic. Les segments de l'échantillon urbain ont une longueur de 0,1 mile, tandis que les segments de l'échantillon rural font 1 mile. Le comptage est effectué au centre du segment.

D'autres États ont fourni des informations moins détaillées dans l'enquête par courrier électronique. Le Vermont, par exemple, sélectionne les routes locales les plus « importantes » pour les décomptes. Ceci, bien sûr, n'est pas aléatoire. La Virginie-Occidentale n'échantillonne pas les routes dont le trafic quotidien moyen est inférieur à 50 véhicules par jour. Cette méthode non aléatoire entraînerait certainement un gonflage du DVMT si la longueur totale de la route était utilisée pour l'estimation. Dans le Wisconsin, les routes locales sont comptées pour des raisons particulières, telles qu'un problème de circulation ou un nouveau développement. Encore une fois, il ne s'agit pas d'un échantillon aléatoire et, par conséquent, l'estimation du DVMT aux fins de l'EPA pourrait être incorrecte. Le Wisconsin a proposé de développer un échantillon aléatoire d'emplacements sur les routes locales, mais les coûts étaient prohibitifs.

Jusqu'à récemment, les estimations du DVMT étaient principalement utilisées pour déterminer si une route avait besoin d'améliorations ou d'expansion. Maintenant que l'EPA exige que le DVMT prédise les émissions totales des véhicules pour chaque comté, des estimations précises sont beaucoup plus importantes. Les méthodes d'échantillonnage non aléatoire autrefois suffisantes utilisées par de nombreux États ne sont plus adéquates. De toute évidence, il existe un besoin pour une procédure d'échantillonnage aléatoire qui ne demande pas beaucoup de travail afin de compter les emplacements à utiliser pour estimer le DVMT sur toutes les routes fonctionnellement locales.

MÉTHODOLOGIE D'ÉCHANTILLONNAGE BASÉE SUR UNE GRILLE SIG

Les défis de trouver une méthodologie

Les informations sur l'emplacement et le tracé des routes dans la plupart des juridictions sont généralement stockées dans des bases de données SIG, et l'échantillonnage à partir de ces bases de données est souhaitable. De plus, étant donné que les cartes sont utiles pour diriger les travailleurs sur le terrain vers les emplacements de comptage, il est logique de procéder avec une méthode basée sur le SIG. Les routes stockées dans un SIG sont généralement divisées en segments (et, par conséquent, en entités SIG individuelles) à toutes les intersections et à de nombreux autres points, dont certains ne sont pas systématiques.

Dans les bases de données routières des trois comtés du Kentucky de cette étude, les segments de routes locales variaient en longueur de quelques pieds à 10 milles. ArcView, un SIG basé sur Windows produit par l'Environmental Systems Research Institute (ESRI), possède une fonction intégrée qui peut sélectionner un ensemble aléatoire de telles caractéristiques ou, dans ce cas, des segments. Cependant, un échantillon aléatoire tiré de cette forme de base de données routières ne serait pas approprié pour plusieurs raisons. Premièrement, l'emplacement exact sur la route doit être choisi et plus d'un emplacement sur le même segment de route doit avoir la possibilité d'être choisi. Le raisonnement pour cela est basé sur la variation non uniforme du volume de trafic le long d'un segment de route, en particulier pour les routes locales plus longues où différentes routes d'intersection et utilisations des terres affectent les niveaux de trafic. Une autre raison pour laquelle l'échantillon n'a pas pu être tiré de cette base de données est que les segments courts et longs auraient été pondérés de manière égale. Si l'échantillon était tiré du thème de ligne SIG existant, l'emplacement précis sur le segment sélectionné devrait alors être choisi par la suite, et ainsi un point individuel sur un segment court aurait plus de chances d'être sélectionné qu'un point sur un segment plus long. segment. Par conséquent, une pondération égale n'est pas souhaitable.

Il existe d'autres raisons pour lesquelles la pondération n'est pas une bonne méthode dans notre processus. Premièrement, il ajoute deux étapes supplémentaires à la procédure d'échantillonnage, qui se veut simple. La longueur de chaque section devrait être déterminée pour être utilisée comme poids. Cela peut nécessiter une analyse spatiale SIG avec des bases de données SIG de moins bonne qualité. Une fois les segments sélectionnés, une autre procédure d'échantillonnage serait nécessaire pour choisir le point aléatoire le long du segment de route donné. Deuxièmement, l'échantillonnage aléatoire pondéré ne peut pas être entrepris avec des fonctions intégrées dans la plupart des programmes SIG nécessitant le transfert de données entre les programmes.

Comme indiqué dans l'introduction, une autre approche logique pour développer l'échantillon aléatoire consisterait à choisir un point kilométrique aléatoire ou une mesure de distance le long de ces routes, puis de le cartographier pour les personnes effectuant les dénombrements. Connaissant la longueur de chaque route locale dans un comté particulier, une ligne ou une rangée dans un tableur pourrait représenter chaque section d'un dixième de mile. La plupart des tableurs sont capables de prélever un échantillon aléatoire de l'ensemble. Cependant, une fois l'échantillon prélevé, il est difficile de diriger les personnes effectuant les comptages de trafic vers le lieu de comptage. Sur les routes locales, il n'y a généralement pas de bornes kilométriques pour indiquer l'emplacement, comme c'est le cas avec des routes plus importantes ou à plus grand volume. Les cartes des emplacements de comptage réalisées dans ArcView pourraient résoudre ce problème. Cependant, les limitations dans le codage des bases de données routières locales présentent une difficulté supplémentaire pour cette cartographie.

Cartographier un point spécifique sur une route est très facile avec les bases de données routières SIG avec une fonctionnalité appelée "segmentation dynamique". En utilisant la segmentation dynamique, chaque segment de route a deux attributs "spéciaux". L'un indique le repère de référence linéaire de début au début du segment et le second indique la référence de fin. Le SIG peut alors localiser n'importe quel point kilométrique sur le segment de route sur la base de ces informations. Cela permet au système de référence de points-milles de s'étendre sur des segments adjacents. Par exemple, le système pourrait traverser une intersection. Cependant, les bases de données SIG disponibles pour les routes locales contiennent rarement une segmentation dynamique. Par conséquent, l'utilisation d'une procédure d'échantillonnage qui nécessitait des points de départ et d'arrivée pour permettre la cartographie deviendrait très laborieuse.

Au lieu de créer des attributs de segmentation dynamique dans la base de données, chaque segment de route individuel (par opposition à la route entière) pourrait être codé automatiquement avec un point de départ de zéro et un point de fin de sa longueur. Cependant, l'utilisation de démarcations discrètes de points kilométriques, comme un dixième dans la liste des feuilles de calcul, et l'échantillonnage aléatoire présentent un autre problème pour les routes locales très courtes, en particulier dans les zones urbaines. La sélection d'un nombre continu aléatoire entre zéro et la longueur de chaque segment serait nécessaire dans un processus en deux étapes comme celui utilisé au Tennessee. Dans la première étape, un échantillon aléatoire pondéré avec remise, avec une probabilité proportionnelle à la longueur du segment de route, serait pris. Dans la deuxième étape, un ou plusieurs points le long du segment seraient sélectionnés par génération de nombres aléatoires. Cette procédure nécessiterait une programmation distincte en dehors du SIG, et les résultats nécessiteraient un transfert ultérieur dans le SIG pour la cartographie, car les points kilométriques ne sont pas significatifs segment par segment ou sur les routes locales sans marqueurs de points milliaires sur le terrain.

La nouvelle méthodologie proposée ici est également en deux étapes, mais utilise des fonctions intégrées standard du SIG typique : génération de grille, intersection de bases de données et échantillonnage aléatoire à partir d'une table d'entités. Le produit est déjà une caractéristique de ligne dans la base de données et est immédiatement mappé. Dans la première étape, une grille SIG est générée et utilisée pour découper des segments de route en sections. Au fur et à mesure que la taille de la grille diminue, les sections deviennent plus ponctuelles, permettant un nouveau thème à partir duquel l'échantillon aléatoire peut être tiré à l'aide de la commande d'échantillon aléatoire intégrée directe. Cela évite l'utilisation de toute pondération ou rééchantillonnage. La procédure garantit que les emplacements de l'échantillon sont répartis de manière aléatoire dans toute la zone d'étude et que chaque section ponctuelle le long de toutes les routes a une chance égale d'être dans l'échantillon quelle que soit la longueur totale de la route.

Création de sections ponctuelles pour trois zones d'étude

Dans ce cas, le principal SIG utilisé était ArcView. Nous avons développé une procédure qui coupe les routes en petites sections à l'aide d'une grille. Ainsi, la forme et la densité des routes locales ont été considérées comme potentiellement influentes et ont affecté la sélection des zones d'étude. Comme il n'était pas possible d'inclure les 120 comtés du Kentucky, nous avons choisi trois comtés pour cette étude : Henderson, Pike et Fayette. Au total, le Kentucky Transportation Cabinet a accepté de compter jusqu'à 750 emplacements dans ces 3 comtés pour l'analyse de la stratégie d'échantillonnage. Les comptages ont été effectués par un entrepreneur de l'État à l'aide d'enregistreurs automatiques de données Peek (ADR-1000) « à tube » entre l'automne 1999 et le printemps 2000. Les comptages ont été effectués pendant 24 à 48 heures et ajustés pour la saison et le jour de la semaine en utilisant des facteurs développés avec dénombrements historiques par le Cabinet des transports du Kentucky. Aucun comptage d'essieux ou ajustement pour les véhicules lourds n'a été effectué. Ce grand nombre de dénombrements ne devait pas être routinier, mais a été entrepris pour résoudre le problème de la variabilité des volumes routiers locaux afin de concevoir de futurs programmes de dénombrement.

Les trois comtés pour la procédure d'échantillonnage choisie sont très différents les uns des autres. Comté de Henderson (440 milles carrés ou 1 140 km 2 ) se trouve dans la partie ouest de l'État où la topographie de la plaine plate donne des routes en forme de grille (total de 601 milles ou 968 km de route locale). Il comprend la petite ville d'Henderson, qui compte environ 27 000 habitants. Comté de Pike (788 milles carrés ou 2 041 km2) se trouve dans la partie orientale et montagneuse de l'État, possède des routes sinueuses et sinueuses et est considéré comme un comté relativement rural (total de 829 milles ou 1 335 km de routes locales). Comté de Fayette (284 miles carrés ou 736 km2), avec une population d'environ 250 000 habitants, représente un comté urbain avec un réseau routier dense (total de 734 milles ou 1 182 km de routes locales). Les thèmes SIG distincts pour les routes locales entretenues par l'État, le comté et la ville ont été combinés pour les trois comtés d'essai afin d'obtenir trois bases de données SIG routières locales. Toutes les bases de données routières locales SIG ont été développées et maintenues par le Kentucky Transportation Cabinet.

Malheureusement, ArcView n'a pas la capacité de créer une grille (un ensemble de carrés de polygones adjacents couvrant une certaine zone ou étendue), donc les grilles ont été créées dans ArcInfo (un SIG ESRI compatible) en spécifiant l'étendue de la zone et la taille de la grille . Ces grilles peuvent être utilisées directement dans ArcView. En utilisant la fonction d'intersection dans ArcView, une grille "à l'emporte-pièce" montre, par exemple, dans le carré désigné dans la figure 1, que les routes du carré sont maintenant en quatre morceaux ou entités distincts. Chaque petite entité distincte de la base de données en sortie a un enregistrement dans la table attributaire à partir de laquelle le script d'échantillonnage d'ArcView tire l'échantillon aléatoire. Notez que les segments de route ponctuels aléatoires sont sélectionnés, pas les carrés. Par conséquent, il n'est pas nécessaire de sélectionner le segment de route dans une cellule sélectionnée donnée comme cela a été fait dans certaines procédures antérieures.

Un obstacle de l'approche par grille est qu'un certain biais peut être introduit en raison du fait que les segments ponctuels ne sont pas de longueur égale, comme illustré dans la figure 1. La grille utilisée pour couper les routes en petites sections était orthogonale, donc les routes étaient couper à des angles différents. En conséquence, certaines sections étaient considérablement plus longues que d'autres. Si vous avez deux routes de longueur égale, l'une coupée en plusieurs morceaux courts et l'autre coupée en quelques morceaux longs, alors la route coupée en plusieurs morceaux courts aura plus de chance d'être sélectionnée dans l'échantillon aléatoire. Étant donné que le volume de trafic routier local s'est avéré être en corrélation avec la longueur du segment de route d'origine ainsi qu'avec les différences entre les zones rurales et urbaines, afin d'éviter les biais, le nombre de segments en lesquels une route particulière a été divisée devrait être directement proportionnel à la longueur de cette route. Cela signifie qu'une route avec deux fois la longueur d'une autre route doit être divisée en deux fois le nombre de sections.

Notre objectif est alors de déterminer la taille du plus grand carré de la grille qui apporte un biais suffisamment faible à l'échantillon. Lorsque la taille de la grille s'approche de zéro, les sections ponctuelles s'approchent de vrais points de longueur nulle, qui ne présentent absolument aucun biais. Plus la taille du carré de la grille est petite, plus l'espace informatique et le temps sont nécessaires pour l'analyse spatiale qui coupe les segments de route. Les trois comtés ont été analysés avec des carrés de grille de 0,2 mile, 0,15 mile, 0,1 mile et 0,05 mile. Bien que les problèmes d'espace aient dû être pris en compte (la grille d'un comté à la taille de 0,05 mile était de 148 Mo) lors du choix de la taille finale du carré de la grille, le temps de calcul et la capacité d'un ordinateur personnel à faire l'intersection (couper) sans se bloquer étaient certainement des problèmes critiques.

PRISE EN CHARGE DES BIAIS DANS LES SECTIONS POINTES

In order to compare grid sizes and determine if the straightforward sampling procedure could be used without a more complicated weighting procedure to correct for the bias, it was necessary to develop a method to measure the bias that would be present in an average traffic count from a sample drawn using this process. Once the road segments were cut by the grid, the length of the original road section and the number of point-like segments into which it was divided were available for use in measuring bias. Figure 2 illustrates these data for one 0.2 mile grid in Pike County (lines and equations on this figure are described below).

The first of several indicators of bias considered was the coefficient on the X 2 variable in the equation for the best-fit quadratic curve. This curve is not represented on the figure but has the form

oui = a + bx + cx 2

un B et c are parameter coefficients,

X is the original road segment length,

oui is the number of segments into which the road is cut.

The value of the coefficient on the X 2 variable is an indication of the curvature of the line, and increasing values of the coefficient would indicate bias. A negative value would indicate that the line curved downward, specifying that the longer roads were being cut into relatively fewer pieces and were therefore underrepresented in the sample. A positive value would denote the opposite: longer roads were overrepresented in the sample. The magnitude of the coefficient for the X 2 term also provides an indication of whether it is appropriate to proceed using a linear regression-based representation of the relationship between road length and number of point-like segments.

A bias analysis graph and equation such as that in figure 2 was generated for each county and grid size analyzed. The coefficients on the X 2 variable in the equation for the best-fit quadratic line as generated by Microsoft Excel are shown in table 1. Within an individual county, the value of the coefficient varies. This alone is not insightful it is the comparison between counties that provides useful information. The magnitude of the coefficient is substantially greater for Fayette County than it is for Henderson and Pike Counties, showing that the grid process works better for rural roads than for urban roads because they are longer and less dense. We considered the low magnitude of these coefficients to be the justification to proceed with representing the relationship with a linear equation.

However, it is important to note that bias could still exist even in a linear relationship (X 2 coefficient = zero). Therefore, we undertook further consideration of the linear regression equation. One factor considered in measuring this bias was the oui-intercept of the best-fit line. On one hand, this value would ideally seem to be zero, because a road of zero length should be divided into zero sections. However, a oui-intercept of one would indicate that a road of very small length was divided into one section, meaning that very short roads will be automatically overrepresented in the sample. As evident in figure 2, some very short roads were divided into up to three or four segments. Table 1 shows that the oui-intercept value did not vary significantly as the grid size changed. For all counties and grid sizes, the oui-intercept hovered just above one, which is expected because very short segments would most often be cut into one piece or, at most, two pieces. This result illustrates that some bias will be present with all grid sizes given that short segments are overrepresented.

The line indicating no sampling bias due to road length would be expected to have a certain slope, referred to here as the "target slope." The target slope is obtained by dividing the total number of segments in a county by the total length of local roadway in that county. For example, if there are 5 million distance units of local road in a particular county, and a specific grid size cuts these roads into 7,000 segments, the segments should be on average 714.29 distance units (i.e., 5 million distance units/7,000 segments) long. The target slope is the inverse of this number (divided by 1,000 for the graph scale shown), and the line on figure 2 was derived by using this slope with a oui -intercept of 1.

Comparison of the target slope to the actual slope first required consideration of the R 2 value. The R 2 values shown in table 1 indicate that both the sampling procedure and the weighting procedure described below, which is based on the linear slope, are better suited to non-urban areas. The variation in the number of segments decreases with the smaller grid square sizes, as expected. However, the relatively high overall R 2 values indicate that the best-fit line does indeed represent the data well, adding legitimacy to the comparison of the actual and target slopes described below.

Table 2 includes the target slope, the actual slope of the best-fit line, and the percentage difference between its slope and the target slope. The range included with the slope is the 95% confidence interval. The confidence interval was inspected for the inclusion of the target slope. None of the target slopes were included in the 95% confidence interval, indicating bias was present.

In each county the percent error between the target slope and the actual slope decreased as the grid square size approached zero, as expected. The target slopes are greater than the actual slopes, indicating that as road length increases the road becomes underrepresented in the sample. Fayette County had percent errors greater than that for the other two counties, again indicating that less dense roads are better suited to the grid process. Henderson County's grid-like roads had smaller errors than Pike County where roads are curvier. Therefore, it can be inferred that the grid procedure works best for grid-like roads and rural roads. The grid size is more crucial in urban areas.

In order to consider the impact of the bias due to road length and the grid procedure, weights were developed based on slope comparison these weights were then applied to the traffic counts for these three counties. Counts were performed during calendar year 2000 at points selected using the 0.2 mile grid procedure (a worst-case scenario). The number of 24-hour counts performed in Henderson, Pike, and Fayette counties were 164, 243, and 337, respectively. These totals were designed so that the number of counts in each county were proportional to the length of local roads but also ensured a minimum number of rural and urban counts in each county (this constraint was imposed by the Transportation Cabinet). Counts were corrected for seasonal and weekly factors using constants developed in Kentucky based on counts on all functionally classed roads over many years.

The best-fit line and the target line were known for each county for the 0.2 mile grid size. In other words, for a road of a particular length, the number of segments into which it was divided and the number of segments into which it should have been divided were known. The weight was calculated as the ratio of the number of segments into which the road of a given length should have been divided if no bias by road length existed and the actual average number of segments into which the road was divided. This weight varied by road length as illustrated in figure 3 for Pike County for all grid sizes. We calculated a weighted average for the 24-hour traffic count, or average daily traffic (ADT) using the weights for the 0.2 mile grid size.

Table 3 presents the sampled and weighted ADT and the subsequent sampled and weighted DVMT estimate for local roads in each county based on the 0.2 mile grid process. The table demonstrates that without the weighted ADT, the DVMT estimate for each county would be slightly overestimated, with the greatest difference in Fayette County. This is further evidence that the weighting procedure is important for urban areas but is also a function of the greater number of shorter roads in those areas. However, the percentage difference due to the sampling bias is small and deemed acceptably low for modeling purposes for either the planning or air quality considerations described at the beginning of this paper. Based on the slope comparison the bias would be even less with the smaller grid sizes. It would not be useful to undertake the multistage weighting procedure calculations.

CONCLUSIONS

In summary, we developed and validated a straightforward sampling procedure that will allow random sampling of traffic count locations on extensive local road systems. Because built-in GIS commands can be used, sampling does not require time-intensive processes and the results can be directly mapped for field use. The procedure offers a means to determine not only a random road but also the point along the road where counting should occur. Furthermore, the procedure can handle very short local roads without greatly biasing the sample.

The analysis presented here provides guidance for determining a recommended grid size for use in sampling that takes into account computer capabilities in terms of file size and processing time while ensuring acceptable randomness of sampling. Attempts to use grid sizes below 0.05 miles were not successful in ArcView for the study areas used. Although individuals should select a grid square size based on their computer processing capabilities and the characteristics of the roads in their study, these results indicated that a larger grid size can be used for rural roads and grid-like roads. The grid square size needs to be smaller for urban counties due to the dense, short roads. Because it is very difficult to work with the 0.05 mile grid square size, the 0.1 mile size is recommended for urban counties. The recommendation for rural counties is to use the smallest grid square size feasible, but a 0.2 mile size would be sufficient, especially if roads are in a grid-like pattern.

Although not directly related to the main topic of this paper, several observations can be made regarding traffic counts on local roads and the estimation of accurate countywide DVMT. The state of Kentucky undertook a significant number of 24- to 48-hour local road traffic counts for this project, which is a very unusual and expensive undertaking, particularly for local roads. A total of 3,800 counts were obtained (including the 750 used in this sample procedure research). The counts had extraordinarily high standard deviations (386 for 2,702 counts in rural areas and 1,323 for 1,099 counts in urban areas), suggesting that sample sizes beyond those realistically possible would be necessary to obtain average counts with reasonable confidence intervals. Further disaggregation of roads beyond simple use of the functional classification system will be necessary before any reasonable traffic data-collection plan can be undertaken by states for EPA travel estimations. For this reason, we recommend that the next stage of research be to apply the sampling procedure to higher functional class roads where it might decrease the total number of counts required. If tests were conducted on the National Highway System where the HPMS provides near universal coverage, valuable sample size recommendations might be possible.

REMERCIEMENTS

The authors would like to thank the Kentucky Transportation Cabinet for funding this research as well as members of the University of Kentucky Transportation Center and Wilbur Smith Associates for their contributions.

REFERENCES

Commonwealth of Kentucky Transportation Cabinet (CKTC), Division of Transportation Planning. 1997. Traffic Characteristics of Kentucky Highways. Frankfort, KY.

Crouch, J.A., W.L. Seaver, and A. Chatterjee. 2001. Estimation of Traffic Volumes on Rural Local Roads in Tennessee, presented at the Transportation Research Board 80e Annual Meeting, Washington, DC.

Niemeier, D., J. Morey, J. Franklin, T. Limanond, and K. Lakshminarayanan. 1999. An Exploratory Study: A New Methodology for Estimating Unpaved Road Miles and Vehicle Activity on Unpaved Roads, RR-99-2. Davis, CA: Institute of Transportation Studies.

U.S. Department of Transportation (USDOT), Federal Highway Administration. 2000. Highway Performance Monitoring System Field Manual, Chapter 7: Sample Selection and Maintenance. Available at http://www.fhwa.dot.gov/ohim/hpmsmanl/hpms.htm, as of May 28, 2003.

U.S. Environmental Protection Agency (USEPA), Office of Air Quality Planning and Standards. 1998. The Regional Transport of Ozone: New EPA Rulemaking on Nitrogen Oxide Emissions. Research Triangle Park, NC.

Address for Correspondence and End Notes

Authors' addresses: Sarah T. Bowling, JWA/HMB Indiana, LLC, 624 W. Main St., Suite 300, Louisville, KY 40202.

Corresponding author: Lisa Aultman-Hall, Associate Professor, Department of Civil and Environmental Engineering, University of Connecticut, Unit 2037 261 Glenbrook Road, Storrs, CT 06269-2037. Email: [email protected]

KEYWORDS: geographic information systems, sampling, traffic counting, vehicle-miles traveled.

1. In this paper, local roads are all public roads in the state of Kentucky classified as "functionally local" by the Kentucky Transportation Cabinet. These roads may be paved or unpaved but nearly all in this study area are paved. All local roads, regardless of the responsible jurisdiction, were included in this study (i.e., city- and county-maintained roads are included).

2. Unless otherwise noted, "random sample" refers to a simple random sample as opposed to any sampling technique involving weights or resampling.


4 RESULTS

Here, we present the model performances on the simulated data parameters (abundance, correlation, and percentage of points with hidden species labels). We explore the role of different parameters within the various mixture and loop methods in Appendix A. The individual PPM results will be used as a point of comparison with the other methods as the individual PPM method does not include any of the points with unknown labels. We choose to use Pearson's correlation coefficient when computing sumcor. We conclude the section by comparing maps and membership probabilities of the Mixophyes species.

4.1 Testing species distributions

In this section, we compare the results of varying abundance, the correlation between species distributions, and the percentage of hidden observations on the performance measures and membership weights for classification as presented in Section 3. We only present the best-performing methods in this section: knn mixture, LoopA, LoopT, LoopE, and the individual PPM and coinF method for reference.

4.1.1 Relabeling performance measures

In terms of relabeling, only LoopT consistently performs as well or better than the individual PPM method across all simulation designs and percentage of hidden observations, as shown in Figure 3. The mixture methods are more competitive than the LoopA and LoopE methods at 20% and 50% of hidden observations but still do not perform as well as the individual PPM or LoopT methods.

Comparing accuracy, all three Loop methods perform comparably to the individual PPM method. The knn and coinF methods are equally competitive at 20% of hidden observations but their performances get worse than the other methods for 50% and 80% percentages in Figure 4.

4.1.2 Predicted intensity performance measures

Now, we consider performance based on predicted intensity. The LoopT method performs as well or better than the individual PPM method according to sumIMSE as shown in Figure 5. The LoopA, LoopE, knn, and CoinF methods are mostly never competitive with the other methods at high percentage of hidden observations.

The relative performance is different when using sumcor as the performance measure as shown in Figure 6. It looks like LoopT is consistently best, and the individual PPM method and LoopE methods are broadly comparable for nonhighly correlated distributions. The knn and coinF methods perform almost equally to the individual PPM method when a relatively low percentage of observations have hidden labels and when distributions are highly correlated.

Comparisons of the estimated standard errors appear in Appendix A. Standard errors for the predicted intensities increase, as expected, when the number of observations used in the models decreases, as shown in Figures A5 and A6. This is evident from the higher standard errors for higher percentages of observations with hidden labels as well as for the individual PPM method, which does not add any points.

4.1.3 Final membership probabilities and classification

Figures 7-10-7-10 show the final membership probabilities of the locations with hidden species identity corresponding to each species. The higher the membership probability is to 1, the better the classification performance. It appears that the high correlation among the species distributions as in tests 3 and 4 results in lower classification performance. When there are differences in abundance (test 1 and test 3), the mixture methods seem to show superior performance for the most abundant species and worse performance for the least abundant species.

The boxplots display the estimated membership probabilities of the correct species for points with hidden labels in test 1. Each color boxplot represents a different species. Each row corresponds to the different percentage of hidden observations tested: 20%, 50%, and 80%. Test 1 is based on simulated point patterns with abundances of = 80, = 60, = 40 and correlations between the species distributions of = 0.09, = −0.42, = 0.20

The boxplots display the estimated membership probabilities of the correct species for points with hidden labels in test 2. Each color boxplot represents a different species. Each row corresponds to the different percentage of hidden observations tested: 20%, 50%, and 80%. Test 2 is based on simulated point patterns with abundances of = 60, = 60, = 60 and correlations between the species distributions of = 0.09, = −0.42, = 0.20

The boxplots display the estimated membership probabilities of the correct species for points with hidden labels in test 3. Each color boxplot represents a different species. Each row corresponds to the different percentage of hidden observations tested: 20%, 50%, and 80%. Test 3 is based on simulated point patterns with abundances of = 80, = 60, = 40 and correlations between the species distributions of = 0.85, = −0.09, = 0.20

The boxplots display the estimated membership probabilities of the correct species for points with hidden labels in test 4. Each color boxplot represents a different species. Each row corresponds to the different percentage of hidden observations tested: 20%, 50%, and 80%. Test 4 is based on simulated point patterns with abundances of = 60, = 60, = 60 and correlations between the species distributions of = 0.85, = −0.09, = 0.20

4.2 The Mixophyes case

4.2.1 Prediction of Myxophies' species distribution

In this section, we fit the best-performing method within each category (knn among the mixture methods and LoopT among the Loop methods) to analyze the distribution of the Mixophyes species and compare the predictions to the individual PPM approach in which no unlabeled observations are included in the model. The resulting fitted intensity maps are shown in Figure 11. Both the knn mixture method and the LoopT method add small areas of distribution for Mixophyes schevilli. The maps from the LoopT method show increased areas of relatively high intensity in the south for Mixophyes carbinensis et Mixophyes coggeri.

4.2.2 Classification of Myxophies observations

Differences in the predicted distributions are also shown by the classification of the locations with uncertain identities in Figure 12. While there is broad agreement in the south for the knn mixture method and the LoopT method, the LoopT method classifies more records as M. coggeri in the north and M. carbinensis in the central part, while the knn mixture method classifies more records as M. schevilli in the north and central parts. This may reflect the fact that the mixture methods tend to have high classification for the most abundant species, and M. schevilli had the highest number of verified records among the three species.

The colors of the question marks in Figure 12 are based on the final membership probabilities, with higher membership probabilities leading to bolder colors. This Figure indicates that the mixture knn method tends to result in lower membership probabilities than the LoopT method except for the most abundant species M. schevilli, which is also supported by Figure 13, in which the final membership probabilities for the LoopT method tend to be more variable, with the third quartile markedly higher for each species. The final membership probabilities appear more balanced for the LoopT method, whereas the knn mixture method tends to favor the most abundant species, M. schevilli.


5 réponses 5

This is a variant on Hank Ditton's suggestion that should be more efficient time- and memory-wise, especially if you're selecting relatively few points out of all possible points. The idea is that, whenever a new point is generated, everything within 200 units of it is added to a set of points to exclude, against which all freshly-generated points are checked.

I would overgenerate the points, target_N < input_N , and filter them using a KDTree. Par example:

Would give me points that are "close" to each other. From here it should be simple to apply any filter:

  • Use your algorithm but implement it with a kd-tree that would speed up nearest neighbours look-up
  • Build a regular grid over the [0, 2500]^2 square and 'shake' all points randomly with a bi-dimensional normal distribution centered on each intersection in the grid
  • Draw a larger number of random points then apply a k-means algorithm and only keep the centroids. They will be far away from one another and the algorithm, though iterative, could converge more quickly than your algorithm.

This has been answered, but it's very tangentially related to my work so I took a stab at it. I implemented the algorithm described in this note which I found linked from this blog post. Unfortunately it's not faster than the other proposed methods, but I'm sure there are optimizations to be made.

Per the link, the method from aganders3 is known as Poisson Disc Sampling. You might be able to find more efficient implementations that use a local grid search to find 'overlaps.' For example Poisson Disc Sampling. Because you are constraining the system, it cannot be completely random. The maximum packing for circles with uniform radii in a plane is

90% and is achieved when the circles are arranged in a perfect hexagonal array. As the number of points you request approaches the theoretical limit, the generated arrangement will become more hexagonal. In my experience, it is difficult to get above


Strings of k-points for bandstructure calculations

To facilitate the calculation of (DFT) band structure, there is a mode that generates strings of k-points connecting specific points in the Brillouin zone:

  • The first line is treated as a comment line.
  • On the second line you specify the number of points per line-segment
  • To generate strings of k-points connecting specific points of the Brillouin zone, the first non-blank character on the third line must be an L ou alors je (pour line-mode):
  • The coordinates of the k-points to be connected can be supplied in Cartesian coordinates (first non-blank character on the 4th line is either C, c, K, ou alors k) or in coordinates w.r.t. the reciprocal lattice vectors (the first non-blank character on the 4th line is any character other than the aforementioned).
  • The following lines have to specify the begin and end points of the line segments that are to be connected by strings of k-points.


The example above will generate 40 k-points between the first and the second supplied point, 40 k-points between the third and the fourth, and another 40 points between the final two points. In the case above the coordinates of the k-points are supplied in coordinates (w.r.t. the reciprocal lattice).

Alternatively one may specify these points in Cartesian coordinates:

The choice of points and their labels, in the example above, correspond to (several of) the high-symmetry points in the Brillouin zone of a face-centered cubic (fcc) lattice.

Here is another example, a KPOINTS file for hexagonal structures:


N.B.: As mentioned above, this particular mode of k-points generation is primiraly used for the calculation of DFT band structures. This is a two-step procedure: first you have to perform a fully selfconsistent calculation with a regular k-point grid (e.g. a Monkhorst-Pack grid), and in the second step one does the actual band structure calculation with the line-mode KPOINTS file. The second step is a non-selfconsistent calculation (set ICHARG=11) that needs to start from the self-consistent charge density (CHGCAR file) you have obtained in the first step. There are several examples of this in the tutorial on simple bulk systems.


Guidelines for Physically Collecting Representative Soil Samples

The collection of representative soil samples from the field is important to provide improved fertilizer and liming recommendations. Soils with different chemical and physical characteristics respond differently when fertilizer and pH adjusting products are applied. Other considerations include previous management of the field (or different sections of the field), size of the field, and crop to be grown. Collect eight to ten individual soil cores per grid sample, ten to fifteen soil cores per management zone, and fifteen to twenty soil cores for a traditional composite sample. 6 General guidelines on how to collect soil and prepare a soil sample for analysis can be found on The Clemson University Agricultural Service Laboratory website.


Cette page utilise le vrai hasard pour choisir un ensemble aléatoire de coordonnées pour un emplacement à la surface de la planète et l'afficher sur Google Maps.

Note that Google Maps uses the Mercator projection, which means that areas closer to the poles appear larger on the map than the actually are, and areas very close to the poles cannot be shown at all. le distortion factor tells you how many times bigger the area you're looking at appears compared to an area at the equator (where there is no distortion).

The coordinates are given in decimal format. If you prefer degrees, minutes and seconds, you can use the FCC's handy conversion tool.

Thanks to Randall M! Gee for code to make the random coordinates uniformly distributed on the surface of the planet!


Voir la vidéo: Secondaire 3 Québec:Méthode déchantillonnage, Aléatoire simple, systématique, grappes et stratifiée