Suite

Déterminer si deux figures géométriques sont approximativement égales à l'aide de PostGIS ?

Déterminer si deux figures géométriques sont approximativement égales à l'aide de PostGIS ?


Je voudrais savoir comment déterminer si deux figures géométriques (the_geom) sont approximativement égales.

Au fait, je travaille avec Python, PostgreSQL et Postgis

J'ai les géométries suivantes :

0101000020110F0000FE546AD2413E5EC16D56617C93C74FC1

0101000020110F00009D7E6384413E5EC10185DD7F93C74FC1

Quand je vois les deux figures sur la carte, la variation est imperceptible.

Une idée?


Vous voudrez peut-être essayer HausdorffDistance. Convient pour ce genre de question.

SELECT ST_HausdorffDistance('0110000020110F0000FE546AD2413E5EC16D56617C93C74FC1'::geometry, '0101000020110F00009D7E6384413E5EC10185DD7F93C74FC1'::geometry);

Détaillé ici :

http://postgis.net/docs/ST_HausdorffDistance.html

Et comme expliqué sur /wiki/Hausdorff_distance :

De manière informelle, deux ensembles sont proches à la distance de Hausdorff si chaque point de l'un ou l'autre ensemble est proche d'un point de l'autre ensemble. La distance de Hausdorff est la distance la plus longue que vous pouvez être obligé de parcourir par un adversaire qui choisit un point dans l'un des deux sets, d'où vous devez ensuite vous rendre à l'autre set. En d'autres termes, c'est la plus grande de toutes les distances d'un point d'un ensemble au point le plus proche de l'autre ensemble.


Intersection récursive PostGIS entre des polygones

J'essaie d'effectuer une intersection récursive entre tous les polygones d'une table spatiale et d'obtenir les (multi)polygones résultants et les informations sur chaque intersection pour chacun d'eux.

Une image (pas vraiment à l'échelle) pour l'expliquer :

Disons qu'il y a des carrés A, B, C dans un tableau. J'aimerais avoir les polygones A, B, C, A+B, A+C, B+C, A+B+C en sortie, et j'ai besoin de savoir que A+B est l'intersection de A et B et bientôt.

Jusqu'à présent, j'ai une requête qui effectue les intersections, mais elle ne "coupe" pas la partie intersectée des polygones d'origine. Par example:

Une image du résultat que j'obtiens maintenant pour les polygones A et A+C :

Voici un script de test, utilisant les carrés dans les images comme données. En regardant la colonne de zone, il est clair qu'il manque une ST_Difference récursive, je ne peux tout simplement pas comprendre comment. Toute idée est la bienvenue.

La fonction window n'est pas strictement nécessaire dans cet exemple particulier bien sûr, mais ce code est une version simplifiée de mon cas réel, qui fait quelques autres choses à côté.


Déterminer si deux figures géométriques sont approximativement égales à l'aide de PostGIS ? - Systèmes d'information géographique

Une opération importante en analyse spatiale consiste à combiner efficacement des données provenant de différentes sources. La confusion est le processus consistant à combiner « deux fichiers de cartes numériques pour produire un troisième fichier de cartes qui est meilleur que chacune des cartes sources des composants » (Ruiz et al., 2011). Les ensembles de données en fusion partagent généralement certaines caractéristiques communes représentant les mêmes objets en réalité, qui doivent être appariés et fusionnés.

La confusion est importante dans les analyses spatiales car différentes agences et fournisseurs, chacun avec un rôle et une portée différents, produisent souvent des données spatiales pour le même type d'objets. Un problème de fusion typique est la fusion des réseaux de transport. En raison de l'importance des routes en tant que corridors de déplacement et système de référence commun, de nombreuses agences et organisations fournissent des données sur les réseaux de transport. Les agences publiques (telles que US Census et USGS) maintiennent des bases de données routières bien connues telles que TIGER/Line. Les fournisseurs privés (tels que TeleAtlas et Navteq) produisent des ensembles de données réseau de haute qualité à des fins de navigation. Les progrès de la technologie des capteurs et le mouvement des données ouvertes ont rendu de plus en plus de données de réseau routier (parmi d'autres types de données) disponibles au public sous forme d'information géographique volontaire (VGI) (Goodchild, 2007). Un planificateur des transports doit souvent combiner toutes sortes d'informations sur les infrastructures de transport et les caractéristiques socio-économiques de la population à partir de ces sources de données dans leurs analyses.

Tout comme la numérisation et d'autres processus de préparation des données, la fusion peut être une procédure laborieuse. En raison du volume et de la complexité des caractéristiques des ensembles de données, la fusion peut être coûteuse et longue. Par comparaison, les méthodes de fusion automatisées essaient de faire correspondre les caractéristiques correspondantes et de les fusionner automatiquement. Les méthodes de fusion systématique vont de simples utilisant des opérations SIG standard telles que l'analyse de tampon et de superposition à des méthodes plus complexes qui mesurent la similitude entre des paires d'entités et correspondent à des entités à la lumière du contexte spatial et des relations. Cependant, l'appariement et la fusion entièrement automatisés des caractéristiques sont encore difficiles à l'heure actuelle. Par exemple, les opérations SIG de base telles que l'analyse de tampon et de superposition ne fonctionnent pas bien avec la présence de déplacement spatial d'entités communes dans les données hétérogènes. La figure 1 (Lei & Lei, 2019) montre un exemple de déplacement spatial à l'aide de différents ensembles de données routières couvrant Santa Barbara, Californie (de Open Street Map, TIGER/Line et TeleAtlas, respectivement).

Figure 1. Déplacement spatial entre différents ensembles de données routières (Santa Barbara, CA).

Outre la fusion manuelle, les méthodes de fusion informatisées utilisent généralement certaines relations entre les caractéristiques candidates de deux ensembles de données pour trouver des correspondances potentielles. Une caractérisation importante de la relation de correspondance entre les caractéristiques est la « cardinalité » des relations entre les entités de la théorie des bases de données relationnelles. La cardinalité de la relation est le nombre de fois où des entités d'un ensemble de données peuvent être liées aux entités de l'autre ensemble de données. Il existe trois cas de cardinalité des relations. Le premier cas (et le plus simple) est la relation d'appariement biunivoque de la figure 2a. Cette cardinalité représente les cas dans lesquels deux caractéristiques correspondantes correspondent au même objet en réalité.

Figure 2. Cardinalité de correspondance pour l'ensemble de données 1 (vert) et l'ensemble de données 2 (rouge).

Le deuxième cas est la relation d'appariement un-à-plusieurs (1:m). Ce cas indique le fait qu'un groupe d'entités dans un jeu de données, lorsqu'il est combiné, représente le même objet qu'une entité dans l'autre jeu de données. Cela peut arriver, par exemple, lorsqu'un ensemble de segments de route plus courts correspond à une route qui est représentée par une seule ligne dans l'autre jeu de données (Figure 2b) ou lorsqu'une route est représentée comme une ligne dans un jeu de données mais deux lignes parallèles (par les deux sens de la route) dans l'autre. Le troisième cas de cardinalité est la correspondance plusieurs-à-plusieurs. Cela inclut les relations bidirectionnelles un-à-plusieurs dans lesquelles une correspondance un-à-plusieurs existe à la fois du jeu de données 1 au jeu de données 2 et, dans la direction opposée, du jeu de données 2 au jeu de données 1. De plus, le système plusieurs-à-plusieurs Le cas comprend également des appariements plus compliqués (Figure 2d) dans lesquels aucune entité ne correspond individuellement à un groupe d'entités dans l'autre jeu de données. Les entités des deux jeux de données ne peuvent représenter le même objet en réalité qu'après avoir respectivement regroupé des entités individuelles dans chaque jeu de données. Certains algorithmes de fusion ne peuvent gérer que les problèmes de fusion un-à-un les plus simples, tandis que d'autres peuvent gérer les problèmes plus complexes un-à-plusieurs et plusieurs-à-plusieurs.

Selon le type géométrique des jeux de données, différentes méthodes ont été développées pour faire correspondre des entités ponctuelles (par exemple, des gazettes et des points d'intérêt [7]), des lignes (par exemple des réseaux de transport [8]) et des polygones (par exemple, des empreintes de bâtiments, des parcelles, des secteurs de recensement [ 6]), respectivement.

Pour déterminer les relations entre les caractéristiques, les méthodes de fusion calculent généralement certaines métriques de similitude ou de dissemblance (distance) entre les caractéristiques potentiellement liées. Les métriques peuvent être basées sur la géométrie, les attributs (par exemple [7]) et les relations topologiques des entités impliquées. La similarité en géométrie est une métrique largement utilisée, qui compare les longueurs, les formes et les orientations de deux entités. Une méthode générale pour calculer la différence géométrique entre deux entités est la distance de Hausdorff. La figure 3 montre le calcul de la distance de Hausdorff. Pour les entités A et B, la distance de Hausdorff dirigée de A à B est définie comme :

où est la distance d'un point pA à l'ensemble de points B. La distance de Hausdorff dirigée est égale à la déviation maximale des points de l'entité A par rapport à l'entité B. Notez qu'en pratique, la distance approximative de Hausdorff est souvent calculée en utilisant uniquement les sommets de caractéristique A (au lieu de tous les points de A) pour gagner du temps de calcul (Figure 3b). Dans la figure 3, les distances de Hausdorff dirigées de A à B (figure 3b) et de B à A (figure 3c) sont de 40 et 57, respectivement. La distance de Hausdorff entre A et B est de 57, la plus grande des deux distances de Hausdorff dirigées. Si A coïncide avec B ou une partie de B, évidemment . La distance de Hausdorff est définie comme étant le maximum de et . Il n'est nul que lorsque les entités A et B sont égales en géométrie. D'autres métriques de distance pour mesurer les différences géométriques existent.

Figure 3. Distances de Hausdorff dirigées entre une paire d'entités de deux ensembles de données.

Les métriques basées sur les attributs comparent deux caractéristiques sur des attributs communs tels que les noms de rue. Cela peut être accompli, par exemple, en utilisant des distances de chaîne telles que la distance de Hamming ou la distance de Levenshtein. Les métriques topologiques comparent deux caractéristiques en fonction de propriétés telles que le nombre d'arêtes qui entrent dans un nœud.

Le processus de fusion se compose généralement de deux étapes principales : 1) la mise en correspondance des caractéristiques et 2) la fusion des caractéristiques. De plus, certaines procédures de fusion nécessitent une étape de prétraitement, par exemple pour ajuster l'emplacement des caractéristiques et une étape de post-traitement, par exemple. pour vérifier et rectifier les résultats des matchs générés par ordinateur (et réexécuter la fusion si nécessaire).

4.1. Correspondance des caractéristiques

Étant donné une métrique de distance (ou de dissemblance) entre les caractéristiques (section 3), une stratégie simple de fusion consiste à faire correspondre les caractéristiques les plus proches. Le k-Closest Pairs Queries (KCPQ) cherche à trouver k paires de caractéristiques dont les distances sont les plus petites [1]. Cependant, une telle stratégie peut être facilement perturbée par le déplacement spatial des caractéristiques. Dans les exemples de la figure 1 et de l'image de couverture, on peut voir que KCPQ peut faire correspondre correctement certaines caractéristiques correspondantes, tout en faisant correspondre de manière incorrecte d'autres caractéristiques lorsque ces caractéristiques sont proches les unes des autres mais ne représentent pas le même objet en réalité.

Une autre méthode de fusion couramment utilisée est basée sur l'analyse de tampon et l'analyse de superposition. Par exemple, la méthode du tampon simple [3] mesure la similarité de deux caractéristiques comme le pourcentage d'une caractéristique qui tombe dans le tampon de l'autre. Semblable au KCPQ basé sur la distance, les méthodes de tampon nécessitent que les données soient bien alignées avant la fusion.

La méthode bien connue du « revêtement en caoutchouc » a été conçue dans les années 1980 pour traiter les erreurs de localisation inégalement réparties. C'était l'une des premières méthodes de fusion systématique développées par le recensement américain [9, 11] pour fusionner les données de l'USGS. La méthode sélectionne un ensemble de points homologues comme « ancrages » pour lier deux ensembles de données, de telle sorte que chaque région triangulaire entre les points d'ancrage doit avoir un déplacement spatial similaire. La méthode de la feuille de caoutchouc applique ensuite une transformation affine dans chaque région pour supprimer le déplacement spatial afin qu'une méthode plus simple telle que la méthode tampon puisse être appliquée. La méthode des feuilles de caoutchouc a été étendue par les chercheurs et est encore utilisée dans de nombreux outils de fusion SIG de nos jours. En général, la méthode est semi-automatique qui peut encore nécessiter une intervention humaine importante dans le choix des points d'ancrage dans la zone.

4.2. Fusion de fonctionnalités

Une fois que la relation de correspondance entre les entités est correctement établie, les informations des entités correspondantes peuvent être fusionnées selon des règles prédéfinies. Cela inclut la fusion des informations d'attribut et de la géométrie. Si la relation de correspondance est un-à-un, on peut combiner les informations d'attribut en copiant les attributs d'une caractéristique dans sa caractéristique correspondante. Si la relation de correspondance est un-à-plusieurs ou plusieurs-à-plusieurs, un attribut doit être divisé et/ou combiné, puis transféré à l'entité correspondante. La règle de transfert dépend de la nature de l'attribut. Les attributs intensifs tels que la densité de population peuvent être transférés directement, tandis que les attributs extensifs tels que le dénombrement de la population doivent être divisés avant le transfert.

Il existe également différentes manières de fusionner des géométries. Si un jeu de données a une précision spatiale systématiquement plus élevée, on peut utiliser ses géométries et rejeter les géométries de l'autre jeu de données. Si deux jeux de données ont une précision similaire, on peut calculer une géométrie « moyenne » entre deux géométries d'une paire d'entités correspondantes. Après la correspondance des caractéristiques et la fusion des caractéristiques, il peut être nécessaire d'évaluer la précision et la qualité du produit fusionné en comparant avec un petit ensemble de résultats de fusion effectués par des experts humains (c'est-à-dire la vérité terrain).

La confusion est étroitement liée aux opérations de base de données telles que la jointure spatiale. Les deux impliquent la combinaison d'informations dans des ensembles de données d'entrée. Cependant, il existe des différences entre les deux processus. Tout d'abord, la jointure spatiale est une opération « locale » basée sur la sélection de paires individuelles d'entités satisfaisant une condition spatiale. Elle est souvent effectuée en deux étapes [4] : 1) une étape de filtrage dans laquelle les objets potentiellement liés sont sélectionnés sur la base d'indices et de rectangles englobants, et 2) une étape de raffinement qui vérifie les paires candidates à l'aide de la condition de jointure complète. Par comparaison, la fusion peut prendre en compte un contexte spatial plus vaste et plus complexe et peut prendre en compte des caractéristiques voisines, par ex. lors de l'utilisation de critères basés sur la topologie. Deuxièmement, la fusion peut impliquer la transformation et la fusion des géométries de l'entité en entrée, ce qui n'est généralement pas effectué lors d'une jointure spatiale.

La fusion de données géospatiales est également liée au concept de fusion de données. Dans un sens plus large, les deux termes sont parfois utilisés de manière interchangeable, mais la fusion de données est traditionnellement plus couramment observée en télédétection [10].

Ahmadi, E., & Nascimento, MA (2016). Requêtes sur les paires les plus proches K dans les réseaux routiers. 17e conférence internationale IEEE sur la gestion des données mobiles (MDM). DOI : 10.1109/MDM.2016.44

Goodchild, M. F. (2007). Les citoyens comme capteurs : le monde de la géographie volontaire. GéoJournal, 69(4), 211-221. DOI : 10.1007/s10708-007-9111-y

Goodchild, M.F., & Hunter, G.J. (1997). Une mesure de précision de position simple pour les entités linéaires. Revue internationale des sciences de l'information géographique, 11(3), 299-306. DOI : 10.1080/136588197242419

Jacox, E. H., & Samet, H. (2007). Techniques de jointure spatiale. Transactions ACM sur les systèmes de base de données (TODS), 32(1), 7. DOI : 10.1145/1206049.1206056

Lei, T.L., & Lei, Z. (2019). Correspondance optimale des données spatiales pour la fusion : une approche basée sur les flux de réseau. Transactions dans le SIG. Dans la presse.

Masuyama, A. (2006). Méthodes de détection des différences apparentes entre les tesselations spatiales à différents moments. Revue internationale des sciences de l'information géographique, 20(6), 633-648. DOI : 10.1080/13658810600661300

McKenzie, G., Janowicz, K., & Adams, B. (2014). Une méthode pondérée à plusieurs attributs pour faire correspondre les points d'intérêt générés par l'utilisateur. Cartographie et sciences de l'information géographique, 41(2), 125-137. DOI : 10.1080/15230406.2014.880327

Pendyala, R.M. (2002). Développement d'outils de fusion basés sur SIG pour l'intégration et la mise en correspondance des données.

Rosen, B., & Saalfeld, A. (1985). Critères de correspondance pour l'alignement automatique. Actes du 7ème Symposium International de Cartographie Assistée par Ordinateur (Auto-Carto 7).

Ruiz, J.J., Ariza, F.J., Urena, M.A., & Blázquez, E.B. (2011). Conflation de cartes numériques : une revue du processus et une proposition de classification. Revue internationale des sciences de l'information géographique, 25(9), 1439-1466. DOI : 10.1080/13658816.2010.519707

Saalfeld, A. (1988). Compilation de carte automatisée Conflation. Journal international du système d'information géographique, 2(3), 217-228.

  • Définissez le concept de fusion et le type de contexte dans lequel il est utilisé.
  • Décrire les principaux types de problèmes de confusion.
  • Comprendre la cardinalité de la relation de correspondance.
  • Comprendre les différents critères utilisés pour amalgamer les caractéristiques géospatiales.
  • Implémentez un opérateur de fusion de base à l'aide de l'analyse de tampon et de l'opération de superposition.
  • Expliquez la différence entre la fusion manuelle et automatique.
  • Comparez la fusion avec la jointure spatiale, la fusion d'images et d'autres opérations connexes pour l'intégration de données.
  1. Qu'est-ce que l'amalgame ? Donnez un exemple d'application SIG qui nécessiterait une fusion.
  2. Quels sont les avantages et les inconvénients de la fusion automatisée par rapport à la fusion manuelle ?
  3. Obtenez deux jeux de données de réseau routier provenant de sources différentes et essayez d'écrire une instruction SQL pour joindre les rues correspondantes à l'aide de noms de rue.
  4. Ecrivez une instruction SQL (ou une interface GUI d'un package SIG) pour faire correspondre les caractéristiques routières correspondantes sur la base d'une analyse de tampon et de superposition.
  5. Répertoriez les différents critères qui peuvent être utilisés pour faire correspondre les caractéristiques correspondantes.
  6. Quelles sont les fonctionnalités correspondantes ? Quelle est la cardinalité de la relation de correspondance ?
  7. Quelles sont les différences entre la fusion et la jointure spatiale ?

Obe, R.O., & Hsu, L.S. (2015). PostGIS en action (2e éd.). Manning Publications Co.


Les téléphones intelligents : nouveaux indices de prix et répartition des dépenses entre les appareils et les plans de services dans les dépenses de consommation personnelle

Ana Aizcorbe , . Daniel E. Sichel , dans Mesurer la croissance économique et la productivité , 2020

17.3.1 Index des modèles appariés

Nous estimons à la fois les indices de prix appariés et hédoniques pour contrôler le changement de qualité tout en mettant l'accent sur les indices hédoniques. L'approche par modèle apparié, la méthode la plus couramment utilisée par les organismes statistiques, repose dans sa formulation la plus basique sur les variations de prix au fil du temps pour des modèles spécifiques du bien en question, en maintenant la qualité constante par construction si les modèles sont spécifiés de manière suffisamment détaillée. Cette approche prend une moyenne des variations de prix pour des modèles spécifiques plutôt que de calculer la variation de la moyenne des prix entre les modèles. Bien que l'approche du modèle apparié élimine idéalement l'effet du changement de qualité sur les prix, cette technique peut échouer dans les cas caractérisés par des entrées et sorties fréquentes du modèle pour deux raisons. Premièrement, dans la période d'entrée, aucun changement de prix par rapport à la période précédente n'est disponible et, bien sûr, aucun changement de prix n'est disponible non plus dans la période suivant la sortie du modèle. Deuxièmement, si les modèles entrants ont un prix inférieur à celui des modèles en place par rapport à la qualité et ne font pas baisser le prix des modèles en place - c'est-à-dire que la loi d'un prix (ajusté en fonction de la qualité) ne s'applique pas - avant que l'ancien modèle ne quitte le marché, l'amélioration de la qualité représentée par le nouveau modèle peut ne pas être reflétée dans l'indice. Ces deux problèmes sont une préoccupation sur le marché des téléphones mobiles.

Pour les indices de modèle apparié, nous considérons d'abord un indice construit comme une moyenne géométrique non pondérée des variations de prix, connue sous le nom de formule de Jevons. Nous commençons par des indices non pondérés, car les organismes statistiques ne collectent généralement pas de pondérations au niveau du modèle à chaque période. 14 De plus, les chercheurs qui estiment les indices hédoniques n'ont souvent pas de poids au niveau du modèle.

Une telle absence de pondération soulève deux problèmes. Premièrement, certains modèles représentent sans aucun doute une plus grande part de marché que d'autres, une préoccupation particulière sur le marché de la téléphonie mobile où une poignée de modèles Apple représentent une part disproportionnée du marché. Deuxièmement, l'importance relative des modèles change au fil du temps. L'importance de la question des pondérations fixes dans les indices de prix a fait l'objet de recherches approfondies. D'une manière générale, permettre aux poids d'évoluer au fil du temps est l'approche privilégiée car cela permet à l'indice de refléter la réponse des consommateurs aux prix relatifs et à la substitution entre les modèles, comme discuté dans Diewert (1998) . Notre deuxième indice de modèle apparié aborde ce problème. Nous calculons un indice dans lequel les variations de prix spécifiques au modèle sont pondérées par la moyenne de leur part des revenus au cours des deux périodes utilisées pour calculer la variation de prix (appelée formule de Tornqvist). 15


Calculez la distance entre les codes postaux et hellip ET les utilisateurs.

J'ai construit un site de rencontres (qui n'existe plus depuis longtemps) en 2000 environ, et l'un des défis consistait à calculer la distance entre les utilisateurs afin que nous puissions présenter vos "matchs" dans un rayon de X mile. Pour énoncer simplement le problème, étant donné le schéma de base de données suivant (en gros) :

TABLE DES UTILISATEURS ID utilisateur Nom d'utilisateur Code postal

TABLEAU DES CODES POSTAUX Code postal Latitude Longitude

Avec USER et ZIPCODE étant joints sur USER.ZipCode = ZIPCODE.ZipCode.

Quelle approche adopteriez-vous pour répondre à la question suivante : Quels autres utilisateurs vivent dans des codes postaux situés à moins de X miles du code postal d'un utilisateur donné ?

Nous avons utilisé les données du recensement de 2000, qui contiennent des tableaux pour les codes postaux et leur latitude et longitude approximatives.

Nous avons également utilisé la formule Haversine pour calculer les distances entre deux points quelconques sur une sphère. maths assez simples vraiment.

La question, du moins pour nous, étant les étudiants de 19 ans que nous étions, était vraiment de savoir comment calculer et / stocker efficacement les distances entre tous les membres et tous les autres membres. Une approche (celle que nous avons utilisée) consisterait à importer toutes les données et à calculer la distance DE chaque code postal À chaque autre code postal. Ensuite, vous stockeriez et indexerez les résultats. Quelque chose comme:

Le problème, bien sûr, est que la table ZipDistance va contenir BEAUCOUP de lignes. Ce n'est pas complètement impraticable, mais c'est vraiment gros. Cela nécessite également un pré-travail complet sur l'ensemble des données, ce qui n'est pas non plus ingérable, mais pas nécessairement souhaitable.

Quoi qu'il en soit, je me demandais quelle approche certains d'entre vous, gourous, pourraient adopter face à quelque chose comme ça. De plus, je pense que c'est un problème courant que les programmeurs doivent résoudre de temps en temps, surtout si vous considérez des problèmes qui sont juste similaires sur le plan algorithmique. Je suis intéressé par une solution complète qui inclut au moins des ASTUCES sur toutes les pièces pour le faire très rapidement et efficacement. Merci!


Une moyenne arithmétique est la somme d'une série de nombres divisée par le nombre de cette série de nombres.

Si on vous demandait de trouver la moyenne (arithmétique) de la classe des résultats aux tests, vous additionneriez simplement toutes les notes des étudiants aux tests, puis diviseriez cette somme par le nombre d'étudiants. Par exemple, si cinq étudiants ont passé un examen et que leurs scores étaient de 60 %, 70 %, 80 %, 90 % et 100 %, la moyenne arithmétique de la classe serait de 80 %.

Cela serait calculé comme :

La raison pour laquelle nous utilisons une moyenne arithmétique pour les résultats des tests est que chaque résultat est un événement indépendant. Si un élève réussit mal à l'examen, les chances de l'élève suivant de réussir mal (ou bien) à l'examen ne sont pas affectées.

Dans le monde de la finance, la moyenne arithmétique n'est généralement pas une méthode appropriée pour calculer une moyenne. Considérez les retours sur investissement, par exemple. Supposons que vous ayez investi votre épargne sur les marchés financiers pendant cinq ans. Si le rendement de votre portefeuille était de 90 %, 10 %, 20 %, 30 % et -90 % chaque année, quel serait votre rendement moyen au cours de cette période ?

Avec la moyenne arithmétique, le rendement moyen serait de 12%, ce qui semble à première vue impressionnant, mais ce n'est pas tout à fait exact. C'est parce que lorsqu'il s'agit de rendements annuels des investissements, les chiffres ne sont pas indépendants les uns des autres. Si vous perdez une somme d'argent substantielle au cours d'une année donnée, vous avez d'autant moins de capital à investir et à générer des rendements les années suivantes.

Nous devons calculer la moyenne géométrique de vos rendements de placement pour arriver à une mesure précise de ce que serait votre rendement annuel moyen réel sur la période de cinq ans.


3 réponses 3

La formule générale pour une décade de toutes les séries de résistances Exx (xx = 3*2^m, pour m = 0 à 6)

10^(n/xx) pour n de 0 à xx-1

signifie à peu près égal, et même pas toujours correctement arrondi ! L'intention générale était de placer toutes les résistances dans une belle série géométrique, puis d'ajuster les nombres à un joli petit nombre de chiffres significatifs, et d'avoir des séries successives pour être des sous-ensembles les uns des autres pour améliorer la logistique des stocks. Malheureusement, cela signifie que les nombres résultants peuvent être assez inégalement espacés. L'endroit le plus irritant (pour moi) où cela se produit est dans la série E24, où une partie de la séquence se déroule sur 1.3, 1.5, 1.6, 1.8.

Au fur et à mesure que les séries deviennent plus fines, le nombre de chiffres significatifs augmente, ce qui signifie que toutes les séries ne sont pas sous/super les suivantes.

E3, E6, E12 sont tous des sous-ensembles de E24, qui utilisent deux chiffres significatifs. E48 et E96 sont des sous-ensembles de E192, qui en utilisent trois.

Alors que les séries plus fines ont tendance à avoir des tolérances plus petites, la tolérance est vraiment une chose économique, vous payez autant que vous en avez besoin.


Cela explique l'indice perspicace fourni dans un commentaire de @ttnphns.

L'adjonction de variables presque corrélées augmente la contribution de leur facteur sous-jacent commun à l'ACP. Nous pouvons le voir géométriquement. Considérez ces données dans le plan XY, représentées sous la forme d'un nuage de points :

Il y a peu de corrélation, une covariance approximativement égale, et les données sont centrées : l'ACP (peu importe la façon dont elle est menée) rapporterait deux composantes approximativement égales.

Introduisons maintenant une troisième variable $Z$ égale à $Y$ plus une petite quantité d'erreur aléatoire. La matrice de corrélation de $(X,Y,Z)$ le montre avec les petits coefficients hors diagonale sauf entre les deuxième et troisième lignes et colonnes ($Y$ et $Z$) :

$gauche( egin 1. & -0.0344018 & -0.046076 -0.0344018 & 1. & 0.941829 -0.046076 & 0.941829 & 1. end droit)$

Géométriquement, nous avons déplacé tous les points d'origine presque verticalement, faisant sortir l'image précédente du plan de la page. Ce pseudo nuage de points 3D tente d'illustrer le levage avec une vue en perspective latérale (basée sur un jeu de données différent, bien que généré de la même manière qu'auparavant) :

Les points se trouvent à l'origine dans le plan bleu et sont levés jusqu'aux points rouges. L'axe $Y$ d'origine pointe vers la droite. Le basculement qui en résulte étire également les points le long des directions YZ, ainsi doubler leur contribution à la variance. Par conséquent, une ACP de ces nouvelles données identifierait toujours deux composantes principales principales, mais maintenant l'une d'entre elles aura deux fois la variance de l'autre.

Cette espérance géométrique est confirmée par quelques simulations dans R . Pour cela, j'ai répété la procédure de « levage » en créant des copies presque colinéaires de la deuxième variable une deuxième, une troisième, une quatrième et une cinquième fois, en les nommant $X_2$ à $X_5$. Voici une matrice de nuage de points montrant comment ces quatre dernières variables sont bien corrélées :

L'ACP est effectuée à l'aide de corrélations (même si cela n'a pas vraiment d'importance pour ces données), en utilisant les deux premières variables, puis trois, . et enfin cinq. Je montre les résultats en utilisant des graphiques des contributions des composantes principales à la variance totale.

Initialement, avec deux variables quasiment non corrélées, les contributions sont quasiment égales (coin supérieur gauche). Après avoir ajouté une variable corrélée à la seconde - exactement comme dans l'illustration géométrique - il n'y a encore que deux composants principaux, l'un maintenant deux fois plus grand que l'autre. (Un troisième composant reflète le manque de corrélation parfaite, il mesure "l'épaisseur" du nuage en forme de crêpe dans le nuage de points 3D.) Après avoir ajouté une autre variable corrélée ($X_4$), le premier composant est maintenant d'environ les trois quarts de la total après l'ajout d'un cinquième, le premier élément représente près des quatre cinquièmes du total. Dans les quatre cas, les composants après le second seraient probablement considérés comme sans conséquence par la plupart des procédures de diagnostic de l'ACP. Dans le dernier cas, il est possible que certaines procédures concluent qu'il n'y a que une élément principal à considérer.

On voit maintenant que il peut être utile d'écarter les variables considérées comme mesurant le même aspect sous-jacent (mais « latent ») d'un ensemble de variables, car l'inclusion de variables presque redondantes peut amener l'ACP à trop insister sur leur contribution. Il n'y a rien mathématiquement bien (ou mal) à propos d'une telle procédure, il s'agit d'un jugement basé sur les objectifs analytiques et la connaissance des données. Mais il devrait être parfaitement clair que mettre de côté des variables connues pour être fortement corrélées avec d'autres peut avoir un effet substantiel sur les résultats de l'ACP.

je vais plus loin illustrer le même processus et la même idée que @whuber l'a fait, mais avec les tracés de chargement, - car les chargements sont l'essence des résultats de l'ACP.

Voici trois 3 analyses. Dans le premier, nous avons deux variables, $X_1$ et $X_2$ (dans cet exemple, elles ne sont pas corrélées). Dans le second, nous avons ajouté $X_3$ qui est presque une copie de $X_2$ et est donc fortement corrélé avec lui. Dans le troisième, nous en avons encore ajouté 2 autres « copies » : $X_4$ et $X_5$.

Les tracés de chargements des 2 premières composantes principales marchent ensuite. Les pointes rouges sur les tracés indiquent les corrélations entre les variables, de sorte que le groupe de plusieurs pointes est l'endroit où se trouve un groupe de variables étroitement corrélées. Les composants sont les lignes grises la "force" relative d'un composant (son amplitude relative de valeur propre) est donnée par le poids de la ligne.

Deux effets de l'ajout des "copies" peuvent être observés :

  1. Le composant 1 devient de plus en plus fort et le composant 2 de plus en plus faible.
  2. L'orientation des composants change : au début, le composant 1 se situait au milieu entre $X_1$ et $X_2$ alors que nous ajoutions $X_3$ à $X_2$ Le composant 1 s'est immédiatement réorienté pour suivre le groupe de variables émergent et vous pouvez assurez-vous qu'après avoir ajouté deux autres variables au groupe, l'attachement du composant 1 à ce groupe de variables étroitement corrélées est devenu plus indiscutable.

Je ne reprendrai pas la morale car @whuber l'a déjà fait.

Une addition. Voici quelques photos en réponse aux commentaires de @whuber. Il s'agit d'une distinction entre « espace variable » et « espace sujet » et de la façon dont les composants s'orientent ici et là. Trois ACP bivariées sont présentées : les analyses de la première ligne $r=0$, les analyses de la deuxième ligne $r=0.62$ et la troisième ligne $r=0.77$. La colonne de gauche contient les nuages ​​de points (de données standardisées) et la colonne de droite charge les graphiques.

Sur un nuage de points, la corrélation entre $X_1$ et $X_2$ est rendue comme oblongité du nuage. L'angle (son cosinus) entre une ligne composante et une ligne variable est le correspondant vecteur propre élément. Les vecteurs propres sont identiques dans les trois analyses (donc les angles sur les 3 graphiques sont les mêmes). [Mais, c'est vrai, qu'avec $r=0$ exactement, les vecteurs propres (et donc les angles) sont théoriquement arbitraires car le nuage est parfaitement "arrondi" toute paire de lignes orthogonales passant par l'origine pourrait servir de deux composants, - même les lignes $X_1$ et $X_2$ elles-mêmes pourraient être choisies comme les composants.] Les coordonnées des points de données (200 sujets) sur un composant sont les scores des composants, et leur somme des carrés divisée par 200-1 est le valeur propre.

Sur un graphique de chargement, les points (vecteurs) sont des variables ils étalent l'espace qui est à 2 dimensions (car nous avons 2 points + origine) mais qui est en fait un "espace sujet" réduit à 200 dimensions (nombre de sujets). Ici, l'angle (cosinus) entre les vecteurs rouges est $r$. Les vecteurs sont de même longueur unitaire, car les données ont été standardisées. The first component is such a dimension axis in this space which rushes towards the overal accumulation of the points in case of just 2 variables it is always the bisector between $X_1$ and $X_2$ (but adding a 3rd variable can deflect it anyhow). The angle (cosine) between a variable vector and a component line is the correlation between them, and because the vectors are unit lenght and the components are orthogonal, this is nothing else than the coordinates, the loading. Sum of squared loadings onto the component is its eigenvalue (the component just orients itself in this subject space so as to maximize it)

Addition2. Dans Addition above I was speaking about "variable space" and "subject space" as if they are incompatible together like water and oil. I had to reconsider it and may say that - at least when we speak about PCA - both spaces are isomorphic in the end, and by that virtue we can correctly display all the PCA details - data points, variable axes, component axes, variables as points, - on a single undistorted biplot.

Below are the scatterplot (variable space) and the loading plot (component space, which is subject space by its genetic origin). Everything that could be shown on the one, could also be shown on the other. The pictures are identical, only rotated by 45 degrees (and reflected, in this particular case) relative each other. That was a PCA of variables v1 and v2 (standardized, thus it was r that was analyzed). Black lines on the pictures are the variables as axes green/yellow lines are the components as axes blue points are the data cloud (subjects) red points are the variables displayed as points (vectors).


This article has earned Open Data and Open Materials badges. Data and materials are available at https://doi.org/10.5061/drvad.r7sqv9sb6

Data on Baltic sea are publicly available under http://ices.dk/data/Documents/ENV/, (ICES CEIM), Data on the global ecosystems are available under https://dataportal.lifewatchitaly.eu/data, (LifeWatch ERIC). The original and compiled datasets are also available on DataDryad.org under https://doi.org/10.5061/dryad.r7sqv9sb6.

Remarque : L'éditeur n'est pas responsable du contenu ou de la fonctionnalité des informations fournies par les auteurs. Toute question (autre que le contenu manquant) doit être adressée à l'auteur correspondant à l'article.


Voir la vidéo: Apprendre les Formes Géométriques. comptine éducative originale avec les Ptits zAmis