Suite

Comment calculer la distance moyenne entre un ensemble de points comme mesure de proximité

Comment calculer la distance moyenne entre un ensemble de points comme mesure de proximité


J'ai trois séries (ou tables) de points dans PostGIS que je veux comparer. J'aimerais savoir à quel point chaque série est « proche » par rapport aux deux autres. En d'autres termes, j'aurais besoin d'une mesure telle que la moyenne de la distance moyenne de chaque point avec tous les autres (c'est-à-dire la moyenne de la matrice de distance)… Cela semble compliqué, mais je suis sûr qu'il existe des statistiques communes pour comparer des séries de points.

À quoi ressemblerait ma requête ?


Comme je l'ai mentionné dans un commentaire, la distance moyenne sera déformée par les plus grandes distances entre les points. Par exemple, vous pourriez avoir un nuage de points de 100 km de diamètre, que vous décalez ensuite latéralement de 1 m pour former une nouvelle table. le distance moyenne pour tout point du tableau A au tableau B sera plus proche de 100 km que de 1 m. le distance la plus proche pour tout point du tableau A au tableau B sera de 1 m, et le distance moyenne la plus proche sera de 1 m.

Cela mis à part, je vais montrer comment calculer la moyenne de la distance la plus proche, que vous pouvez ensuite étendre à votre guise.

SELECTIONNER DISTINCT ON(a.id) a.id AS a_id, b.id AS b_id, ST_DISTANCE(a.geom, b.geom) as distance INTO a_b_distances FROM a, b ORDER BY a.id, a.geom <-> b.geom

Et ensuite pour calculer la distance moyenne la plus proche :

SELECT moy(distance) FROM a_b_distances

La formule de distance euclidienne trouve la distance entre deux points quelconques dans l'espace euclidien.

Un point dans l'espace euclidien est également appelé vecteur euclidien.

Vous pouvez utiliser la formule de distance euclidienne pour calculer la distance entre des vecteurs de deux longueurs différentes.

Pour des vecteurs de dimension différente, le même principe s'applique.

Supposons qu'un vecteur de dimension inférieure existe également dans l'espace de dimension supérieure. Vous pouvez ensuite définir tous les composants manquants dans le vecteur de dimension inférieure à 0 afin que les deux vecteurs aient la même dimension. Vous utiliseriez ensuite l'une des formules de distance mentionnées pour calculer la distance.

Par exemple, considérons un vecteur bidimensionnel A dans R² avec des composantes (a1,a2) , et un vecteur tridimensionnel B dans R³ avec des composantes (b1,b2,b3) .

Pour exprimer A dans R³ , vous définiriez ses composants sur (a1,a2,0) . Ensuite, la distance euclidienne d entre A et B peut être trouvée en utilisant la formule :

Pour votre cas particulier, les composants seront soit 0 ou 1 , donc toutes les différences seront -1 , 0 ou 1 . Les différences au carré ne seront alors que 0 ou 1 .

Si vous utilisez des entiers ou des bits individuels pour représenter les composants, vous pouvez utiliser des opérations simples au niveau du bit au lieu d'une arithmétique ( ^ signifie XOR ou exclusif ou ):

Et nous supposons que les composants de fin de A sont 0 , donc la formule finale sera :


Structure et mesures du réseau

Jennifer Golbeck , dans Analyser le Web social , 2013

Centralité des vecteurs propres

La centralité des vecteurs propres mesure l'importance d'un nœud tout en tenant compte de l'importance de ses voisins. Par exemple, un nœud avec 300 amis relativement impopulaires sur Facebook aurait une centralité de vecteur propre plus faible que quelqu'un avec 300 amis très populaires (comme Barack Obama). Il est parfois utilisé pour mesurer l'influence d'un nœud dans le réseau. Il est déterminé en effectuant un calcul matriciel pour déterminer ce qu'on appelle le vecteur propre principal en utilisant la matrice de contiguïté. Les mathématiques ici sont plus compliquées que ce que ce livre couvrira, mais les principes de la centralité des vecteurs propres sont importants et intuitifs. Non seulement il est utilisé pour déterminer l'influence sur les réseaux sociaux, mais une variante de la centralité des vecteurs propres est au cœur de l'algorithme PageRank de Google, qu'ils utilisent pour classer les pages Web.

Le principe principal est que les liens provenant de nœuds importants (tels que mesurés par le degré de centralité) valent plus que les liens provenant de nœuds sans importance. Tous les nœuds commencent égaux, mais au fur et à mesure que le calcul progresse, les nœuds avec plus de bords commencent à gagner en importance. Leur importance se propage aux nœuds auxquels ils sont connectés. Après plusieurs recalculs, les valeurs se stabilisent, ce qui donne les valeurs finales de la centralité des vecteurs propres.

La plupart des progiciels d'analyse de réseau calculent la centralité des vecteurs propres (ainsi que la plupart des autres mesures de centralité), il n'est donc pas nécessaire d'apprendre les subtilités du calcul des vecteurs propres. Cependant, comprendre les principes généraux qui sous-tendent la mesure est utile pour décider quand c'est la bonne mesure à utiliser dans l'analyse.


Création et analyse de graphiques pour relier les acteurs : application aux données sociales

Charles Perez , Rony Germon , dans Automatisation de l'intelligence open source , 2016

Proximité Centralité

le proximité centralité est étroitement liée à la notion de distance entre les nœuds. La distance entre deux nœuds est définie comme la longueur du chemin le plus court entre deux nœuds. le distance est égal à la somme de la distance d'un nœud à tous les autres nœuds. La centralité de proximité est l'inverse de la distance. Il met en évidence les nœuds qui peuvent atteindre n'importe quel autre nœud en quelques sauts et les nœuds qui peuvent être très éloignés dans le graphe ( Figure 7.10 ).

Graphique 7.10 . La centralité de proximité est illustrée pour quatre configurations de réseau. Des scores plus élevés sont attribués aux nœuds qui semblent plus centraux en termes de distance (ils peuvent en atteindre d'autres en quelques sauts).

De nombreuses autres métriques de centralité existent, telles que Eigenvector, PageRank (Page, Brin, Motwani, & Winograd, 1999) et les mesures de centralité de Katz. Chacune de ces mesures représente l'importance des nœuds dans le graphe par rapport à certaines hypothèses spécifiques concernant les propriétés topologiques des nœuds. Par exemple, la centralité des vecteurs propres suppose qu'avoir plus de contacts n'est pas le principal critère d'importance, au contraire avoir des contacts importants révèle mieux la centralité d'un nœud. Dans cette hypothèse, la centralité d'un nœud est liée à la somme de la centralité de ses voisins.

Les métriques présentées ci-dessus ont capturé « l'importance » des nœuds. La section suivante ouvre la discussion sur la question des communautés et l'identification des clusters.


Par exemple, certains pays d'Europe de l'Est tels que la Macédoine ont perdu 10 % de leur population en raison de la migration au cours des dernières décennies, tandis que d'autres, comme le Royaume-Uni, ont gagné des millions de nouveaux résidents au cours de la même période.

Par exemple, à l'exception de la Grande-Bretagne, les détenus sont autorisés à voter dans tous les pays de l'Union européenne (The Guardian 2013).

Aux États-Unis, le pays qui compte le plus de détenus dans le monde, plus de 1,5 million de personnes purgent une peine de prison. Cependant, relativement, ces 1,5 million de détenus représentent 0,7 % de la population adulte, ce qui fausse globalement la participation aux VEP de moins d'un point. Le pourcentage d'individus officiellement étiquetés comme malades mentaux ou inaptes à voter est également infime. Par conséquent, et malgré ce manque de données, je peux approximer le taux de participation VEP assez précisément.

Alors que les données de sondage à un moment distinct avant l'élection auraient probablement été la meilleure mesure de la proximité électorale, il y a deux arguments contre l'utilisation de telles données de sondage : d'abord et plus théoriquement, les sondages électoraux diffèrent fréquemment dans leurs prédictions des résultats réels des élections de plusieurs points de pourcentage, rendant les données de sondage quelque peu inefficaces (Whiteley et al. 2011). Deuxièmement et plus pratique, il aurait simplement été impossible d'obtenir des données de sondage comparables pour les plus de 500 élections qui constituent la base de cette étude.

Comme facteur institutionnel supplémentaire, j'aurais aimé inclure une variable muette mesurant si l'enregistrement est automatique ou non dans un pays. La discussion sur les différences de taux de participation entre le taux de participation RV, le taux de participation VAP et le taux de participation VEP dans cet article (voir pages 6 à 8) envisage fortement la possibilité que la variation entre les trois mesures découle en partie du fait que l'inscription des électeurs est automatique ou volontaire. Malheureusement, il n'y a pas d'indicateur global disponible qui évalue les exigences d'enregistrement. Aucun des ensembles de données électorales disponibles (par exemple, les archives électorales d'Adam Carr, l'ensemble de données de l'UIP, l'ensemble de données Systèmes électoraux démocratiques dans le monde et l'ensemble de données Varieties of Democracies) n'inclut une telle mesure.

Il existe une grande variation dans les trois opérations de participation. Une grande variation similaire existe également pour les variables indépendantes (pour quelques statistiques descriptives pour toutes les variables, veuillez consulter le tableau 1).


31 réponses 31

Calculez les vecteurs unitaires à partir des angles et prenez l'angle de leur moyenne.

Cette question est examinée en détail dans le livre : "Statistics On Spheres", Geoffrey S. Watson, University of Arkansas Lecture Notes in the Mathematical Sciences, 1983 John Wiley & Sons, Inc. comme mentionné sur http://catless.ncl. ac.uk/Risks/7.44.html#subj4 par Bruce Karsh.

Un bon moyen d'estimer un angle moyen, A, à partir d'un ensemble de mesures d'angle a[i] 0<=i

La méthode donnée par starblue est équivalente en termes de calcul, mais ses raisons sont plus claires et probablement plus efficaces sur le plan du programme, et fonctionnent également bien dans le cas zéro, alors bravo à lui.

Le sujet est maintenant exploré plus en détail sur Wikipédia, et avec d'autres usages, comme les parties fractionnaires.

Je vois le problème - par exemple, si vous avez un angle de 45' et un angle de 315', la moyenne "naturelle" serait de 180', mais la valeur que vous voulez est en fait de 0'.

Je pense que Starblue est sur quelque chose. Calculez simplement les coordonnées cartésiennes (x, y) pour chaque angle et additionnez les vecteurs résultants. Le décalage angulaire du vecteur final devrait être le résultat souhaité.

J'ignore pour l'instant qu'un cap de la boussole commence au nord et va dans le sens des aiguilles d'une montre, alors que les coordonnées cartésiennes "normales" commencent par zéro le long de l'axe X, puis vont dans le sens inverse des aiguilles d'une montre. Les maths devraient fonctionner de la même manière de toute façon.

POUR LE CAS PARTICULIER DES DEUX ANGLES :

La réponse ( (a + b) mod 360 ) / 2 est TORT. Pour les angles 350 et 2, le point le plus proche est 356 et non 176.

Les solutions de vecteur unitaire et de trig peuvent être trop chères.

Ce que j'ai obtenu d'un peu de bricolage c'est :

  • 0, 180 -> 90 (deux réponses pour cela : cette équation prend la réponse dans le sens des aiguilles d'une montre à partir de a)
  • 180, 0 -> 270 (voir ci-dessus)
  • 180, 1 -> 90.5
  • 1, 180 -> 90.5
  • 20, 350 -> 5
  • 350, 20 -> 5 (tous les exemples suivants s'inversent correctement aussi)
  • 10, 20 -> 15
  • 350, 2 -> 356
  • 359, 0 -> 359.5
  • 180, 180 -> 180

ackb a raison de dire que ces solutions vectorielles ne peuvent pas être considérées comme de véritables moyennes d'angles, elles ne sont qu'une moyenne des contreparties vectorielles unitaires. Cependant, la solution suggérée par ackb ne semble pas mathématiquement valable.

Ce qui suit est une solution mathématiquement dérivée de l'objectif de minimiser (angle[i] - avgAngle)^2 (où la différence est corrigée si nécessaire), ce qui en fait une véritable moyenne arithmétique des angles.

Tout d'abord, nous devons examiner exactement dans quels cas la différence entre les angles est différente de la différence entre leurs homologues numériques normaux. Considérons les angles x et y, si y >= x - 180 et y <= x + 180, alors nous pouvons utiliser la différence (x-y) directement. Sinon, si la première condition n'est pas remplie, nous devons utiliser (y+360) dans le calcul au lieu de y. Correspondant, si la deuxième condition n'est pas remplie alors nous devons utiliser (y-360) au lieu de y. Étant donné que l'équation de la courbe que nous minimisons ne change qu'aux points où ces inégalités passent de vrai à faux ou vice versa, nous pouvons séparer la plage complète [0,360) en un ensemble de segments, séparés par ces points. Ensuite, il suffit de trouver le minimum de chacun de ces segments, puis le minimum du minimum de chaque segment, qui est la moyenne.

Voici une image montrant où les problèmes surviennent dans le calcul des différences d'angle. Si x se trouve dans la zone grise, il y aura un problème.

Pour minimiser une variable, en fonction de la courbe, on peut prendre la dérivée de ce que l'on veut minimiser puis on trouve le point de retournement (c'est là que la dérivée = 0).

Ici, nous appliquerons l'idée de minimiser la différence au carré pour dériver la formule de moyenne arithmétique commune : sum(a[i])/n. La courbe y = sum((a[i]-x)^2) peut être minimisée de cette manière :

Appliquez-le maintenant aux courbes avec nos différences ajustées :

b = sous-ensemble de a où la différence (angulaire) correcte a[i]-xc = sous-ensemble de a où la différence (angulaire) correcte (a[i]-360)-x cn = taille de cd = sous-ensemble de a où le différence (angulaire) correcte (a[i]+360)-x dn = taille de d

Cela seul n'est pas tout à fait suffisant pour obtenir le minimum, alors que cela fonctionne pour des valeurs normales, qui ont un ensemble illimité, donc le résultat se situera certainement dans la plage de l'ensemble et est donc valide. Nous avons besoin du minimum dans une plage (définie par le segment). Si le minimum est inférieur à la limite inférieure de notre segment, le minimum de ce segment doit être à la limite inférieure (car les courbes quadratiques n'ont qu'un seul point de retournement) et si le minimum est supérieur à la limite supérieure de notre segment, le minimum du segment est à la borne supérieure. Une fois que nous avons le minimum pour chaque segment, nous trouvons simplement celui qui a la valeur la plus faible pour ce que nous minimisons (sum((b[i]-x)^2) + sum(((c[i]-360 )-b)^2) + somme(((d[i]+360)-c)^2)).

Voici une image de la courbe, qui montre comment elle change aux points où x=(a[i]+180)%360. L'ensemble de données en question est <65,92,230,320,250>.

Voici une implémentation de l'algorithme en Java, incluant quelques optimisations, sa complexité est O(nlogn). Il peut être réduit à O(n) si vous remplacez le tri basé sur la comparaison par un tri non basé sur la comparaison, tel que le tri par base.

La moyenne arithmétique d'un ensemble d'angles peut ne pas être en accord avec votre idée intuitive de ce que devrait être la moyenne. Par exemple, la moyenne arithmétique de l'ensemble <179 179 0 181 181> est de 216 (et 144). La réponse à laquelle vous pensez immédiatement est probablement 180, mais il est bien connu que la moyenne arithmétique est fortement affectée par les valeurs de bord. Vous devez également vous rappeler que les angles ne sont pas des vecteurs, aussi attrayant que cela puisse paraître lorsque l'on traite parfois des angles.

Cet algorithme s'applique bien sûr également à toutes les quantités qui obéissent à l'arithmétique modulaire (avec un ajustement minimal), comme l'heure de la journée.

Je voudrais également souligner que même s'il s'agit d'une véritable moyenne d'angles, contrairement aux solutions vectorielles, cela ne signifie pas nécessairement que c'est la solution que vous devriez utiliser, la moyenne des vecteurs unitaires correspondants peut bien être la valeur que vous avez réellement devrait être utilisé.


Visualisation des matrices de distance

Une solution simple pour visualiser les matrices de distance est d'utiliser la fonction fviz_dist() [extra facto paquet]. D'autres méthodes spécialisées, telles que le clustering hiérarchique agglomératif ou la carte thermique seront décrites en détail dans les cours dédiés.

Utiliser fviz_dist() tapez ceci :

Le niveau de couleur est proportionnel à la valeur de la dissemblance entre les observations : le rouge pur si (dist(x_i, x_j) = 0) et le bleu pur correspond à la valeur la plus élevée de distance euclidienne calculée. Les objets appartenant au même cluster sont affichés dans l'ordre consécutif.


Comparaison de la taille et de la distance planétaire

Les élèves utilisent la mesure métrique, y compris les unités astronomiques (UA), pour étudier la taille et la distance relatives des planètes de notre système solaire. Ensuite, ils utilisent l'échelle pour modéliser la distance relative.

Sciences de la Terre, Astronomie, Apprentissage par l'expérience, Mathématiques

Celui-ci répertorie les logos des programmes ou partenaires de NG Education qui ont fourni ou contribué au contenu de cette page. Programme

Liens

Site Internet

1. Passez en revue l'ordre des planètes et les tailles relatives dans notre système solaire.
Affichez l'illustration de la NASA : Toutes les tailles de planètes. Demandez aux élèves de souligner l'emplacement de la Terre. Ensuite, mettez-les au défi d'identifier toutes les planètes, à l'extérieur du soleil (de gauche à droite) : planètes intérieures Mercure, Vénus, Terre, Mars planètes extérieures Jupiter, Saturne, Uranus, Neptune et Pluton. Rappelez aux élèves que Pluton n'est plus considérée comme une planète de notre système solaire, elle a été rétrogradée au statut de planète naine en 2006. Indiquez les emplacements de la ceinture d'astéroïdes (entre Mars et Jupiter) et de la ceinture de Kuiper (après Pluton) s'ils étaient inclus dans cette illustration. Expliquez aux élèves que l'illustration montre les planètes en taille relative. Interroger: Que pensez-vous que la taille relative signifie? Demandez aux élèves que les images montrent à quel point les planètes sont grandes les unes par rapport aux autres et au soleil. Interroger: Quelle planète est la plus petite ? (Mercure) Quel est le plus grand ? (Jupiter)

2. Demandez aux élèves de recueillir des données et de comparer la taille des planètes.
Divisez les élèves en petits groupes. Distribuez une copie de la feuille de travail Comparaison de la taille des planètes à chaque groupe. Demandez aux groupes d'utiliser la comparaison interactive de la taille des planètes pour trouver et enregistrer des données sur les diamètres et les rapports des planètes. Interroger:

  • Que remarquez-vous sur la taille des planètes ? (Réponse possible : les planètes rocheuses intérieures sont plus petites que les planètes gazeuses extérieures.)
  • Comment pensez-vous que les tailles des planètes se comparent? (Réponse possible : il y a une grande différence dans la taille des planètes. Certaines sont assez petites et d'autres sont extrêmement grandes.)
  • Serait-il facile de modéliser les tailles des planètes ? Pourquoi ou pourquoi pas? (Réponse possible : Non, à cause des grandes différences de taille.)
  • Comment modéliser les différences ? Quels objets du quotidien pourraient représenter les planètes et le soleil ? (Réponses possibles : pois/boule de plage grains de sable/orange)

Demandez aux élèves de discuter des réponses en petits groupes. Ensuite, regroupez-vous en classe pour discuter des idées des élèves.

3. Construire des informations sur l'unité astronomique (UA).
Expliquez aux élèves qu'une unité astronomique, ou UA, est un nombre simplifié utilisé pour décrire la distance d'une planète au soleil. C'est une unité de longueur égale à la distance moyenne de la Terre au soleil, environ 149 600 000 kilomètres (92 957 000 miles). Seule la Terre peut se voir attribuer un UA 1. Les planètes plus éloignées auraient un UA supérieur à 1 et les planètes plus proches auraient un UA inférieur à 1. Demandez : À votre avis, pourquoi les scientifiques trouvent-ils utile d'utiliser des unités astronomiques ? (Réponse possible : les distances dans le système solaire sont très grandes. L'utilisation de l'UA aide à garder les nombres gérables, ou plus petits, afin que nous puissions facilement calculer de très grandes distances.) Quels sont les défis de l'utilisation des kilomètres ou des miles à la place ? (Réponse possible : l'utilisation de kilomètres ou de miles rendrait les calculs plus difficiles et pourrait produire des erreurs dans les mesures requises pour envoyer avec précision une sonde ou un atterrisseur vers une autre planète.) Expliquez aux élèves que l'unité astronomique fournit un moyen d'exprimer et de relier les distances d'objets dans le système solaire et d'effectuer des calculs astronomiques. Par exemple, déclarer que la planète Jupiter est à 5,2 UA (5,2 distances terrestres) du soleil et que Pluton est à près de 40 UA vous permet de comparer plus facilement les distances des trois corps.

4. Présentez l'activité de modélisation.
Dites aux élèves qu'ils vont remplacer les planètes et les objets planétaires afin de créer un modèle des tailles et des distances relatives des planètes. Affichez l'illustration de la NASA : Quelle est la taille du soleil ? donner aux élèves une idée de la taille relative des planètes par rapport à un objet de tous les jours comme un ballon de basket. Assurez-vous que les élèves comprennent que les distances entre les planètes sont très grandes par rapport à la taille de chaque planète. Cela rend extrêmement difficile la création d'une échelle exacte de notre système solaire, donc cette activité se concentrera sur la comparaison des distances.

5. Demandez aux groupes de créer des modèles de distances planétaires relatives.
Divisez les élèves en groupes de 9, 10 ou 11, selon la taille de la classe. (Si 9, un élève représente le soleil et les autres élèves représentent 8 planètes Si 10, le soleil, les planètes et la ceinture d'astéroïdes Si 11, le soleil, les planètes, la ceinture d'astéroïdes et les ceintures de Kuiper) Emmenez les élèves dans une grande zone, comme comme le gymnase ou le parking vide. Vous aurez besoin de suffisamment d'espace pour que chaque groupe puisse s'étendre et créer son modèle, en utilisant l'échelle suivante, chaque étape étant égale à environ 1 mètre (environ 3,28 pieds) :

  • Soleil : se tient au bord de la zone
  • Mercure = 1 pas du soleil
  • Vénus = à 2 pas du soleil
  • Terre = 2,5 pas du soleil
  • Mars = 4 pas du soleil
  • Ceinture d'astéroïdes = 8 pas du soleil
  • Jupiter = 13 pas du soleil
  • Saturne = 24 pas du soleil
  • Uranus = 49 pas du soleil
  • Neptune = 76 pas du soleil
  • Ceinture de Kuiper = 100 pas du soleil

Soulignez qu'à cette échelle, le soleil aurait un diamètre inférieur à 1,3 centimètre (0,5 pouce). Demandez aux élèves de décrire ce qu'ils remarquent à propos des distances planétaires par rapport au modèle. Au besoin, permettez à un élève de chaque groupe de mettre un objet à sa place et de faire le tour du modèle de son groupe pour faire des observations.

6. Demandez aux élèves d'établir un lien mathématique.
Distribuez des exemplaires de la feuille de travail Sortir du système solaire à chaque groupe. Demandez aux élèves de recalculer le nombre de pas pour l'orbite de chaque planète, en fonction de la taille de la zone disponible. Utilisez le corrigé fourni pour vérifier le travail des groupes. Demandez ensuite aux élèves de recréer le modèle.

Évaluation informelle

Demandez aux élèves de travailler indépendamment pour résumer, par écrit, ce qu'ils ont appris sur notre système solaire, notamment :

  • emplacements des planètes par rapport au soleil et les unes aux autres
  • tailles relatives des planètes, y compris la Terre
  • distances relatives des planètes
  • toutes les conclusions qu'ils peuvent tirer sur les emplacements de la ceinture d'astéroïdes et de la ceinture de Kuiper

Étendre l'apprentissage

Encouragez les élèves à pratiquer l'astronomie dans la cour. À certains moments de la journée et de l'année, il est possible de voir les planètes Mercure, Vénus, Mars, Jupiter et Saturne à l'œil nu. Les étudiants peuvent utiliser Magazine du ciel et du télescope Fonction Sky at a Glance pour savoir quelles planètes sont visibles dans le ciel nocturne et où regarder. Demandez aux élèves de rapporter à la classe ce qu'ils ont observé.


Comment calculer la distance moyenne entre un ensemble de points comme mesure de proximité - Systèmes d'information géographique

Tous les sociologues s'accordent à dire que le pouvoir est une propriété fondamentale des structures sociales. Il y a beaucoup moins d'accord sur ce qu'est le pouvoir et sur la façon dont nous pouvons décrire et analyser ses causes et ses conséquences. Dans ce chapitre, nous examinerons certaines des principales approches que l'analyse des réseaux sociaux a développées pour étudier le pouvoir et le concept étroitement lié de centralité.

La pensée en réseau a apporté un certain nombre d'informations importantes sur le pouvoir social. Peut-être plus important encore, l'approche du réseau met l'accent sur le fait que le pouvoir est intrinsèquement relationnel. Un individu n'a pas de pouvoir dans l'abstrait, il a du pouvoir parce qu'il peut dominer les autres - le pouvoir de l'ego est la dépendance de l'autre. Parce que le pouvoir est une conséquence des modèles de relations, la quantité de pouvoir dans les structures sociales peut varier. Si un système est très faiblement couplé (faible densité), peu de puissance peut être exercée dans les systèmes à haute densité, il y a un potentiel pour une plus grande puissance. Le pouvoir est à la fois une propriété systémique (macro) et relationnelle (micro). La quantité de pouvoir dans un système et sa répartition entre les acteurs sont liées, mais ne sont pas la même chose. Deux systèmes peuvent avoir la même puissance, mais elle peut être également répartie dans l'un et inégalement répartie dans l'autre. Le pouvoir dans les réseaux sociaux peut être considéré soit comme une propriété micro (c'est-à-dire qu'il décrit les relations entre les acteurs) ou comme une propriété macro (c'est-à-dire qui décrit l'ensemble de la population) comme avec d'autres concepts sociologiques clés, le macro et le micro sont étroitement liés dans les réseaux sociaux. pensée en réseau.

Les analystes de réseau décrivent souvent la manière dont un acteur est intégré dans un réseau relationnel comme imposant des contraintes à l'acteur et lui offrant des opportunités. Les acteurs qui font face à moins de contraintes et ont plus d'opportunités que les autres sont dans des positions structurelles favorables. Avoir une position privilégiée signifie qu'un acteur peut obtenir de meilleures affaires dans les échanges, avoir une plus grande influence et que l'acteur fera l'objet de déférence et d'attention de la part de ceux qui occupent des positions moins favorisées.

Mais qu'entendons-nous par « avoir une position privilégiée » et « plus d'opportunités » et « moins de contraintes ? » Il n'y a pas de réponse unique et définitive à ces questions difficiles. Mais l'analyse de réseau a apporté d'importantes contributions en fournissant des définitions précises et des mesures concrètes de plusieurs approches différentes de la notion de pouvoir qui s'attache aux positions dans les structures des relations sociales.

Pour comprendre les approches que l'analyse de réseau utilise pour étudier la puissance, il est utile de réfléchir d'abord à quelques systèmes très simples. Considérez les trois graphiques simples de réseaux des figures 10.1, 10.2 et 10.3, appelés "étoile", "" ligne " et " " cercle ".

Graphique 10.3. Réseau "Cercle"

Un instant d'inspection devrait suggérer que l'acteur A a une position structurelle très privilégiée dans le réseau en étoile, si le réseau décrit une relation telle que l'échange de ressources ou le partage de ressources. Mais, pourquoi exactement l'acteur A a-t-il une "meilleure" position que tous les autres dans le réseau star ? Qu'en est-il de la position de A dans le réseau de lignes ? Être au bout du fil est-il un avantage ou un inconvénient ? Tous les acteurs du réseau de cercles sont-ils vraiment exactement dans la même position structurelle ?

Nous devons réfléchir aux raisons pour lesquelles la localisation structurelle peut être avantageuse ou désavantageuse pour les acteurs. Concentrons notre attention sur les raisons pour lesquelles l'acteur A est si manifestement avantagé dans le réseau des stars.

Degré : Dans le réseau star, l'acteur A a plus d'opportunités et d'alternatives que les autres acteurs. Si l'acteur D choisit de ne pas fournir de ressource à A, A a un certain nombre d'autres endroits où aller pour l'obtenir, cependant, si D choisit de ne pas échanger avec A, alors D ne pourra pas échanger du tout. Plus un acteur a de liens, plus il (peut) avoir de pouvoir. Dans le réseau vedette, l'acteur A a le degré six, tous les autres acteurs ont le degré un. Cette logique sous-tend les mesures de centralité et de pouvoir basées sur le degré d'acteur, que nous aborderons ci-dessous. Les acteurs qui ont plus de liens ont plus d'opportunités parce qu'ils ont des choix. Cette autonomie les rend moins dépendants de tout autre acteur spécifique, et donc plus puissants.

Maintenant, considérons le réseau de cercles en termes de degré. Chaque acteur a exactement le même nombre de partenaires commerciaux alternatifs (ou diplômes), de sorte que toutes les positions sont également avantagées ou désavantagées.

Dans le réseau de lignes, les choses sont un peu plus compliquées. Les acteurs en bout de ligne (A et G) sont en fait structurellement désavantagés, mais tous les autres sont apparemment égaux (en fait, ce n'est pas si simple). En général, cependant, les acteurs qui sont plus au centre de la structure, dans le sens où ils ont un degré plus élevé ou plus de liens, ont tendance à avoir des positions privilégiées, et donc plus de pouvoir.

Proximité : La deuxième raison pour laquelle l'acteur A est plus puissant que les autres acteurs du réseau vedette est que l'acteur A est plus proche de plus d'acteurs que tout autre acteur. Le pouvoir peut être exercé par la négociation et l'échange directs. Mais le pouvoir vient aussi d'agir comme un "point de référence" par lequel les autres acteurs se jugent, et en étant un centre d'attention dont les opinions sont entendues par un plus grand nombre d'acteurs. Les acteurs qui sont capables d'atteindre d'autres acteurs sur des chemins plus courts, ou qui sont plus accessibles par d'autres acteurs sur des chemins plus courts, ont des positions privilégiées. Cet avantage structurel peut se traduire en puissance. Dans le réseau en étoile, l'acteur A est à une distance géodésique de un de tous les autres acteurs, l'autre acteur est à une distance géodésique de deux de tous les autres acteurs (sauf A). Cette logique de l'avantage structurel sous-tend des approches qui mettent l'accent sur la distribution de la proximité et de la distance comme source de pouvoir.

Considérons maintenant le réseau de cercles en termes de proximité d'acteurs. Chaque acteur se trouve à des distances différentes des autres acteurs, mais tous les acteurs ont des distributions identiques de proximité, et là encore semblent être égaux en termes de leurs positions structurelles. Dans le réseau linéaire, l'acteur médian (D) est plus proche de tous les autres acteurs que ne le sont l'ensemble C,E, l'ensemble B,F et l'ensemble A,G. Là encore, les acteurs en bout de ligne, ou en périphérie, sont désavantagés.

Intermédiaire : La troisième raison pour laquelle l'acteur A est avantagé dans le réseau d'étoiles est que l'acteur A se situe entre des paires d'acteurs et aucun autre acteur ne se situe entre A et les autres acteurs. Si A veut contacter F, A peut simplement le faire. Si F veut contacter B, il doit le faire via A. Cela donne à l'acteur A la capacité de négocier des contacts entre d'autres acteurs - d'extraire des "frais de service" et d'isoler les acteurs ou d'empêcher les contacts. Le troisième aspect d'une position structurellement avantagée est donc d'être entre d'autres acteurs.

Dans le réseau de cercles, chaque acteur se situe entre les autres paires d'acteurs. En fait, il y a deux chemins reliant chaque paire d'acteurs, et chaque troisième acteur repose sur l'un, mais pas sur l'autre. Encore une fois, tous les acteurs sont également avantagés ou désavantagés. Dans le réseau de lignes, nos points d'extrémité (A, G) ne se situent entre aucune paire et n'ont aucun pouvoir de courtage. Les acteurs plus proches du milieu de la chaîne se situent sur plus de chemins parmi les paires et sont à nouveau dans une position privilégiée.

Chacune de ces trois idées - degré, proximité et interdépendance - a été élaborée de plusieurs manières. Nous examinerons brièvement trois de ces élaborations ici.

Les analystes de réseau sont plus susceptibles de décrire leurs approches comme des descriptions de la centralité que du pouvoir. Chacune des trois approches (degré, proximité, interdépendance) décrit les emplacements des individus en fonction de leur proximité avec le "centre" de l'action dans un réseau - bien que les définitions de ce que cela signifie d'être au centre diffèrent. Il est plus correct de décrire les approches de réseau de cette façon - des mesures de centralité - que comme des mesures de pouvoir. Mais, comme nous l'avons suggéré ici, il y a plusieurs raisons pour lesquelles les positions centrales ont tendance à être des positions puissantes.

Les acteurs qui ont plus de liens avec d'autres acteurs peuvent être des positions privilégiées. Parce qu'ils ont de nombreux liens, ils peuvent avoir d'autres moyens de satisfaire leurs besoins et sont donc moins dépendants des autres individus. Parce qu'ils ont de nombreux liens, ils peuvent avoir accès et être en mesure de faire appel à davantage de ressources du réseau dans son ensemble. Parce qu'ils ont de nombreux liens, ils sont souvent des tiers et des négociateurs dans les échanges entre autres, et peuvent bénéficier de ce courtage. Ainsi, une mesure très simple, mais souvent très efficace, de la centralité et du potentiel de pouvoir d'un acteur est son degré.

Dans les données non dirigées, les acteurs ne diffèrent les uns des autres que par le nombre de connexions qu'ils ont. Avec les données dirigées, cependant, il peut être important de distinguer la centralité basée sur le degré d'entrée de la centralité basée sur le degré de sortie. Si un acteur reçoit de nombreuses cravates, on dit souvent qu'elles sont important, ou avoir un grand prestige . C'est-à-dire que de nombreux autres acteurs cherchent à établir des liens avec eux, ce qui peut indiquer leur importance. Les acteurs qui ont un hors-diplôme inhabituellement élevé sont des acteurs capables d'échanger avec beaucoup d'autres, ou de faire prendre conscience à beaucoup d'autres de leur point de vue. Les acteurs qui font preuve d'une centralité supérieure à un degré élevé sont souvent considérés comme des acteurs influents.

Rappelons les données de Knoke sur les échanges d'informations entre les organisations opérant dans le domaine de la protection sociale, illustrées à la figure 10.1.

Graphique 10.4. Le réseau d'échange d'informations de Knoke

Le simple fait de compter le nombre de liens entrants et sortants des nœuds suggère que certains acteurs sont ici plus "centraux" (par exemple 2, 5, 7). It also appears that this network as a whole may have a group of central actors, rather than a single "star." We can see "centrality" as an attribute of individual actors as a consequence of their position we can also see how "centralized" the graph as a whole is -- how unequal is the distribution of centrality.

table of contents Degree centrality: Freeman's approach

Linton Freeman (one of the authors of UCINET) developed basic measures of the centrality of actors based on their degree, and the overall centralization of graphs.

Figure 10.5 shows the output of Network>Centrality>Degree applied to out-degrees and to the in-degrees of the Knoke information network. The centrality can also be computed ignoring the direction of ties (i.e. a tie in either direction is counted as a tie).

Figure 10.5. Freeman degree centrality and graph centralization of Knoke information network

Actors #5 and #2 have the greatest out-degrees, and might be regarded as the most influential (though it might matter to whom they are sending information, this measure does not take that into account). Actors #5 and #2 are joined by #7 (the newspaper) when we examine in-degree. That other organizations share information with these three would seem to indicate a desire on the part of others to exert influence. This is an act of deference, or a recognition that the positions of actors 5, 2, and 7 might be worth trying to influence. If we were interested in comparing across networks of different sizes or densities, it might be useful to "standardize" the measures of in and out-degree. In the last two columns of the first panel of results above, all the degree counts have been expressed as percentages of the number of actors in the network, less one (ego).

The next panel of results speaks to the "meso" level of analysis. That is, what does the distribution of the actor's degree centrality scores look like? On the average, actors have a degree of 4.9, which is quite high, given that there are only nine other actors. We see that the range of in-degree is slightly larger (minimum and maximum) than that of out-degree, and that there is more variability across the actors in in-degree than out-degree (standard deviations and variances). The range and variability of degree (and other network properties) can be quite important, because it describes whether the population is homogeneous or heterogeneous in structural positions. One could examine whether the variability is high or low relative to the typical scores by calculating the coefficient of variation (standard deviation divided by mean, times 100) for in-degree and out-degree. By the rules of thumb that are often used to evaluate coefficients of variation, the current values (35 for out-degree and 53 for in-degree) are moderate. Clearly, however, the population is more homogeneous with regard to out-degree (influence) than with regard to in-degree (prominence).

The last bit of information provided by the output above are Freeman's graph centralization measures , which describe the population as a whole -- the macro level. These are very useful statistics, but require a bit of explanation.

Remember our "star" network from the discussion above (if not, go review it)? The star network is the most centralized or most unequal possible network for any number of actors. In the star network, all the actors but one have degree of one, and the "star" has degree of the number of actors, less one. Freeman felt that it would be useful to express the degree of variability in the degrees of actors in our observed network as a percentage of that in a star network of the same size. This is how the Freeman graph centralization measures can be understood: they express the degree of inequality or variance in our network as a percentage of that of a perfect star network of the same size. In the current case, the out-degree graph centralization is 51% and the in-degree graph centralization 38% of these theoretical maximums. We would arrive at the conclusion that there is a substantial amount of concentration or centralization in this whole network. That is, the power of individual actors varies rather substantially, and this means that, overall, positional advantages are rather unequally distributed in this network.

table of contents Degree centrality: Bonacich's approach

Phillip Bonacich proposed a modification of the degree centrality approach that has been widely accepted as superior to the original measure. Bonacich's idea, like most good ones, is pretty simple. The original degree centrality approach argues that actors who have more connections are more likely to be powerful because they can directly affect more other actors. This makes sense, but having the same degree does not necessarily make actors equally important.

Suppose that Bill and Fred each have five close friends. Bill's friends, however, happen to be pretty isolated folks, and don't have many other friends, save Bill. In contrast, Fred's friends each also have lots of friends, who have lots of friends, and so on. Who is more central? We would probably agree that Fred is, because the people he is connected to are better connected than Bill's people. Bonacich argued that one's centrality is a function of how many connections one has, and how many the connections the actors in the neighborhood had.

While we have argued that more central actors are more likely to be more powerful actors, Bonacich questioned this idea. Compare Bill and Fred again. Fred is clearly more central, but is he more powerful? One argument would be that one is likely to be more influent if one is connected to central others -- because one can quickly reach a lot of other actors with one's message. But if the actors that you are connected to are, themselves, well connected, they are not highly dependent on you -- they have many contacts, just as you do. If, on the other hand, the people to whom you are connected are not, themselves, well connected, then they are dependent on you. Bonacich argued that being connected to connected others makes an actor central, but not powerful. Somewhat ironically, being connected to others that are not well connected makes one powerful, because these other actors are dependent on you -- whereas well connected actors are not.

Bonacich proposed that both centrality and power were a function of the connections of the actors in one's neighborhood. The more connections the actors in your neighborhood have, the more central you are. The fewer the connections the actors in your neighborhood, the more powerful you are. There would seem to be a problem with building an algorithms to capture these ideas. Suppose A and B are connected. Actor A's power and centrality are functions of her own connections, and also the connections of actor B. Similarly, actor B's power and centrality depend on actor A's. So, each actor's power and centrality depends on each other actor's power simultaneously.

There is a way out of this chicken-and-egg type of problem. Bonacich showed that, for symmetric systems, an iterative estimation approach to solving this simultaneous equations problem would eventually converge to a single answer. One begins by giving each actor an estimated centrality equal to their own degree, plus a weighted function of the degrees of the actors to whom they were connected. Then, we do this again, using the first estimates (i.e. we again give each actor an estimated centrality equal to their own first score plus the first scores of those to whom they are connected). As we do this numerous times, the relative sizes (not the absolute sizes) of all actors scores will come to be the same. The scores can then be re-expressed by scaling by constants.

Let's examine the centrality and power scores for our information exchange data. First, we examine the case where the score for each actor is a positive function of their own degree, and the degrees of the others to whom they are connected. We do this by selecting a positive weight of the "attenuation factor" or Beta parameter) in the dialog of Network>Centrality>Power , as shown in figure 10.6.

Figure 10.6. Dialog for computing Bonacich's power measures

The "attenuation factor" indicates the effect of one's neighbor's connections on ego's power. Where the attenuation factor is positive (between zero and one), being connected to neighbors with more connections makes one powerful. This is a straight-forward extension of the degree centrality idea.

Bonacich also had a second idea about power, based on the notion of "dependency." If ego has neighbors who do not have many connections to others, those neighbors are likely to be dependent on ego, making ego more powerful. Negative values of the attenuation factor (between zero and negative one) compute power based on this idea.

Figures 10.7 and 10.8 show the Bonacich measures for positive and negative beta values.

Figure 10.7. Network>Centrality>Power with beta = + .50

If we look at the absolute value of the index scores, we see the familiar story. Actors #5 and #2 are clearly the most central. This is because they have high degree, and because they are connected to each other, and to other actors with high degree. Actors 8 and 10 also appear to have high centrality by this measure -- this is a new result. In these case, it is because the actors are connected to all of the other high degree points. These actors don't have extraordinary numbers of connections, but they have "the right connections."

Let's take a look at the power side of the index, which is calculated by the same algorithm, but gives negative weights to connections with well connected others, and positive weights for connections to weakly connected others.

Figure 10.8. Network>Centrality>Power with beta = - .50

Not surprisingly, these results are very different from many of the others we've examined. With a negative attenuation parameter, we have a quite different definition of power -- having weak neighbors, rather than strong ones. Actors numbers 2 and 6 are distinguished because their ties are mostly ties to actors with high degree -- making actors 2 and 6 "weak" by having powerful neighbors. Actors 3, 7, and 9 have more ties to neighbors who have few ties -- making them "strong" by having weak neighbors. You might want to scan the diagram again to see if you can see these differences.

The Bonacich approach to degree based centrality and degree based power are fairly natural extensions of the idea of degree centrality based on adjacencies. One is simply taking into account the connections of one's connections, in addition to one's own connections. The notion that power arises from connection to weak others, as opposed to strong others is an interesting one, and points to yet another way in which the positions of actors in network structures endow them with different potentials.

Degree centrality measures might be criticized because they only take into account the immediate ties that an actor has, or the ties of the actor's neighbors, rather than indirect ties to all others. One actor might be tied to a large number of others, but those others might be rather disconnected from the network as a whole. In a case like this, the actor could be quite central, but only in a local neighborhood.

Closeness centrality approaches emphasize the distance of an actor to all others in the network by focusing on the distance from each actor to all others. Depending on how one wants to think of what it means to be "close" to others, a number of slightly different measures can be defined.

Network>Centrality>Closeness provides a number of alternative ways of calculating the "far-ness" of each actor from all others. Far-ness is the sum of the distance (by various approaches) from each ego to all others in the network.

"Far-ness" is then transformed into "nearness" as the reciprocal of farness. That is, nearness = one divided by farness. "Nearness" can be further standardized by norming against the minimum possible nearness for a graph of the same size and connection.

Given a measure of nearness or farness for each actor, we can again calculate a measure of inequality in the distribution of distances across the actors, and express "graph centralization" relative to that of the idealized "star" network.

Figure 10.9 shows a dialog for calculating closeness measures of centrality and graph centralization.

Figure 10.9. Dialog for Network>Centrality>Closeness

Several alternative approaches to measuring "far-ness" are available in the type setting. The most common is probably the geodesic path distance. Here, "far-ness" is the sum of the lengths of the shortest paths from ego (or to ego) from all other nodes. Alternatively, the réciproque of this, or "near-ness" can be calculated. Alternatively, one may focus on all paths, not just geodesics, or all trails. Figure 10.10 shows the results for the Freeman geodesic path approach.

Figure 10.10. Geodesic path closeness centrality for Knoke information network

Since the information network is directed, separate close-ness and far-ness can be computed for sending and receiving. We see that actor 6 has the largest sum of geodesic distances from other actors (inFarness of 22) and to other actors (outFarness of 17). The farness figures can be re-expressed as nearness (the reciprocal of far-ness) and normed relative to the greatest nearness observed in the graph (here, the inCloseness of actor 7).

Summary statistics on the distribution of the nearness and farness measures are also calculated. We see that the distribution of out-closeness has less variability than in-closeness, for example. This is also reflected in the graph in-centralization (71.5%) and out-centralization (54.1%) measures that is, in-distances are more un-equally distributed than are out-distances.

table of contents Closeness: Reach

Another way of thinking about how close an actor is to all others is to ask what portion of all others ego can reach in one step, two steps, three steps, etc. The routine Network>Centrality>Reach Centrality calculates some useful measures of how close each actor is to all others. Figure 10.11 shows the results for the Knoke information network.

Figure 10.11. Reach centrality for Knoke information network

An index of the "reach distance" from each ego to (or from) all others is calculated. Here, the maximum score (equal to the number of nodes) is achieved when every other is one-step from ego. The reach closeness sum becomes less as actors are two steps, three steps, and so on (weights of 1/2, 1/3, etc.). These scores are then expressed in "normed" form by dividing by the largest observed reach value.

The final two tables are quite easy to interpret. The first of these shows what proportion of other nodes can be reached from each actor at one, two, and three steps (in our example, all others are reachable in three steps or less). The last table shows what proportions of others can reach ego at one, two, and three steps. Note that everyone can contact the newspaper (actor 7) in one step.

table of contents Closeness: Eigenvector of geodesic distances

The closeness centrality measure described above is based on the sum of the geodesic distances from each actor to all others (farness). In larger and more complex networks than the example we've been considering, it is possible to be somewhat misled by this measure. Consider two actors, A and B. Actor A is quite close to a small and fairly closed group within a larger network, and rather distant from many of the members of the population. Actor B is at a moderate distance from all of the members of the population. The farness measures for actor A and actor B could be quite similar in magnitude. In a sense, however, actor B is really more "central" than actor A in this example, because B is able to reach more of the network with same amount of effort.

The eigenvector approach is an effort to find the most central actors (i.e. those with the smallest farness from others) in terms of the "global" or "overall" structure of the network, and to pay less attention to patterns that are more "local." The method used to do this (factor analysis) is beyond the scope of the current text. In a general way, what factor analysis does is to identify "dimensions" of the distances among actors. The location of each actor with respect to each dimension is called an "eigenvalue," and the collection of such values is called the "eigenvector." Usually, the first dimension captures the "global" aspects of distances among actors second and further dimensions capture more specific and local sub-structures.

The UCINET Network>Centrality>Eigenvector routine calculates individual actor centrality, and graph centralization using weights on the first eigenvector. A limitation of the routine is that it does not calculate values for asymmetric data. So, our measures here are based on the notion of "any connection."

Figure 10.12. Eigenvector centrality and centralization for Knoke information network

The first set of statistics, the eigenvalues, tell us how much of the overall pattern of distances among actors can be seen as reflecting the global pattern (the first eigenvalue), and more local, or additional patterns. We are interested in the percentage of the overall variation in distances that is accounted for by the first factor. Here, this percentage is 74.3%. This means that about 3/4 of all of the distances among actors are reflective of the main dimension or pattern. If this amount is not large (say over 70%), great caution should be exercised in interpreting the further results, because the dominant pattern is not doing a very complete job of describing the data. The first eigenvalue should also be considerably larger than the second (here, the ratio of the first eigenvalue to the second is about 5.6 to 1). This means that the dominant pattern is, in a sense, 5.6 times as "important" as the secondary pattern.

Next, we turn our attention to the scores of each of the cases on the 1st eigenvector. Higher scores indicate that actors are "more central" to the main pattern of distances among all of the actors, lower values indicate that actors are more peripheral. The results are very similar to those for our earlier analysis of closeness centrality, with actors #7, #5, and #2 being most central, and actor #6 being most peripheral. Usually the eigenvalue approach will do what it is supposed to do: give us a "cleaned-up" version of the closeness centrality measures, as it does here. It is a good idea to examine both, and to compare them.

Last, we examine the overall centralization of the graph, and the distribution of centralities. There is relatively little variability in centralities (standard deviation .07) around the mean (.31). This suggests that, overall, there are not great inequalities in actor centrality or power, when measured in this way. Compared to the pure "star" network, the degree of inequality or concentration of the Knoke data is only 20.9% of the maximum possible. This is much less than the network centralization measure for the "raw" closeness measure (49.3), and suggests that some of the apparent differences in power using the raw closeness approach may be due more to local than to global inequalities.

Geodesic distances among actors are a reasonable measure of one aspect of centrality -- or positional advantage. Sometimes these advantages may be more local, and sometimes more global. The factor-analytic approach is one approach that may sometimes help us to focus on the more global pattern. Again, it is not that one approach is "right" and the other "wrong." Depending on the goals of our analysis, we may wish to emphasize one or the other aspects of the positional advantages that arise from centrality.

table of contents Closeness: Hubbell, Katz, Taylor, Stephenson and Zelen influence measures

The geodesic closeness and eigenvalue approaches consider the closeness of connection to all other actors, but only by the "most efficient" path (the geodesic). In some cases, power or influence may be expressed through all of the pathways that connect an actor to all others. Several measures of closeness based on all connections of ego to others are available from Network>Centrality>Influence .

Even if we want to include all connections between two actors, it may not make a great deal of sense to consider a path of length 10 as important as a path of length 1. The Hubbell and Katz approaches count the total connections between actors (ties for undirected data, both sending and receiving ties for directed data). Each connection, however, is given a weight, according to its length. The greater the length, the weaker the connection. How much weaker the connection becomes with increasing length depends on an "attenuation" factor. In our example, below, we have used an attenuation factor of .5. That is, an adjacency receives a weight of one, a walk of length two receives a weight of .5, a connection of length three receives a weight of .5 squared (.25) etc. The Hubbell and Katz approaches are very similar. Katz includes an identity matrix (a connection of each actor with itself) as the strongest connection the Hubbell approach does not. As calculated by UCINET, both approaches "norm" the results to range from large negative distances (that is, the actors are very close relative to the other pairs, or have high cohesion) to large positive numbers (that is, the actors have large distance relative to others). The results of the Hubbell and Katz approaches are shown in figure 10.13 and 10.14.

Figure 10.13. Hubbell dyadic influence for the Knoke information network

Figure 10.14. Katz dyadic influence for the Knoke information network

As with all measures of pair-wise properties, one could analyze the data much further. We could see which individuals are similar to which others (that is, are there groups or strata defined by the similarity of their total connections to all others in the network?). Our interest might also focus on the whole network, where we might examine the degree of variance, and the shape of the distribution of the dyads connections. For example, a network in with the total connections among all pairs of actors might be expected to behave very differently than one where there are radical differences among actors.

The Hubbell and Katz approach may make most sense when applied to symmetric data, because they pay no attention to the directions of connections (i.e. A's ties directed to B are just as important as B's ties to A in defining the distance or solidarity -- closeness-- between them). If we are more specifically interested in the influence of A on B in a directed graph, the Taylor influence approach provides an interesting alternative.

The Taylor measure, like the others, uses all connections, and applies an attenuation factor. Rather than standardizing on the whole resulting matrix, however, a different approach is adopted. The column marginals for each actor are subtracted from the row marginals, and the result is then normed (what did he say?!). Translated into English, we look at the balance between each actors sending connections (row marginals) and their receiving connections (column marginals). Positive values then reflect a preponderance of sending over receiving to the other actor of the pair -- or a balance of influence between the two. Note that the newspaper (#7) shows as being a net influencer with respect to most other actors in the result below, while the welfare rights organization (#6) has a negative balance of influence with most other actors. The results for the Knoke information network are shown in figure 10.15.

Figure 10.15. Taylor dyadic influence for the Knoke information network

Yet another measure based on attenuating and norming all pathways between each actor and all others was proposed by Stephenson and Zelen, and can be computed with Network>Centrality>Information . This measure, shown in figure 10.16, provides a more complex norming of the distances from each actor to each other, and summarizes the centrality of each actor with the harmonic mean of its distance to the others.

The (truncated) top panel shows the dyadic distance of each actor to each other. The summary measure is shown in the middle panel, and information about the distribution of the centrality scores is shown in the statistics section.

As with most other measures, the various approaches to the distance between actors and in the network as a whole provide a menu of choices. No one definition to measuring distance will be the "right" choice for a given purpose. Sometimes we don't really know, before hand, what approach might be best, and we may have to try and test several.

Suppose that I want to influence you by sending you information, or make a deal to exchange some resources. But, in order to talk to you, I must go through an intermediary. For example, let's suppose that I wanted to try to convince the Chancellor of my university to buy me a new computer. According to the rules of our bureaucratic hierarchy, I must forward my request through my department chair, a dean, and an executive vice chancellor. Each one of these people could delay the request, or even prevent my request from getting through. This gives the people who lie "between" me and the Chancellor power with respect to me. To stretch the example just a bit more, suppose that I also have an appointment in the school of business, as well as one in the department of sociology. I might forward my request to the Chancellor by both channels. Having more than one channel makes me less dependent, and, in a sense, more powerful.

For networks with binary relations, Freeman created some measures of the centrality of individual actors based on their betweenness, as well overall graph centralization. Freeman, Borgatti, and White extended the basic approach to deal with valued relations.

Betweenness: Freeman's approach to binary relations

With binary data, betweenness centrality views an actor as being in a favored position to the extent that the actor falls on the geodesic paths between other pairs of actors in the network. That is, the more people depend on me to make connections with other people, the more power I have. If, however, two actors are connected by more than one geodesic path, and I am not on all of them, I lose some power. Using the computer, it is quite easy to locate the geodesic paths between all pairs of actors, and to count up how frequently each actor falls in each of these pathways. If we add up, for each actor, the proportion of times that they are "between" other actors for the sending of information in the Knoke data, we get the a measure of actor centrality. We can norm this measure by expressing it as a percentage of the maximum possible betweenness that an actor could have had. Network>Centrality>Betweenness>Nodes can be used to calculate Freeman's betweenness measures for actors. The results for the Knoke information network are shown in figure 10.17.

Figure 10.17. Freeman node betweenness for Knoke information network

We can see that there is a lot of variation in actor betweenness (from zero to 17.83), and that there is quite a bit of variation (std. dev. = 6.2 relative to a mean betweenness of 4.8). Despite this, the overall network centralization is relatively low. This makes sense, because we know that fully one half of all connections can be made in this network without the aid of any intermediary -- hence there cannot be a lot of "betweenness." In the sense of structural constraint, there is not a lot of "power" in this network. Actors #2, #3, and #5 appear to be relatively a good bit more powerful than others by this measure. Clearly, there is a structural basis for these actors to perceive that they are "different" from others in the population. Indeed, it would not be surprising if these three actors saw themselves as the movers-and-shakers, and the deal-makers that made things happen. In this sense, even though there is not very much betweenness power in the system, it could be important for group formation and stratification.

Another way to think about betweenness is to ask which relations are most central, rather than which actors. Freeman's definition can be easily applied: a relation is between to the extent that it is part of the geodesic between pairs of actors. Using this idea, we can calculate a measure of the extent to which each relation in a binary graph is between. In UCINET, this is done with Network>Centrality>Betweenness>Lines (edges) . The results for the Knoke information network are shown in figure 10.18.

Figure 10.18. Freeman edge betweenness for Knoke information network

A number of the relations (or potential relations) between pairs of actors are not parts of any geodesic paths (e.g. the relation from actor 1 to actor 3). Betweenness is zero if there is no tie, or if a tie that is present is not part of any geodesic paths. There are some quite central relations in the graph. For example, the tie from the board of education (actor 3) to the welfare rights organization (actor 6). This particular high value arises because without the tie to actor 3, actor 6 would be largely isolated.

Suppose A has ties to B and C. B has ties to D and E C has ties to F and G. Actor "A" will have high betweenness, because it connects two branches of ties, and lies on many geodesic paths. Actors B and C also have betweenness, because they lie between A and their "subordinates." But actors D, E, F, and G have zero betweenness.

One way of identifying hierarchy in a set of relations is to locate the "subordinates." These actors will be ones with no betweenness. If we then remove these actors from the graph, some of the remaining actors won't be between any more -- so they are one step up in the hierarchy. We can continue doing this "hierarchical reduction" until we've exhausted the graph what we're left with is a map of the levels of the hierarchy.

Network>Centrality>Betweenness>Hierarchical Reduction is an algorithm that identifies which actors fall at which levels of a hierarchy (if there is one). Since there is very little hierarchy in the Knoke data, we've illustrated this instead with a network of large donors to political campaigns in California, who are "connected" if they contribute to the same campaign. A part of the results is shown in figure 10.19.

Figure 10.19. Hierarchical reduction by betweenness for California political donors (truncated)

In these data, it turns out that a three-level hierarchy can be identified. The first portion of the output shows a partition (which can be saved as a file, and used as an attribute to color a graph) of the node's level in the hierarchy. The first two nodes, for example, are at the lowest level (1) of the hierarchy, while the third node is at the third level. The second portion of the output has re-arranged the nodes to show which actors are included at the lowest betweenness (level one, or everyone) which drop out at level 2 (that is, are most subordinate, e.g. actors 1, 2, 52) and successive levels. Our data has a hierarchical depth of only three.

table of contents Betweenness: Flow centrality

The betweenness centrality measure we examined above characterizes actors as having positional advantage, or power, to the extent that they fall on the shortest (geodesic) pathway between other pairs of actors. The idea is that actors who are "between" other actors, and on whom other actors must depend to conduct exchanges, will be able to translate this broker role into power.

Suppose that two actors want to have a relationship, but the geodesic path between them is blocked by a reluctant broker. If there exists another pathway, the two actors are likely to use it, even if it is longer and "less efficient." In general, actors may use all of the pathways connecting them, rather than just geodesic paths. The flow approach to centrality expands the notion of betweenness centrality. It assumes that actors will use all pathways that connect them, proportionally to the length of the pathways. Betweenness is measured by the proportion of the entire flow between two actors (that is, through all of the pathways connecting them) that occurs on paths of which a given actor is a part. For each actor, then, the measure adds up how involved that actor is in all of the flows between all other pairs of actors (the amount of computation with more than a couple actors can be pretty intimidating!). Since the magnitude of this index number would be expected to increase with sheer size of the network and with network density, it is useful to standardize it by calculating the flow betweenness of each actor in ratio to the total flow betweenness that does not involve the actor.

The algorithm Network>Centrality>Flow Betweenness calculates actor and graph flow betweenness centrality measures. Results of applying this to the Knoke information network are shown in figure 10.20.

Figure 10.20. Flow betweenness centrality for Knoke information network

By this more complete measure of betweenness centrality, actors #2 and #5 are clearly the most important mediators. Actor #3, who was fairly important when we considered only geodesic flows, appears to be rather less important. While the overall picture does not change a great deal, the elaborated definition of betweenness does give us a somewhat different impression of who is most central in this network.

Some actors are clearly more central than others, and the relative variability in flow betweenness of the actors is fairly great (the standard deviation of normed flow betweenness is 8.2 relative to a mean of 9.2, giving a coefficient of relative variation). Despite this relatively high amount of variation, the degree of inequality, or concentration in the distribution of flow betweenness centralities among the actors is fairly low -- relative to that of a pure star network (the network centralization index is 25.6%). This is slightly higher than the index for the betweenness measure that was based only on geodesic distances.

Social network analysis methods provide some useful tools for addressing one of the most important (but also one of the most complex and difficult), aspects of social structure: the sources and distribution of power. The network perspective suggests that the power of individual actors is not an individual attribute, but arises from their relations with others. Whole social structures may also be seen as displaying high levels or low levels of power as a result of variations in the patterns of ties among actors. And, the degree of inequality or concentration of power in a population may be indexed.

Power arises from occupying advantageous positions in networks of relations. Three basic sources of advantage are high degree, high closeness, and high betweenness. In simple structures (such as the star, circle, or line), these advantages tend to covary. In more complex and larger networks, there can be considerable disjuncture between these characteristics of a position-- so that an actor may be located in a position that is advantageous in some ways, and disadvantageous in others.

We have reviewed three basic approaches to the "centrality" of individuals positions, and some elaborations on each of the three main ideas of degree, closeness, and betweenness. This review is not exhaustive. The question of how structural position confers power remains a topic of active research and considerable debate. As you can see, different definitions and measures can capture different ideas about where power comes from, and can result in some rather different insights about social structures.

In the last chapter and this one, we have emphasized that social network analysis methods give us, at the same time, views of individuals and of whole populations. One of the most enduring and important themes in the study of human social organization, however, is the importance of social units that lie between the the two poles of individuals and whole populations. In the next chapter, we will turn our attention to how network analysis methods describe and measure the differentiation of sub-populations.

1. What is the difference between "centrality" and "centralization?"

2. Why is an actor who has higher degree a more "central" actor?

3. How does Bonacich's influence measure extend the idea of degree centrality?

4. Can you explain why an actor who has the smallest sum of geodesic distances to all other actors is said to be the most "central" actor, using the "closeness" approach?

5. How does the "flow" approach extend the idea of "closeness" as an approach to centrality?

6. What does it mean to say that an actor lies "between" two other actors? Why does betweenness give an actor power or influence?

7. How does the "flow" approach extend the idea of "betweenness" as an approach to centrality?

8. Most approaches suggest that centrality confers power and influence. Bonacich suggests that power and influence are not the same thing. What is Bonacich' arguement? How does Bonacich measure the power of an actor?

1. Think of the readings from the first part of the course. Which studies used the ideas of structural advantage, centrality, power and influence? What kinds of approach did each use: degree, closeness, or betweenness?

2. Can you think of any circumstances where being "central" might make one less influential? less powerful?

3. Consider a directed network that describes a hierarchical bureaucracy, where the relationship is "gives orders to." Which actors have highest degree? are they the most powerful and influential? Which actors have high closeness? Which actors have high betweenness?

4. Can you think of a real-world example of an actor who might be powerful but not central? who might be central, but not powerful?


Websites

DiMaggio, C. (2013). P9489 Practicals and exercises. Part III: Spatial analysis in R. Retrieved from:http://www.columbia.edu/

Part III provides introduces R users to the sp package and other spatial data analysis functions in R including practical examples for creating choropleth maps.

Levine, N. (2013). CrimeStat IV: A spatial statistics program for the analysis of crime incident locations. Ned Levine & Associates, Houston, TX and the National Institute of Justice, Washington, DC. Retrieved from: https://www.icpsr.umich.edu/CrimeStat/download.html.

CrimeStat Version 4.0 documentation including chapters on spatial autocorrelation and distance statistics.