Méthodes – GéoScimo

Base de données

Le Web of Science Core Collection a été la source à partir de laquelle notre méthode de scientométrie spatiale a été mise au point. La délimitation des agglomérations scientifiques a été réalisée en tenant compte de la localisation des adresses institutionnelles des auteurs dont la production a été recensée dans la base entre 1999 et 2012.

Géocodage

Pour le géocodage des adresses de publication, nous avons utilisé des outils de géocodage en ligne. Ces outils interrogent les données GPS pour associer un couple de coordonnées géographiques (latitude, longitude) à chaque localité dont on recherche la localisation exacte. Le plus souvent, les services de l’API Google Maps ont été privilégiés. Ils se sont révélés plus complets que ceux des autres applications de géocodage en ligne.

Agglomérations scientifiques

Pour simplifier et réaliser des analyses robustes à l’échelle mondiale, les localités géocodées ont été groupées au sein d’« agglomérations scientifiques » (par exemple Gif sur Yvette a été intégrée dans l’agglomération parisienne). Cette opération a été effectuée en deux temps : premièrement, les périmètres d’agrégation définis autour des 500 localités produisant le plus de publications en 2008 ont été réalisés de façon semi-automatique en tenant compte de la répartition de la population, qui est un critère dont on connaît la valeur sur toute l’étendue du globe terrestre avec une assez bonne précision (données CIESIN) ; et deuxièmement, les localités ayant le moins participé à la production scientifique mondiale ont été soumises à une procédure automatique permettant de regrouper entre elles toutes les localités situées dans un périmètre inférieur à 40 km.

Comptages

Stock de publications par agglomérations

Après avoir défini les unités élémentaires d’analyse, il reste à y associer des volumes de production scientifique. Nous avons opté pour un mode de comptage fractionné des publications appelé « Whole Normalized Counting » en prenant les agglomérations pour unité élémentaire d’analyse (Gauffriau et al., 2008). En cas de co-publications, cela revient à attribuer une valeur fractionnée à chaque agglomération ayant contribué à la publication multi-localisée. Plus précisément, chaque agglomération reçoit une fraction comme crédit pour sa contribution qui est égale à un divisé par le nombre d’agglomérations co-publiantes.

Si pour un article donné, il y a trois adresses à Toulouse, deux adresses dans la périphérie de Toulouse, une adresse à Paris et deux dans sa périphérie (8 adresses au total) et si le niveau élémentaire d’analyse est l’agglomération, alors l’agglomération de Paris et celle de Toulouse reçoivent respectivement un poids de 0,5 chacune. Cette méthode permet de se concentrer uniquement sur le nombre d’unités spatiales de base qui contribuent à la publication sans prêter attention au nombre d’adresses totales qui se rattachent respectivement à chaque unité spatiale. Cette première approche vise à mesurer des stocks de publications par lieu.

Liens entre agglomérations

Lorsque les analyses portent sur les données relationnelles issues des co-signatures d’articles entre plusieurs lieux, la même méthode (« Whole Normalized Counting ») permet d’estimer la valeur des liens entre lieux. Cette seconde démarche est utile pour distinguer la part des liens intra-nationaux, internationaux, régionaux etc. parmi l’ensemble des collaborations. Pour ce faire, on considère la matrice des co-signatures entre agglomérations. Cette matrice est le résultat d’une manipulation algébrique permettant de passer d’une matrice de publications (publication x unité spatiale) à une matrice de collaborations (unité spatiale x unité spatiale) (Katz, 1994).

Pour une co-publication provenant de plusieurs agglomérations à la fois, chaque couple d’agglomérations reçoit une fraction comme crédit pour cette publication qui est égale à un divisé par le nombre de paires d’agglomérations impliquées.

Lorsqu’une publication est co-signée par des auteurs de n agglomérations, chaque paire d’agglomérations ou collaboration scientifique se voit attribuer une valeur égale à :

1/n(n-1)/2 = 2/n(n-1)

Grâce au fractionnement des valeurs, on peut alors simultanément faire toutes sortes de sommes en conservant le rapport avec le nombre réel de publications à l’échelle mondiale (puisque la somme des fractions est bien le nombre total de publications du corpus considéré).

Lissage des données

Pour chaque observation, nous utilisons la moyenne mobile sur 3 ans pour que la valeur considérée soit moins sensible aux petites fluctuations annuelles. Pour toute valeur x, la moyenne mobile d’ordre 3 pour l’année 2007 s’obtient à l’aide de la formule simple :

X₂₀₀₇ = (x₂₀₀₆+x₂₀₀₇+x₂₀₀₈)/3

Disciplines

Dix groupes disciplinaires sont distingués en s’appuyant sur les catégories de l’Observatoire des Sciences et Techniques :

Biologie Fondamentale
Médecine
Biologie Appliquée
Chimie
Physique
Sciences de l’Univers
Sciences de l’Ingénieur
Mathématiques
Arts et Humanités
Sciences Sociales