Depuis fin 2019, la recherche sur le Covid-19 se fait à grande vitesse et génère des coopérations internationales traduites par les co-signatures d’articles scientifiques. La Chine, foyer de l’épidémie, est le principal pays producteur de recherches sur le nouveau coronavirus, mais près de 60 pays sont impliqués au 6 avril 2020. Cette note revient sur la géographie de la recherche portant sur le Covid-19 et son évolution entre le 23 mars et le 6 avril 2020.
Préambule sur la production scientifique
La diffusion rapide du Covid-19, la nécessité de trouver des solutions pour enrayer l’épidémie et affronter ses conséquences expliquent que nous assistions à une mobilisation accélérée des scientifiques pour publier leurs résultats. Ces publications prennent la forme traditionnelle d’articles dans des revues à comité de lecture et celle, plus directe (car ne passant pas par le filtre de l’évaluation par un comité de lecture) de dépôts de pré-publications (preprints) sur des archives ouvertes (en particulier bioRxiv, medRxiv et ChemRxiv).
Du point de vue de la diffusion des connaissances, le secteur de l’édition académique en biomédecine, dominé par des acteurs privés enregistrant des marges impressionnantes (voir le chiffre d’affaire d’Elsevier ou Springer), s’est empressé de proposer une mise en accès ouvert de la littérature académique portant sur le thème du coronavirus (exemple chez Elsevier : https://www.elsevier.com/connect/coronavirus-initiatives). Exceptionnellement, le savoir produit par les chercheurs et chercheuses du monde entier est présenté comme un bien public et sa mise en accès ouvert se révèle indispensable pour une circulation mondiale et accélérée des connaissances.
Souhaitant que ces initiatives ne restent pas exceptionnelles et cantonnées au cas de la crise que nous traversons, Vincent Larivière, Fei Shu et Cassidy R. Sugimoto en appellent à une ouverture “sans délai” de la littérature académique (Larivière, Shu & Sugimoto, Février 2020).
Évidemment, cette course au vaccin et à la publication n’est pas dénuée de suspicions de fraudes et d’erreurs scientifiques dont témoigne le nombre d’articles et de preprints retirés (voir le site de suivi Retraction Watch) et de son lot de controverses scientifiques. L’affaire Raoult dans le domaine de la virologie a fait l’objet d’une couverture médiatique (et politique) suffisante pour en témoigner (La Science au temps du coronavirus, Gingras, 2020). Que l’on s’appuie sur la littérature publiée dans les revues à comité lecture ou sur les publications disponibles dans les archives ouvertes, il convient donc d’avoir un regard prudent sur les données actuellement disponibles au sujet de la recherche en lien avec le Covid-19.
Suivre la progression des recherches sur le COVID-19
Précautions prises, l’application web NETSCITY, mise en place à destination des chercheurs et chercheuses, spécialistes de l’information scientifique et journalistes scientifiques pour traiter les données issues des grandes bases de données bibliographiques, permet d’avoir un aperçu intéressant et rapide de la provenance des premières publications portant sur le Covid-19.
Cette application, en cours de développement, est déjà accessible en version beta à l’adresse : https://www.irit.fr/netscity. Elle a été conjointement développée par trois laboratoires CNRS : l’UMR Géographie-cités (Paris), l’UMR LISST et l’UMR IRIT (Toulouse) avec le soutien du groupe NETSCIENCE du LABEX Structuration des Mondes Sociaux (SMS).
Dans le cadre de la crise que nous traversons, cette application peut permettre de répondre aux questions suivantes :
- D’où viennent, depuis décembre 2019, les articles scientifiques qui ont pour mot-clef “COVID-19”, “2019-nCoV” ou “SARS-CoV-2” ?
- Cette géographie reflète-t-elle la géographie de l’épidémie ou observe-t-on des spécificités caractéristiques de la géographie traditionnelle du champ de la virologie avec un effort particulier des zones où se situent les laboratoires historiques de ce champ ?
- Que peut-on dire des coopérations scientifiques traduites par les co-signatures de publications ? Malgré l’épidémie et la fermeture des frontières, voit-on émerger des connexions entre chercheurs localisés dans des villes, pays, continents différents ?
Une première analyse, réalisée à partir des données du Web of Science à deux dates, celle du 23 mars 2020 et celle du 6 avril 2020, a permis de mettre en évidence la prééminence des publications en provenance de Chine et la croissance progressive des publications provenant d’autres zones, y compris l’espace sub-saharien – traditionnellement peu visible.
Voici le détail des données collectées suivi de quelques représentations graphiques extraites de NETSCITY.
Le 23 mars 2020, 197 publications étaient accessibles dans le WoS (SCI-EXPANDED, CPCI-S, ESCI) parmi lesquelles 70 articles évalués par les pairs, 65 éditoriaux, 35 lettres, 17 recensions, 9 brèves d’actualité, et 1 correction. A titre de comparaison, pour des requêtes similaires, Alexei Lutay trouvait le lendemain : 386 publications dans Scopus, 1262 dans Semantic Scholar et 1766 dans Dimensions. Dans la mesure où la couverture (le nombre de revues couvertes par le Wos reste plus limité, ces différences n’apparaissent pas étonnantes) (Lutay, mars 2020). D’un point de vue thématique, les principaux champs couverts par ces publications sont la médecine générale, la virologie, les maladies infectieuses, l’immunologie, la microbiologie, l’imagerie médicale et les maladies tropicales. La revue médicale Lancet est celle rassemblant le plus de publications à cette date (Tableau 1).
Le 6 avril 2020, la même requête dans le Web of Science renvoyait 442 publications (soit deux fois plus que 15 jours plus tôt). Parmi elles, 146 articles, 137 éditoriaux, 79 lettres, 41 brèves d’actualité, 34 recensions, et 5 corrections. Les champs de la pédiatrie, de la biologie et des soins intensifs occupent une place plus importante. Celui de la médecine tropicale devient plus marginal. Les principales contributions restent en médecine générale, maladies infectieuses et virologie. A cette date, le British Medical Journal (BMJ) passe devant Lancet en nombre de publications. Les trois premières revues du Web of Science publiant sur le sujet restent le BMJ, Lancet et Journal of Medical Virology (Tableau 2).
Venons en à présent à la géographie !
La géographie des recherches sur le COVID-19
Le 23 mars 2020
Au 23 mars, les publications qu’il est possible de renseigner géographiquement (177 parmi 197) proviennent de 39 pays différents (Tableau 3).
Les 5 premiers pays ont produit 69 % de l’ensemble des publications portant sur le sujet. Il s’agit, dans l’ordre décroissant, de la Chine, des États-Unis, du Royaume-Uni, de la Corée du Sud et de la Suisse. Ils sont suivis de près par l’Italie, l’Allemagne et la France (Carte 1).
La production provient de 159 aires urbaines distinctes. Les 55 premières agglomérations ont contribué à près de 80 % de la production (Tableau 4).
Grâce à NETSCITY, les données sont normalisées de sorte que lorsqu’une publication provient de plusieurs agglomérations différentes, chacune reçoit une fraction de publication proportionnelle au nombre d’agglomérations participantes. Pour réaliser ces statistiques, le niveau urbain considéré est celui de l’agglomération au sens où nous avons procédé à un regroupement de la ville-centre et de sa banlieue (voir la méthodologie expliquée ici). Il en ressort que les principales aires urbaines publiantes sont Wuhan, Beijing, Hong-Kong, Guangzhou et Séoul. La primauté de la ville de Wuhan et le fait que le top 5 soit asiatique témoigne du fait que la géographie de la recherche est ici directement liée à celle de l’épidémie (Carte 2). Ces agglomérations sont suivies par Londres, qui, à cette date, n’est pas la ville européenne la plus touchée par l’épidémie. Il faut donc y voir une place particulière de la capitale britannique dans les champs scientifiques concernés et en tant que siège de revues scientifiques (à cette date, la moitié des publications londoniennes sont des éditoriaux).
Parmi les 177 publications, 96 ont été signées depuis au moins deux agglomérations différentes et 10 ont été signées depuis plus de 6 agglomérations. Cette densité de co-publications permet de s’intéresser aux réseaux de coopérations entre lieux. Au niveau pays, les principaux liens de collaborations sont entre la Chine et le reste des pays du monde : États-Unis, Canada, Australie, Allemagne, Royaume-Uni, Belgique, France. Les scientifiques italiens ont, quant à eux, collaboré plus spécifiquement avec les États-Unis et le Brésil (Graphe 1).
Cliquer ici pour explorer le graphe de façon interactive
Au niveau interurbain, on note que les collaborations infranationales sont prépondérantes (en Chine : lien Wuhan – Beijing et Wuhan – Shanghai ; en France : lien Paris – Bordeaux – villes des premiers patients atteints du Coronavirus dans le pays ; en Corée : lien Séoul – Taejon/Daejeon). On enregistre ensuite des coopérations internationales renouvelées entre Philadelphie et Guangzhou, entre Bangkok et Singapour, entre Taipei et Wuhan, entre Rome et Rio, entre Atlanta et Riyadh, entre New Haven et Sydney, entre Copenhague et Porto, entre Paris et Wuhan, ainsi qu’entre Genève et Shanghai (Graphe 2).
Cliquer ici pour explorer le graphe de façon interactive
Le 6 avril 2020
Au 6 Avril, les publications qu’il est possible de renseigner géographiquement (381 parmi 442) proviennent de 57 pays différents (Tableau 5).
Les 5 premiers pays font cette fois-ci 66 % de l’ensemble des publications portant sur le sujet, ce qui indique que la production est moins concentrée que 15 jours plus tôt. Les trois premiers pays restent la Chine, les États-Unis, et le Royaume-Uni. En revanche, la Corée du Sud et la Suisse sont dépassées par l’Italie, pays européen le plus touché par l’épidémie, et par l’Allemagne (Carte 3).
La production provient de 262 aires urbaines distinctes (c’est 100 de plus que 15 jours plus tôt !). Les 54 premières agglomérations ont contribué à près de 70 % de la production indiquant aussi un mouvement de déconcentration de la production entre villes (Tableau 4).
Les principales aires urbaines publiantes sont Wuhan, Beijing, Shanghai, Hong-Kong, et Guangzhou. Londres et Singapour passent devant Séoul, qui était la cinquième ville la plus publiante 15 jours plus tôt (Carte 4). Le nombre normalisé de publications de Tokyo passe de 1 à 5 ce qui propulse l’agglomération japonaise parmi les 10 villes les plus publiantes sur le sujet. Quelques espaces urbains se démarquent dans l’hémisphère Sud dont il sera intéressant de suivre la dynamique dans les semaines qui viennent, en particulier : Singapour, Melbourne et Sydney. On remarque aussi l’activité de Riyadh, Téhéran et Beirut au Moyen Orient, sans doute influencée par l’importance prise par l’épidémie en Iran.
Parmi les 381 publications, 187 ont été signées depuis au moins deux agglomérations différentes et 20 ont été signées depuis plus de 6 agglomérations. Au niveau pays, les principaux liens de collaborations restent entre la Chine et le reste des pays du monde. Le Royaume-Uni développe des coopérations avec les États-Unis et Singapour. L’Inde (Pune en particulier) se connecte à la Chine et la Thaïlande. La Tanzanie s’intègre au réseau scientifique mondial par l’intermédiaire d’une co-publication avec l’Afrique du Sud. De la même manière, le Liban est connecté au réseau par l’intermédiaire de l’Iran (Graphe 3).
Cliquer ici pour explorer le graphe de façon interactive
Au niveau interurbain, les collaborations infranationales restent importantes, en particulier entre villes chinoises. En plus de celles enregistrées 15 jours plus tôt, on observe une coopération privilégiée entre Atlanta et Seattle aux États-Unis, ainsi qu’entre Sapporo, Naha et Tokyo au Japon. Par ailleurs, on enregistre un très grand nombre de nouvelles coopérations internationales. Les liens entre Toronto et Xian, Londres et Singapour, Ann Arbor et Shanghai se révèlent importants (Graphe 4).
Cliquer ici pour explorer le graphe de façon interactive
Comprendre cette géographie
Il peut être surprenant de constater que nous avons affaire à un réseau de coopération d’une telle densité alors même que la question de recherche ne fait qu’émerger et que nous sommes dans une situation où les possibilités d’échanges sont fragilisées par la fermeture des frontières.
Pour mieux comprendre ce que nous observons, il serait utile de différencier les différents types de publications considérées et réaliser des entretiens avec les chercheurs et chercheuses impliquées. On peut supposer que les coopérations avec la Chine se sont avérées essentielles à la fois pour la gestion médicale de la crise et pour la connaissance du virus : les scientifiques chinois ayant procédé rapidement au séquençage du génome, suivi par ceux de l’Institut Pasteur de Paris (Lemke, Janvier 2020). Les laboratoires ont dû se coordonner, partager leurs résultats, programmer des essais cliniques et échanger des spécimens biologiques. C’est le cas avec l’institut Doherty à Melbourne, qui a communiqué dès la fin du mois de Janvier 2020 sur le fait d’avoir réussi à répliquer le virus en laboratoire (Université de Melbourne, Janvier 2020).
Aux échanges accélérés justifiés par l’urgence de la crise, il faut associer ce qui relève des échanges préétablis entre ces laboratoires, ces chercheurs et chercheuses qui s’inscrivent dans des communautés scientifiques préexistantes et avaient déjà été amenés à travailler ensemble auparavant. On peut penser à la communauté des spécialistes des coronavirus, qui sont un type de virus particulier que le Professeur Bruno Canard étudie depuis le début des années 2000 à l’Université Aix-Marseille (Sauvons l’Université, mars 2020). Au sein de l’ICTV (International Committee on Taxonomy of Viruses), il existe ainsi un groupe d’étude des coronavirus composé d’une majorité de membres américains, allemands et néerlandais (Coronaviridae Study Group).
Le rôle des laboratoires historiques en virologie que sont les Instituts Pasteur de Paris, Hanoi et Dakar et l’Institut Robert Koch en Allemagne dans le suivi de la diffusion du virus et dans la recherche de vaccins est également intéressant à signaler. Pour en savoir plus sur l’histoire de ces deux savants et les instituts qui ont pris leurs noms, voir l’ouvrage et le documentaire éponyme Pasteur et Koch : un duel de géants dans le monde des microbes. Enfin, on remarque le rôle de coordination joué par le STAG-IH (Strategic and Technical Advisory Group for Infectious Hazards), comité d’experts mis en place en 2005 au moment de l’épidémie d’Ebola, qui dispense des rapports et conseils pour l’Organisation Mondiale de la Santé.
C’est ce qui justifie que les initiatives de mises à disposition de la littérature scientifique associée à l’épidémie intègrent une littérature bien antérieure à décembre 2019. Le socle de connaissance nécessaire pour avancer dans ce domaine ne se résume pas aux seules publications parues depuis l’apparition du nouveau coronavirus.
Corpus complémentaires
Pour celles et ceux qui seraient intéressés de creuser davantage ces questions, on peut distinguer plusieurs corpus mis à disposition des chercheurs et chercheuses depuis quelques mois :
- La base de données de recherche ouverte COVID-19 (CORD-19), une ressource gratuite de plus de 44 000 articles scientifiques, mise à disposition par l’Institut Allen pour l’IA et de ses partenaires. Une sous-partie de ce corpus a fait l’objet d’une analyse géographique disponible sous forme de preprint en ligne (Dousset & Mothe, 2020). En complément, le projet Neural Covidex (University of Waterloo et NYU) propose des moyens automatisés d’explorer ce corpus.
- L’ensemble des publications ayant pour mot-clef “coronavirus” de janvier 2000 à mars 2020 disponibles sur la base de données PubMed (6560 documents). Ces publications font l’objet d’une fouille visant à en extraire des relations sémantiques à l’aide du logiciel Gargantext (ISCPIF, 2020). Pour d’autres analyses de ce type, on peut suivre les premiers résultats de Chaomei Chen à partir du logiciel CiteSpace (Chen, 2020).
- La base de publications spécialement mise en place par l’Organisation Mondiale de la Santé sur le COVID-19 qui comprend au 12 avril 2020 : 5014 articles dont 170 du BMJ, 120 de la revue Nature et 112 de la revue Lancet (WHO, 2020).
- Les archives ouvertes parmi lesquelles une base de 1555 preprints déposés sur MedRxiv et BioRxiv portant uniquement sur le nouveau coronavirus (MedRxiv, 2020). Pour un bilan du nombre de contributions en lien avec le nouveau coronavirus sur archives ouvertes, voir les analyses de Nicholas Fraser et Bianca Kramer (Fraser et Kramer, 2020).
- Une analyse de la littérature ouverte (en libre accès) depuis plusieurs bases de données (Dimensions, Scopus etc.) par une équipe de scientifiques de l’Institut de technologie de Bandung en Indonésie (Irawan et al., 2020). Une analyse complémentaire tenant compte également du rythme d’évolution des contenus sur le Web of Science et Scopus est également disponible (Torres-Salinas, 2020).
- La base de données covid-nma alimentée par l’Institut Cochrane, l’INSERM et l’APHP regroupant à ce jour 275 essais cliniques. Elle a fait l’objet d’une première analyse incluant une cartographie (Vuillemot et al., 2020).
- La liste alimentée par l’Organisation Mondiale de la Santé des programmes de développement de vaccins en cours (Covid-19 candidate vaccines, 2020). Cette liste vient de faire l’objet d’une analyse publiée dans Nature reviews (Thanh Le et al., 2020). Ce travail indique que la majorité des initiatives sont actuellement portées par des industries privées nord-américaines.
Enfin, si la présente contribution s’est uniquement centrée sur la recherche biomédicale en restreignant la requête aux bases de Sciences et Techniques du Web of Science et en excluant les index de Sciences Humaines et Sociales, cela ne veut pas dire que la recherche sur le coronavirus ne concerne que les champs de la médecine et de la biologie. Cela n’aura échappé à personne que l’épidémie touche à tous les pans de notre société, tant du point de vue de la réponse des services publics et de l’épidémiologie que sur les aspects économiques, sociaux et environnementaux. L’apport des Sciences Humaines et Sociales est particulièrement important dans ce contexte, en témoigne nombre de spécialistes convoqués dans les médias ces dernières semaines pour aborder la question du confinement. Des initiatives spécifiques de coordination de la recherche se mettent en place visant à faciliter les échanges entre la recherche en biomédecine et la recherche en sciences humaines et sociales, notamment sur le plan épidémiologique. On peut penser en France aux actions du comité CARE, ainsi qu’aux initiatives de mises en commun des recherches comme CovidFight.
En savoir plus
Cette note et les résultats présentés ont été obtenus en utilisant l’application NETSCITY. Cette application applique la méthodologie mise en place dans le cadre d’un programme de recherche sur la géographie des sciences qui a débuté en 2010. Elle permet de traiter rapidement de grandes masses de données bibliographiques, de repérer géographiquement la provenance des publications, d’agréger les données au niveau d’aires urbaines comparables et de reconstituer les réseaux de lieux qui s’établissent entre villes et entre pays à l’échelle mondiale.
Cette application, toujours en cours de développement (vos retours d’utilisation sont les bienvenus) est accessible en ligne à l’adresse : https://www.irit.fr/netscity.
L’équipe de développement comprend Laurent Jégou, géographe et géomaticien à l’UMR LISST à Toulouse, Guillaume Cabanac, informaticien et scientomètre à l’UMR IRIT, à Toulouse et moi-même, géographe à l’UMR Géographie-cités à Paris – Aubervilliers.
Deux étudiants de l’IUT d’informatique de Toulouse ont également contribué au développement web. Il s’agit de Nikita Yakimovich et Nils Bourgon.
Un article de conférence scientifique présenté à la Conférence Internationale Science and Technology Indicators à Rome en 2019 permet de situer l’application dans le contexte des applications de traitement de données sur la science et d’en expliquer le fonctionnement. S’y référer :