Il y a à peu près 3 semaines, la pollution atmosphérique en général et les particules fines en particulier ont refait surface dans l'actualité, via les 48000 morts dus aux particules. Ce blog ayant déjà traité de ces questions dans le passé, la tentation de revenir sur le sujet s'est fait d'autant plus sentir que le rapport d'étude publié sur le site de l'INVS contient des données permettant de se livrer à quelques tests sur la question.

Dans les billets précédents sur la question, j'exprimais mon plus grand scepticisme envers des estimations similaires de mortalité. J'y voyais là le résultat de modèles utilisés jusqu'au delà de leurs limites et que les comparaisons faites avec des causes de mortalités telles que le tabac et l'alcool étaient déplacées. La lecture du rapport et les quelques tests statistiques que j'ai pu faire n'ont pas fait varier ce jugement. Pour tout dire, je trouve ces comparaisons avec les effets du tabac et de l'alcool contreproductives et dangereuses, car elles minimisent les dangers réels de ces 2 produits qui sont des causes majeures de mortalité en France (et dans le monde).

Il y a 2 raisons qui me font rester sur mon jugement d'origine:

  1. La publication qui sert de base à la simulation donne un surcroît de mortalité 2.5x supérieur à la plupart des études comparables, tout en ayant un large intervalle d'erreur. Avec la moyenne des études sur la question, l'estimation centrale de la mortalité attribuée aux particules serait plus basses dans les mêmes proportions, soit moins de 20000. Quoique toujours important, ce chiffre prête moins le flanc aux analyses ex post sur l'espérance de vie
  2. Une analyse statistique des espérances de vie par département ne montre un effet de la concentration en particules qu'à la seule condition d'accepter qu'une forte densité de population allonge l'espérance de vie, au point de compenser presque exactement les effets de la pollution.

L'étude

Le principe de l'étude est d'établir une cartographie fine de la concentration en PM2.5 au niveau de la France métropolitaine (hors Corse), puis d'utiliser un risque relatif de décéder, déterminé par ailleurs, pour calculer, à l'aide de la cartographie établie, les excès de mortalité causés par les particules.

La cartographie de la concentration en particules fines s'appuie sur plusieurs composantes. D'abord, il y a eu un travail de collecte des données sur des stations de mesure puis de reconstruction des émissions, là où les stations de mesure étaient absentes. Ensuite, un modèle reconstruisant le déplacement des particules dans l'atmosphère est utilisé pour rendre compte de leur étalement progressif. Le tout est fait avec une maille de 2km de côté et pour plusieurs années de 1989 à 2008. La carte obtenue est visible ci-dessous, où on voit qu'il y a une plus grande concentration de particules au nord, et qu'elle est minimale en montagne. cartePM25.jpg

Pour obtenir un chiffrage de l'excès de mortalité provoqué par les particules, il faut alors décider du risque supplémentaire de mourir provoqué par les particules (alias sur-risque), en fonction de la concentration de celles-ci dans l'atmosphère. En général, il est exprimé en pourcentage pour une hausse de 10 μg/m³. Dans le cas présent, l'étude a pris comme risque supplémentaire 15% pour une augmentation de 10 μg/m³. Au niveau de risque et de pollution aux particules considérés, la mortalité attribuée aux particules est à peu près proportionnelle au niveau du sur-risque: s'il était divisé par 2, le nombre de morts le serait grosso modo aussi. Le rapport contient un tableau, reproduit ci-dessous, qui liste les sur-risques obtenus par diverses études. Entourées en bleu sont les études qui ont servi pour le rapport, en rouge la méta-étude recommandée par l'OMS jusque récemment. etudes_PM25.jpg On peut remarquer 3 choses:

  1. La base de l'étude est pessimiste: elle part d'un sur-risque parmi les plus pessimistes puisque seules 2 études sur les 11 autres présentent un sur-risque supérieur
  2. La méta-étude de l'OMS de 2013 donne un sur-risque de 6% pour 10 μg/m³ soit 2.5x moins que la base de l'étude. Si elle avait été choisie comme base, on aurait pu s'attendre à ce que la mortalité supplémentaire soit divisée par le même facteur.
  3. Les études dont les intervalles de confiance à 95% (entre crochets) sont les plus resserrés sont parmi celles qui donnent des valeurs encore plus basses, de 4% pour 10 μg/m³.

Pourquoi avoir choisi un sur-risque de 15%? Le rapport dit que c'est pour garder la cohérence entre le sur-risque et les données sous-jacentes de concentration en PM2.5, parce que la puissance statistique était importante et parce que ces sur-risques ont été déterminés par des études françaises. Cela me semble surprenant, puisqu'il semble improbable qu'il y ait une forte différence entre les effets sur les Italiens et sur les Français des particules. La puissance statistique, au vu des intervalles de confiance, semble loin d'être extraordinaire; par ailleurs, le but de la méta-étude de l'OMS est de renforcer la puissance statistique en prenant en compte une bonne part des études sur le sujet. Enfin, le problème de la cohérence des données me semble surfait: un fort sur-risque ne se justifie pour cette étude que par une sous-évaluation des écarts de concentration en particules, or il se trouve que le modèle de concentration concurrent trouve moins d'écarts. Bref, les raisons invoquées ne me paraissent pas très convaincantes. Les conséquences sur le résultat final sont par contre évidentes: en choisissant le sur-risque maximal, la mortalité sortant du modèle est élevée.

L'espérance de vie et les PM2.5

En annonçant 48000 décès imputables aux particules, l'étude met les conséquences des particules sur pied d'égalité avec la consommation excessive d'alcool (49000 morts attribués) et pas si loin du tabac (60000 morts attribués). L'étude annonce aussi des gains possibles d'espérance de vie, par comparaison au cas de concentration uniforme en PM2.5 de 4.5 μg/m³, très élevés, puisque par exemple, elle donne le chiffre de 27 mois d'espérance de vie à 30 ans perdus pour Paris (p116). Le rapport donne aussi, à partir de la p71, les concentrations en PM2.5 pour la période 2007-2008, ce qui permet de pouvoir se livrer soi-même à quelques tests statistiques à partir de données disponibles publiquement, quoique pas forcément si aisément. On peut retrouver l'essentiel des données et les scripts qui ont permis de les récupérer sur cet espace Google Drive.

L'idée est de chercher des corrélations entre l'espérance de vie et certains facteurs dont on peut penser (ou pas) qu'ils ont un lien avec elle. Le premier pas est de récupérer des données:

  1. L'espérance de vie est disponible par département sur le site de l'INSEE. Malheureusement, l'INSEE ne propose pas d'évaluation de l'espérance de vie à 30 ans. Je me suis donc rabattu sur l'espérance de vie à 20 ans et j'ai considéré la moyenne entre l'espérance de vie des femmes et celle des hommes, ce qui revient en gros à considérer qu'il y a autant d'hommes que de femmes.
  2. On peut bien sûr penser que le niveau de vie influe sur l'espérance de vie, les riches vivant plus longtemps que les pauvres. J'ai utilisé le revenu disponible par unité de consommation, aussi disponible sur le site de l'INSEE.
  3. Un autre paramètre auquel on peut penser est la densité de population. J'ai plutôt utilisé le logarithme de la densité: cela correspond à l'idée intuitive qu'ajouter 50 habitants au km² en Lozère (15 hab/km²) changerait beaucoup les choses, ça ne changerait presque rien à Paris qui compte déjà plus de 20000 habitants par km².
  4. Avant de passer à des indicateurs liés directement à la santé, un indicateur qui "marche" bien est la part de vote extrême aux élections présidentielles de 2012, qui est la somme de la part des votes du premier tour étant allés à M. Le Pen, F. Arthaud, Ph. Poutou et J.-L. Mélenchon. J'ai constaté que cette variable était plus "efficace" que le niveau de vie. Je pourrais rationaliser tout ça en avançant l'hypothèse que le vote extrême exprime de mauvaises conditions de vie, mais ça me paraît surtout être un indicateur ad hoc qui se trouve combiner divers facteurs défavorables à l'espérance de vie.
  5. Un indicateur de mortalité lié à la consommation d'alcool. Le problème est qu'un indicateur direct de la consommation d'alcool n'est pas disponible au niveau départemental. Le site gouvernemental idoine ne donne que des indicateurs de mortalité ou des indicateurs au niveau régional. C'est pourquoi j'ai pioché dans la base du cepiDc (via un script perl) pour construire un indicateur sur la base de la mortalité avant 55 ans dûe à la cirrhose alcoolique (code CIM K70).
  6. Un indicateur de mortalité lié au tabac. Les difficultés sont assez similaires, amplifiées par des problèmes de taxation: il est bien connu que les taxes sur le tabac sont moins élevées en Belgique et en Allemagne, ce qui fait que de nombreux fumeurs s'y approvisionnent lorsqu'ils habitent à une distance raisonnable. Là aussi, j'ai pioché dans la base du cepiDc et l'indicateur est construit sur la base de la mortalité avant 55 ans dûe au cancer du poumon (maladie dont la part attribuable au tabac est la plus élevée, plus de 80%, code CIM C34).

Il y a certes un côté tautologique à considérer des indicateurs directement basés sur le taux de mortalité chez des gens assez jeunes pour constater qu'ils sont liés à une espérance de vie plus basse. Cela dit, la cirrhose alcoolique fait environ 1300 morts par an chez les moins de 55 ans, le cancer du poumon environ 4000 dans la même classe d'âge. C'est à comparer avec 40 000 décès dans la même classe d'âge et presque 600 000 décès annuels toutes classes d'âges confondues: on regarde une part raisonnablement faible des décès pour estimer que l'effet était a priori faible. De plus, que les maladies en questions soient provoquées avant tout par la consommation du produit incriminé (alcool ou tabac) ne fait plus de doute: il y a énormément de preuves scientifiques.

Quels résultats peut-on obtenir? La différence d'espérance de vie entre le département qui a l'espérance de vie minimale — le Pas de Calais — et celui où elle est maximale — Paris — est d'environ 4 ans et 4 mois (soit 52 mois). Le fait que Paris, le département où l'impact de la pollution est donné comme maximal, soit le département où l'espérance de vie est la plus élevée doit d'ailleurs amener à douter un peu des conclusions de l'étude: le handicap qu'on lui attribue est de la moitié de l'écart total. Certes, le Pas de Calais n'est pas le département le moins pollué, mais néanmoins, on voit qu'il va être difficile de réconcilier l'étude et les statistiques d'espérance de vie. Si on regarde maintenant s'il y a une relation entre la concentration moyenne en PM2.5 et l'espérance de vie, on voit qu'il n'y a en fait aucune corrélation visible directement (voir graphe ci-dessous). Le R² quantifie la variance «expliquée» par la (les) variable(s) considérées, on constate qu'il est nul. EV_PM.jpg

Bien sûr, ce n'est pas complètement fini: il est possible que l'effet des particules soit masqué par un (des) effet(s) bénéfique(s). Mais la concentration en PM2.5 est l'indicateur le plus faible quand on le teste seul. Par exemple, l'indicateur lié à l'alcool permet d'expliquer à lui seul plus de la moitié de la variance, même s'il est vrai qu'il est aussi corrélé assez fortement à l'indicateur sur le tabac. EV_Alcool.jpg

Quand on teste plusieurs variables simultanément, on s'aperçoit de même que la concentration en PM2.5 n'est que faiblement explicative. Par exemple, si on teste ensemble le niveau de vie, le tabac, l'alcool et les PM2.5, on trouve que:

  • L'alcool a un effet (en suivant la "meilleure pente") faisant perdre 24 mois d'espérance de vie entre le département le plus "alcoolisé" et le moins porté sur la bouteille
  • L'écart attribué au tabac est de 14 mois
  • L'écart attribué au niveau de vie de 19 mois
  • Pour les PM2.5, la pente n'est pas statistiquement significative, car elle est faible: l'écart est de 5 mois entre le département le plus pollué et le moins pollué, dans le sens conforme à l'intuition

Pour trouver un effet statistiquement significatif, il faut associer ensemble la concentration en PM2.5 et la densité de population. Il faut dire que ces deux variables sont liées entre elles (voir le graphe ci-dessous). Intuitivement, les départements au-dessus de la droite ont une espérance de vie plus basse que ceux qui sont en dessous. PM25_densite.jpg Ainsi, quand on ajoute au niveau de vie, au tabac, à l'alcool, aux PM2.5, la densité de population (ou plus exactement son logarithme), on trouve que:

  • L'alcool fait baisser l'espérance de vie de 23 mois et le tabac de 12 mois entre les départements extrêmes, ce qui est sensiblement la même chose que ci-dessus
  • Le niveau de vie crée un écart de 15 mois entre le département le plus riche et le plus pauvre
  • L'écart attribué aux PM2.5 est une perte de 16 mois, compensé par un gain dû à la densité de population de 19 mois. Autrement dit en passant des Hautes-Alpes à Paris, il n'y a aucun gain d'espérance de vie ou presque de ce fait. Par contre, si on se déplace perpendiculairement à la droite de tendance du graphe ci-dessus, l'écart est d'environ 7 mois.

Si on prend cette modélisation statistique au pied de la lettre, il faudrait d'urgence construire des villes à la campagne car l'air y est plus pur. On gagnerait sur les 2 tableaux puisqu'on profiterait à la fois de la baisse en concentration en PM2.5 et de la hausse de la densité de population. Si on regarde les cartes, il faudrait toutefois éviter les campagnes du nord de la France qui ont tendance à être plus polluées que celles du sud. Cependant, au risque de doucher l'enthousiasme, il me semble plutôt qu'on est en face d'un artefact statistique, l'INSEE signalait — certes il y a maintenant un certain temps — que les banlieusards de province avaient tendance à mourir plus tard que les habitants des centre-villes.

Quelques conclusions

Après cet exercice statistique, je trouve encore et toujours que les gros chiffres de mortalité due à la pollution atmosphérique, dont raffolent les médias, sont grossièrement surévalués. La modélisation qui sert de base au chiffre de 48000 morts prétend que l'espérance de vie à Paris est diminuée de 27 mois. Or il se trouve que Paris et ses banlieues aisées affichent les espérances de vie parmi les plus élevées de France, tout en étant les plus polluées. De façon générale, il n'y a pas de corrélation claire entre l'espérance de vie et les niveaux de pollutions tels qu'affichés par l'étude, ce qui pointe vers un impact de la pollution qui, tout en restant bien entendu négatif, serait nettement plus faible que celui qui a fait les titres des journaux.

Une autre conclusion qu'on peut tirer, c'est que, décidément, les effets de l'alcool ou du tabac n'ont rien de comparable à ceux de la pollution. L'alcool et le tabac sont associés à des maladies dont ils créent l'immense majorité des cas et où il y a une longue littérature médicale sur le sujet. Ces maladies sont mortelles dans bien des cas. Pour l'alcool, cela se double d'une détérioration du comportement et des qualités physiques et mentales, ce qui fait qu'en plus des maladies, on a déplorer des suicides et des morts par accidents de la route. C'est sans doute pour cette raison, qu'en plus de la sévérité des maladies que l'alcool entraîne, il semble associé à une baisse plus forte de l'espérance de vie que le tabac. Mais ces 2 produits partagent une caractéristique: leur impact sur l'espérance de vie est net, il est apparent sans avoir à démêler différents effets. La pollution atmosphérique est bien loin de cela.

Enfin, il serait bon que ces chiffrages de mortalité liés à la pollution s'accompagnent de vérifications a posteriori. En effet, ces études sont toutes construites sur le même principe d'étudier une cohorte où regarde les effets de certains produits pour obtenir une quantification des risques liés. C'est une détermination des dommages a priori. Cependant, lorsque les effets annoncés sont importants, on peut vérifier la cohérence de ce qui a été trouvé sur la situation sanitaire globale: une perte de 2 ans d'espérance de vie entre 2 départements, c'est déjà beaucoup! De telles vérifications permettraient peut-être de se passer de comparaisons inappropriées entre la pollution et le tabac ou l'alcool.