mercredi 27 mai 2015

QGIS et PostgreSQL : des données sur des cartes

Avec le couple QGIS/PostgreSQL (et son extension PostGIS), nous avons agrégé des données démographiques pour les projeter ensuite sur une carte de l'Europe.

QGIS est un très bel outil pour la cartographie l'analyse des données géospatiales. Ces dernières années, les nouvelles versions se sont succédé à un rythme rapide du fait d'une communauté très active de développeurs et d'utilisateurs.
La difficulté de travailler avec un tel outil tient plutôt à la forme la plus fréquemment disponible des données, un ensemble de fichiers (d'extensions .shp, .shx, .dbf, .proj). Ces fichiers (shapefile pour faire court) sont faits pour l'échange mais pas du tout pour le travail en équipe, simultané, sur un jeu de données cartographiques. C'est un peu comme si on revenait à l'échange de fichiers de traitement de texte par mail, alors que les outils en ligne sont bien plus efficaces pour écrire à quatre mains ou gérer les versions successives d'un document. De plus, le shapefile est assez primaire sur les champs attributaires et rend délicat l'agrégation de données d'origines diverses.
Tout ça plaide pour coupler QGIS à une vraie base de données géospatiale, comme PostgreSQL/PostGIS. PostgreSQL est un SGBDR, PostGIS désigne ses extensions géospatiales.

Le connecteur PostgreSQL de QGIS

Créer une base PostGIS


Il est nécessaire de créer une nouvelle base et d'y ajouter les extensions PostGIS, on résume ici le manuel de Debian. Dans un terminal, après avoir pris les droits de l'utilisateur 'postgres', on tape:


createdb --o
createlang plpgsql -d

psql
-f /usr/share/postgresql/*/contrib/postgis-*/postgis.sql
psql
-f /usr/share/postgresql/*/contrib/postgis-*/spatial_ref_sys.sql
psql

grant all on geometry_columns to
;
grant select on spatial_ref_sys to
;
\q
# en tant qu'utilisateur normal :
psql -h
-U -d


 
QGIS rend visibles sur la carte les statistiques de toutes origines

Importer les données dans Postgres


Pour accueillir la carte des entités NUTS récupérée sur Eurostat (au format d'échange Shapefile), on emploie shp2pgsql, en rajoutant, dans le fichier de commandes sql qu'il génère, nos propres contraintes, notamment pour la clé primaire. On fait donc, dans un terminal :

shp2pgsql -c -s 3035 /chemin/vers/le/shapefile.shp > /chemin/vers/le/fichier/de/sortie.sql


La projection est EPSG 3035 (obtenue par réexport de QGIS, où l'on a aussi préparé les champs), bien adaptée à la représentation de l'ensemble de l'Europe. Plutôt que d'exécuter le fichier sql (psql < sortie.sql), on l'ouvre dans un éditeur et modifie les commandes de création de table.

CREATE TABLE eEU (
    niveau SMALLINT NOT NULL,
    nuts_id CHAR(5) PRIMARY KEY,
    shap_len DOUBLE PRECISION,
    shap_are DOUBLE PRECISION,
    cod_p CHAR(2) NOT NULL,
);
//On remarque la ligne qui rajoute la colonne de géométrie :
SELECT AddGeometryColumn('', 'eEU','geom',3035,'MULTIPOLYGON',2);


À présent, on a une carte mais il lui manque des données attributaires un peu consistantes. C'est là où on ressort le fichier des entités LAU1 et LAU2, récupéré aussi sur Eurostat. Ce fichier étant une vue exportée, il ne correspond pas nécessairement à nos besoins, ni aux critères pour la meilleure cohérence des données. Dans un premier temps, on l'a normalisé, en passant du premier schéma logique à un schéma à trois tables.

lau2(idnuts3,lau1,lau2,nom,nomlat,area) -->

lau2_2010 (nuts3,lau2,nom,area) PK (nuts3,lau2)
lau1_2010 (nuts3,lau1,nom,area) PK (nuts3,lau1)
lau_12 (nuts3,lau1,lau2) PK (nuts3,lau1,lau2)


Le modèle est peut-être plus difficile à appréhender, mais il est moins « troué » et il peut simplifier la création de vues, comme on va le voir. Le code pour créer les tables est simple et ennuyeux, on l'épargnera au lecteur.

Une vue sur la population


On a importé dans Postgres une table de population et une autre sur les entités nuts3. Puis, on a créé une vue qui calcule la surface de ces entités, à partir de ses subdivisions, et calcule la densité, en fonction de la population. La requête est sensiblement plus rapide qu'avec le schéma précédent, alors qu'il y a plus de tables.

CREATE OR REPLACE VIEW nuts3_hab_km2 AS
SELECT nuts3_2010.nuts3,nom,round(km2,2) AS superficie_km2,population,round(population/km2) AS hab_km2,pnuts2 AS parent FROM (
  select nuts3,sum(area)/1000000 AS km2
  from lau22_2010 where nuts3 not in (
    select nuts3 from lau22_2010
    where area IS NULL
    )
  group by nuts3
  union
  select nuts3,sum(area)/1000000 AS km2
  from lau1_2010 where nuts3 not in (
    select nuts3 from lau1_2010
    where area IS NULL
    )
  group by nuts3
) AS nuts_surf
JOIN nuts3_2010
ON nuts3_2010.nuts3=nuts_surf.nuts3
JOIN pop
ON nuts_id=nuts3_2010.nuts3
;

La gueule de la table résultante est intéressante.

select * from nuts3_hab_km2 limit 4;

 nuts3 |        nom         | superficie_km2 | population | hab_km2 | parent
-------+--------------------+----------------+------------+---------+--------
 ITC49 | Lodi    |    782.20    |    229082    |    293    |    ITC4
 DE22B | Straubing-Bogen    |    1201.90    |    97323    |    81    |    DE22
 EL431    |    Irakleio    |    2641.22    |    |    |    EL43
 UKG21 | Telford and Wrekin |    290.31    |    168713    |    581    |    UKG2


Jointure dans QGIS


La récréation a sonné, on lance QGIS, connecte la base Postgres (icône d'éléphant) et importe les tables utiles (carte, population, et la vue nuts3_hab_km2 fraîchement créée). Lors de cette opération, il est nécessaire de choisir un champ de clé primaire valide (ici nuts3).
Ensuite, on ouvre les propriétés de la couche multipolygones et on ajoute une jointure vectorielle (onglet jointures dans la fenêtre de propriétés) entre la table et la carte. C'est fini !

À partir de cet exemple, on peut imaginer la suite. Des données combinées entre elles avec du code SQL, des couches importées de OSM ou créées par les rédacteurs... Avec le réglage des droits d'accès, des sauvegardes, Postgres est bien fait pour bosser en groupe.

mardi 12 mai 2015

Les data au tamis de PostgreSQL

Les données pour le journalisme quantitatif, qu'elles soient le produit de scraping ou issues d'institutions, sont souvent défectueuses. Des variations de format (point ou virgule pour la marque décimale), de type ('1' est un caractère, tandis que 1 est de type numérique), les espaces en fin de champ ou mélangés aux tabulations, les champs nuls et autres coquilles rendent leur exploitation statistique ou cartographique hasardeuse.

Le tableur est assez limité mais néanmoins utile et en tous cas nécessaire pour préparer les fichiers. Les outils en ligne gratuits, comme Table Fusion, impliquent un partage des données avec le fournisseur et une dépendance à son égard. On va voir ici comment les systèmes de gestion de bases de données relationnelles (SGBDR) peuvent aider.

L'idée est de créer des tables temporaires pour accueillir les données à valider, avant de les intégrer dans des tables définitives, qui auront toutes les contraintes référentielles voulues. Les exemples sont donnés ici avec PostgreSQL mais ils devraient fonctionner sur d'autres  SGBDR.

Contraintes de type

 

On a travaillé sur le fichier des entités statistiques LAU2 de Eurostat. Le tableau, un fichier bureautique, a été enregistré sans les entêtes de colonnes et au format TSV (valeurs séparées par des tabulations), avec l'encodage de caractères de la base (UTF-8, ici). Avant d'importer ce fichier dans la base, on doit créer une table pour l'accueillir. Il faut réfléchir au type de données que contiendra chaque colonne (chaîne de caractères, de longueur fixe ou variable, numériques, entiers ou à virgule, avec quelle précision, date, booléen ... ). Le plus contraignant sera le mieux.

CREATE TABLE lau2_2010 (
idnuts3 char(5), /* les identifiants NUTS3 font exactement cinq caractères*/
lau1 varchar(15), /*les identifiants LAU1 font au maximum 15 caractères*/
lau2 varchar(15),
nom varchar, /* les noms sont de longueur variable et non spécifiée - ce dernier point est une particularité de PostgreSQL*/
area numeric
) ;

L'opération de copie du fichier TSV échoue si une seule ligne viole une contrainte. En général, l'erreur attire l'attention sur un problème commun à de nombreuses autres lignes que l'on doit résoudre avec le tableur. Une difficulté rencontrée tenait à la variété des indicateurs de données absentes, tantôt n.c.a., n.c.a, NA, etc. Sur un fichier de près de 120000 lignes, il est improbable de les déceler dès la première lecture. Les données non existantes doivent être traduites par \N pour être admises dans Postgres. Attention, le tableur peut ajouter des erreurs, au moment de l'ouverture du fichier source (s'il n'est pas dans son format naturel). On a vu 00AM et 00PM, qui sont des codes en vigueur au Royaume-Uni, interprétés en un format d'heures : minuit et midi. Même chose pour 95E15, vu comme la notation du nombre 95000000000000000.
Une fois les contraintes de type respectées, l'opération copie les 120000 lignes en deux secondes.

\copy into essai_temp from /chemin/vers/fichier.tsv

 

 À la recherche du schéma logique

 

Une fois la table peuplée, on peut rechercher des incohérences plus subtiles et chercher à comprendre le schéma logique de la table. La recherche des champs vides et les clés candidates sont au menu.

SELECT idnuts3,lau1,nom FROM lau2_2010
WHERE lau2 IS NULL;

SELECT idnuts3,lau2,nom FROM lau2_2010
WHERE lau1 IS NULL
AND lau2 IS NOT NULL;

Ces requêtes renvoient les lignes dont LAU2 est vide et dont LAU1 est vide et pas LAU2, respectivement. On comprend ainsi que certains pays possèdent des entités LAU1 qui ne contiennent aucune LAU2 (la Grèce et le Danemark), tandis que d'autres ont rangé des entités LAU2 directement sous les NUTS3, sans LAU1. Cette table est sans doute une vue, une table virtuelle produite par une requête, facile à exploiter mais pas idéale pour organiser les données dans la base. Cette table pourrait être renormalisée, décomposée en tables dépourvues de redondances ou de champs nuls.

On cherche si un identifiant est unique au niveau européen, ce qui sera bien utile pour faire des jointures spatiales dans un logiciel de cartographie. L'identifiant LAU2 est-il unique au niveau européen ? Une requête à auto-jointure affiche les lau2 communs à des entités dont les noms diffèrent.

SELECT L1.nom,L1.lau2,L2.nom
FROM lau2_2010 AS L1
JOIN lau2_2010 AS L2
ON L1.lau2 = L2.lau2
WHERE L1.nom < L2.nom;

La liste renvoyée n'est pas nulle, elle est même longue (21178 entités). LAU2 ne peut être retenu comme identifiant unique, même en ignorant les lignes où il est vide.

Le couple idnuts3-lau2 est-il alors une clé candidate ? Cherchons s'il existe plusieurs noms pour ce couple d'attributs.

La directive GROUP BY regroupe les lignes avec des attributs communs. C'est très utile pour faire des statistiques mais aussi pour trouver d'éventuels doublons dans une table brute d'importation.

SELECT L1.idnuts3,L1.lau2
FROM (
SELECT * FROM lau2_2010
WHERE lau1 IS NOT NULL
AND idnuts3 IS NOT NULL
) AS L1
GROUP BY L1.idnuts3,L1.lau2
HAVING count (*) > 1
;

La requête montre les pays qui n'ont pas d'entités lau2 (Danemark et Grèce), ce qui est attendu, mais aussi une ligne, qui s'avère être un doublon. Une ligne fautive sur 120000, introduite lors des manipulations sur le tableur ou peut-être d'origine Eurostat.

Une autre requête confirme, par son résultat vide, que le couple idnuts3-lau2 est un identifiant possible, pour les lignes où lau2 n'est pas vide. Ici, on compare les noms.

SELECT R1.idnuts3,R1.lau2,R1.nom AS nom1,R2.nom AS nom2
FROM (
SELECT * FROM lau2_2010 WHERE lau2 IS NOT NULL
AND idnuts3 IS NOT NULL
) AS R1
JOIN (
SELECT * FROM lau2_2010 WHERE lau2 IS NOT NULL
AND idnuts3 IS NOT NULL
) AS R2
ON R1.idnuts3 = R2.idnuts3
WHERE R1.lau2 = R2.lau2
AND R1.nom < R2.nom
;

 idnuts3 | lau2 | nom1 | nom2
---------+------+------+------
(0 ligne)

 

Au croisement des données

 

Une jointure sur une autre table, qui recense les entités NUTS niveau 1, 2 et 3, met en évidence trois identifiants NUTS3 non répertoriés.

SELECT DISTINCT idnuts3
FROM lau2_2010
WHERE idnuts3 NOT IN (
SELECT nuts_id FROM nuts2010
);

idnuts3
---------
N_A 
DEZZZ
FR215
(3 lignes)

N_A est encore une variante pour un champ vide, qui a échappé au tableur. DEZZZ désigne une 'Extra-Regio NUTS 3', ligne absente de la table nuts2010 et que l'on rajoute. FR215 est sans doute une coquille. Les communes françaises sous cet identifiant sont situées en Haute-Marne, soit FR214, dans la version 2010 de NUTS3. On rétablit la situation avec :

UPDATE lau2_2010
SET idnuts3 = 'FR214'
WHERE idnuts3 = 'FR215' ;

Des fonctions statistiques simples du SGBD permettent des vérifications croisées entre plusieurs sources. Avec une requête, on a calculé la surface des entités NUTS3, à partir de celle des entités LAU2 qui les constituent, et la densité de peuplement de chaque NUTS3, à partir d'une jointure sur une table de population d'origine Eurostat. En fin de requête, on demande un classement pour montrer les entités les plus densément peuplées en haut de la liste.

SELECT surf.nuts_id,surf.nom,round(1000000*(population/surface)) AS densite
FROM (
SELECT n10.nom,n10.nuts_id,sum(l10.area) AS surface
FROM (
SELECT * FROM nuts2010 EXCEPT (
SELECT * FROM nuts2010
WHERE niveau =3 AND nuts_id IN (
SELECT idnuts3 FROM lau2_2010 WHERE area IS NULL
))) AS n10
JOIN lau2_2010 AS l10
ON l10.idnuts3=n10.nuts_id
GROUP BY n10.nuts_id,n10.nom) AS surf
JOIN pop ON pop.nuts_id = surf.nuts_id
WHERE pop.population IS NOT NULL
GROUP BY surf.nuts_id,surf.nom,surf.surface,pop.population
ORDER BY densite DESC
LIMIT 50;

Le problème est apparu immédiatement. Des régions néerlandaises étaient bien plus denses que Paris (qui a plus de 21000 hab/km2). L'anomalie touchait aussi la Suède. Pour ces deux pays, la surface était exprimée en ha et non en m2, comme pour le reste de la base. Un petit correctif a remis les bons ordres de grandeur.

UPDATE lau2_2010
SET area = area * 10000
WHERE idnuts3 LIKE 'SE%' OR idnuts3 LIKE 'NL%';

Enfin, la comparaison des surfaces et des densités obtenues avec d'autres sources, comme Wikipedia, a permis de s'assurer de la cohérence de la base.

Voilà, ces quelques exemples montrent comment une base SQL peut aider une rédaction, un journaliste, à valider un grand ensemble de données.

lundi 17 novembre 2014

Écotaxe : il faudrait aussi l'appliquer en ville

En 2014, les bérets rouges ont présenté leur révolte contre l'écotaxe comme la défense d'une région face à l’État central et l'expression d'un ras-le-bol fiscal. Le mot, dont la mode a été lancée par Pierre Moscovici, est-il juste pour décrire la réalité du transport routier ? Est-il au contraire légitime de voir cette révolte comme la défense d'intérêts catégoriels ? On ne va pas trancher ici sur des questions aussi complexes. On se bornera à apporter quelques éléments factuels pour cadrer un débat qui ne fait que commencer.

La vérité des coûts

La transparence des coûts possède au moins la vertu d'éclairer les citoyens sur des choix qui ne seraient pas explicites. Certaines activités peuvent en effet être silencieusement subventionnées, lorsque leurs acteurs en font supporter les coûts à d'autres. Ces coûts sont pudiquement nommés externalités, façon de dire qu'on a refilé le Mistigri à d'autres. En matière de transport, ces coûts comprennent le bruit, les embouteillages, la mauvaise qualité de l'air, les émissions de CO2, les accidents, l'usage des infrastructures. En général, seule une partie est imputée aux usagers, au moyen de péages et de taxes sur le carburant ou les véhicules. Une autre partie reste à la charge du contribuable ou des cotisants de la Sécu et des mutuelles. Je répète qu'il n'est pas illégitime de subventionner une activité mais aussi qu'il est bon de savoir qui reçoit et combien.

Sur les externalités des transports, la direction du Trésor français fournit ses statistiques, compilées par le CGDD. Après quelques calculs, à l'aide des données de trafic du ministère des transports, on peut donner une idée de ces fameux coûts.

Les sommes sont en euros constants 2010, les coûts proportionnels à la surface des disques. Les modes de transport de marchandises sont le fluvial, le rail et la route.

Le transport de marchandises est subventionné


Le premier constat est qu'aucun des modes de transport de marchandises ne paye les externalités qu'il occasionne. La surface des disques illustre l'importance de ces coûts, auxquels on a soustrait les péages et taxes acquittées par le mode en question. C'est donc un bilan et il est négatif pour les trois modes.

Il est intéressant de détailler le bilan du transport routier, qui compte seulement les poids-lourds et ignore les utilitaires légers de moins de 3,5 tonnes. On a juxtaposé au déficit (vu plus haut) la ventilation des coûts et celle des recettes. Là encore, les surfaces sont proportionnelles aux coûts.


Au chapitre recette, la TICPE est la taxe sur les carburants. Si on considérait seules les infrastructures, on penserait que les péages d'autoroutes en couvrent l'entretien. Mais ce poste est peu important, relativement à l'environnement (pollution locale et CO2, bruit, vibrations) et surtout à la congestion du trafic.

L'importance des embouteillages

Une bonne partie du problème viendrait donc des bouchons ! La comparaison des coûts marginaux tend à le confirmer. Un poids-lourd sur une autoroute dégagée coûte 22 fois moins qu'un autre progressant par à-coups dans une zone urbaine.

Le bilan des poids-lourds est positif sur les autoroutes payantes, négatif sur les nationales (que l'écotaxe devait rendre payantes pour certaines) et très négatif en ville.


L'unité utilisée est le centime d'euro constant, corrigé de l'inflation depuis 2010, par tonne-kilomètre (déplacement d'une tonne sur un km).

Le pire : la voiture en ville

La comparaison avec le coût, pour la collectivité, du déplacement d'une personne sur un kilomètre est instructive. Ici, on assimile un passage.km à une tonne.km. C'est justifié si on considère la masse moyenne d'un véhicule (1 400 kg en France) et le taux moyen d'occupation en zone urbaine (1,2 passager/véhicule).




Se déplacer en voiture en ville produit des nuisances ruineuses pour les finances publiques.
Si ces comparaisons plaident pour un péage, c'est sans doute pour le péage urbain, appliqué aux poids-lourds et aux véhicules individuels. On peut supposer que la vérité des coûts aurait un effet sur les agents économiques. Dans ce cas, elle pourrait favoriser les logistiques urbaines nouvelles, qui font appel au mode fluvial (dans les villes traversées par un fleuve) ou au vélo-cargo. La meilleure façon de favoriser ces derniers serait donc d'abaisser les subventions cachées aux modes les plus polluants, en faisant progressivement croître leur contribution à ce qu'ils coûtent.

mercredi 4 juin 2014

Fusion des régions françaises dans QGIS

La carte des nouvelles régions françaises ! Il s'agit de la version 1.0 mise en avant par la présidence. Soyons sûrs que chacun mettra son grain de sel pour garder son siège ou donner un nom à son goût. D'ailleurs, je viens de faire une proposition. Le travail de fusion des Shapefile dans QGIS n'est pas sans détour et il m'a fallu quelques étapes. Mais c'était plié en 20 mn. Et c'est tant mieux, parce qu'il y aura sûrement d'autres versions.
Un KML est disponible ICI.



dimanche 4 mai 2014

Bio hacking et boulangerie

Le goût du pain connaît peu la diversité. Même dans un pays qui a su garder une tradition boulangère, d'un point de vente à l'autre, la baguette ou le gros "campagne" dégagent un éventail d'arômes singulièrement réduit. On doit se résoudre à constater qu'il existe des saveurs plus susceptibles que d'autres de plaire, ou de ne pas déplaire, à un grand nombre de gens. Mais comme le goût est une affaire d'éducation, le risque de suivre cette pente est d'aboutir au bout d'un certain temps à un goût uniformément tendre, moelleux et édulcoré.
L'industrie boulangère livre invariablement des miches aux saveurs légèrement maltées, avec une croûte caramélisée. Les pains de supermarchés donnent souvent l'impression d'être rehaussés d'arômes tant leurs fondamentales, celles que l'on respire après mastication, sont décharnées et proches de la farine. Même les gros de six livres, vendus à la découpe dans les chaînes bio, manquent de caractère à force de rechercher un consensus. Il y a longtemps que je n'ai pas acheté un pain aux arômes entêtants d'un levain puissant.
Le pire, c'est le pain de seigle. Généralement mal cuit, trop salé, raté par manque d'attention. Parce qu'il demanderait un traitement à part, non standard, il tend à disparaître des étals. Notable exception, le seigle complet de quatre livres de la boulangerie d'Écoles-en-Bauge est une réussite. Avec une jolie croûte, une mie cuite et dense, il assume une palette complexe et acide. Mais il est difficile à trouver.
La boulangerie, c'est un peu du bricolage bio. Ça ne devrait pas faire bon ménage avec les processus industriels labellisés ISO, ni l'ambition de plaire à la Terre entière, alors qu'on dessert trois villages. Logiquement, j'ai décidé d'aller bricoler dans mon atelier.


La fermentation doit être longue.

Ce qui donne du goût au pain, ce sont les levures, les moisissures, les bactéries, les archées qui mijotent dans le levain. Que les hypocondriaques se rassurent ici, la plupart des pains du commerce sont levés non pas au levain mais à la levure. Pour préparer celle-ci, on a sélectionné en laboratoire stérile une souche pure qui a les caractéristiques recherchées. Puis, on l'a reproduite en grand et conditionnée en petits sacs hermétiques. C'est un peu le même processus que pour le Camembert au lait pasteurisé, pour lequel on commence par tuer les micro-organismes qui se trouvent là. Ainsi, s'imposent facilement les quelques clones sélectionnées que l'on réintroduit après la pasteurisation. Le résultat sur le goût du fromage est similaire à celui obtenu avec le pain à la levure. C'est pauvre et terriblement prévisible.
Pour obtenir du levain, il faut un peu de farine, de l'eau et du temps. Dans un verre, qu'on ne couvrira pas, on délaie un peu de farine et d'eau tiède. On laisse le mélange dans une atmosphère douce pendant quelques jours. Pour aider, on peut écraser un grain de raisin ni lavé ni essuyé ou ajouter une pincée de sucre. De temps en temps, on rajoute une cuillère de farine et d'eau. Invariablement, le mélanger fermente. À force d'ajouts, on obtient une balle de pâte molle et odorante. Plus herbeux en hivers, franchement alcooliques lorsque la température monte, les tons varient et ne sont jamais purs. Il ne faut pas rejeter quelques notes amères de moisissures, pourvu qu'elles ne prédominent pas. Bien sûr, on ne fait pas le levain à chaque fournée. Avant le façonnage, on récupère une poignée de pâte pour ensemencer le pétrin suivant.
Pour la farine, j'ai choisi un seigle type 130 en mélange 50/50 avec un blé type 80. On peut remplacer le blé par le grand épeautre (spelta). Céréale de terres pauvres et froides, le seigle vient de Haute-Loire. Le blé est cultivé en Picardie. Ben si, on peut trouver des céréales bio en France. Pour le sel, on aura la main légère.
La durée de la première fermentation (le point) est l'élément déterminant, avec le levain, pour le goût du pain. Après le pétrissage, on laisse la pâte reposer en une seule boule. Le minimum, à condition d'avoir 25 °C, est de trois heures. Mais je trouve cette valeur un peu basse. En fait, le point peut durer la nuit. Plus la masse fermente, plus les arômes s'élaborent. En été, c'est une vraie cornue d'alchimiste. Après le façonnage, on laisse aux pâtons le temps nécessaire pour aérer la pâte. Deux heures, parfois beaucoup plus s'il ne fait pas chaud.



 
Le seigle forme des pains denses, qui doivent être cuits à température modérée mais assez longtemps.

Pour la cuisson, j'ai improvisé un four, une poêle en fonte épaisse ajustée à un couvercle de cocotte en fonte. Le tout est isolé par de l'alu, du papier épais et un tissu. La chaleur est ainsi confinée dans l'espace entre poêle et couvercle. Il faut bien préchauffer ce four. Une cuisson trop rapide brûlerait la croûte et laisserait l'intérieur trop humide. Il faut jouer du thermostat, l'odeur est un guide sûr pour ça. L'inertie thermique de la fonte est une alliée.
Après quelques essais, le résultat est satisfaisant et même réjouissant !

dimanche 9 mars 2014

Bitcoin : une régression monétaire

Le Bitcoin est un protocole de transactions de pair à pair - décentralisé - promu comme système de paiement. Les échanges sont libellés en bitcoins, une unité à laquelle on a un peu vite fait d'attribuer les qualités d'une devise internationale, ainsi que les atours - un symbole barré, des images de pièces en or avec un slogan latin (Vires In Numeris - La force du nombre), etc.

La monnaie est un  objet choisi par un groupe comme représentation d'une valeur. C'est un contrat social. Il peut servir, au choix, d'unité de compte, de moyen d'échange, de réserve d'épargne. C'est la promesse faite par le groupe à l'individu que le coquillage, le bout de papier ou la suite de bits, qu'il a obtenu en échange d'un travail ou d'un bien tangible, lui permettra d'acquérir un équivalent, dans le futur. C'est donc une dette.

Cette garantie d'être remboursé un jour élargit beaucoup la possibilité de commercer, y compris avec des inconnus. Et ce jeu va de pair avec des règles claires et connues de tous, à défaut d'être comprises. En zone euro, par exemple, la cible officielle d'inflation est de 2% par an, pour accompagner la croissance (potentielle) des échanges et éviter une déflation sans trop éroder l'épargne (OK, ça fait beaucoup). Pour certaines monnaies locales (le Chiemgauer, en Basse-Saxe), un système intégré d'inflation incite les acteurs à ne pas épargner, le but étant de stimuler le commerce. Les SEL (Systèmes d'échanges locaux) sont explicitement faits pour promouvoir les entreprises locales, l'action sociale (Timebanks.org), l'échange de savoirs et l'éducation (Saber au Brésil, Moniba, expérience au Mali). Les titres restaurant sont des monnaies complémentaires propres à un secteur d'activité. Leur règles d'usage sont, là encore, connues et bien définies.

Concernant le crédit (ou le compte) bancaire, qui est reconnu comme monnaie depuis 1914, le garant en dernier ressort est l'État souverain, qui impose, là aussi, ses règles.

Comment le bitcoin s'inscrit dans ce tableau ? Il a pu être présenté comme une alternative aux monnaies souveraines en apportant une garantie collective à la place de celle de l'État. Les geeks libertariens ont été séduits par cette perspective de retirer au monstre froid une de ses prérogatives. Certains libertaires nerds y voient un moyen de s'affranchir des banques capitalistes qui ont provoqué la crise financière de 2008.

Si le Bitcoin apporte du neuf, c'est sur les moyens d'échange. Jusque là, on ne savait pas comment garantir l'unicité d'une transaction sur un réseau sans base de donnée centrale - ou sans instance centrale, qui aurait autorité. On imagine déjà l'appliquer à divers aspects du réseau mondial (le nommage avec Namecoin). Sur les autres rôles de la monnaie, le bitcoin semble vraiment à côté de la plaque. Sa valeur, extrêmement variable, en fait une mauvaise réserve d'épargne et une unité de compte vraiment très volatile. Quand au moyen d'échange, une autre caractéristique du bitcoin le rend inapte, c'est la déflation programmée dans son code. Au fil du temps, la quantité de bitcoins émise décroît. Elle s'arrêtera dans un temps fini.

Fichier:Total bitcoins over time.png
 (image venant d'ici: https://en.bitcoin.it/wiki/File:Total_bitcoins_over_time_graph.png)

Si les échanges devaient se développer dans cette monnaie, le prix des marchandises ne cesserait de baisser, ce qui inciterait les acheteurs à reporter leur achat et les vendeurs à choisir une autre unité monétaire. On voit bien la contradiction.

On voudrait que le bitcoin ressemble davantage à un bien qu'à une monnaie. S'il avait une utilité en soi, comme les noms de Namecoin, ça pourrait se soutenir. La comparaison avec les métaux précieux, qui ont servi de base monétaire pendant longtemps, est encore plus sotte. Ces métaux sont utiles, dans des sociétés de l'antiquité aussi bien qu'à l'âge de l'espace. Et ils sont rares, alors qu'il suffit de créer un CoinBit pour multiplier les signes numériques. Quoi qu'il en soit, le retour à une monnaie-marchandise serait un retour au troc.

Le seul intérêt du bitcoin est pour ceux qui y sont entrés en premier, lorsque la création en était facile. À présent qu'ils en possèdent un paquet, ils s'emploient à en faire grimper la cote. C'est ainsi que j'écoute les évangélistes invités sur les plateaux (Bitcoin au Téléphone sonne - France Inter). Heureusement, il y a aussi d'excellents articles pour garder les idées claires et la tête froide.

jeudi 27 février 2014

Fin de Windows XP : Ne jetez pas les machines !

Windows XP arrive en fin de vie. C'est le 8 avril 2014. Et, en janvier 2014, Windows XP représente 29,3 % des systèmes de bureau, selon Netmarketshare.

Ce n'est que rarement un problème pour la plupart des consommateurs qui, séduits pas les blandices marketing des supermarchés, ont depuis longtemps troqué leur tour tout acier et leur écran CRT, livré à l'époque avec Windows XP, contre un joli *Phone noir obsidienne pour les garçon, rose HelloKitty® pour les filles. Et tout le monde se moque du système qui l'anime, pourvu qu'il y ait un *Store. Enfin, ce n'est pas vrai pour les vieux, qui achetaient des DVD de jeux dans les années 1990. Ceux-là garderont une machine virtuelle XP quelque part.

Chez les professionnels, Les évolutions sont encore plus lentes, à cause de l'adhérence des programmes, qui subsiste malgré la (re)centralisation des applications. A-t-on jamais vu une machine totalement détachée des logiciels avec lesquels elle interagit ? Et puis, il y a le matériel. J'ai eu l'exemple d'un scanner à négatif haut de gamme et hors de prix, inutilisable sans un pilote XP.

J'ai été surpris d'apprendre que de nombreux dispositifs informatiques qui ne sont pas des PC, sont équipés de Windows XP. C'est le cas de distributeurs bancaires, comme une récente affaire de piratage l'a rappelé. C'est aussi le cas de contrôleurs d'équipements industriels, dont on ne change pas le code comme on repasse une couche de peinture. Et certains de ces appareils sont reliés à internet. La question a été soulevée lors du panorama de la cybercriminalité du Clusif, en janvier.

IT is legacy

Contrairement à une idée courante, l'informatique n'est pas une course sans répit à la nouveauté. C'est au contraire, « l'art d'empiler les technologies au fil du temps » comme me confiait un DSI. Les bus applicatifs, les proxies inverses, la virtualisation, l'urbanisation des SI, toutes ces techniques, ces méthodes, servent à accommoder l'héritage.

Garder ce qui fonctionne, c'est un principe économique. C'est aussi une nécessité devant la raréfaction des matières premières et de l'énergie. La construction d'un ordinateur neuf en mobilise de belles quantités, tandis que la prolongation de la vie du matériel épargne beaucoup de ces ressources non renouvelables et en voie d'épuisement.

Ne pas jeter !


Un Power Macintosh G5. Image par Grm_wnr.

Un matériel informatique devrait pouvoir durer plus de six ans, comme le recommande le groupe EcoInfo du CNRS. À mon avis, on peut aller un peu plus loin pour les machines professionnelles. Même celles conçues vers 2005 sont encore capables de rendre de grands services, d'autant que le besoin de puissance de traitement pour les tâches courantes stagne depuis lors. Pour les portables, tout ce qui a un Core 2 Duo@1,5 Ghz est parfait pour le web, si on oublie les vidéos 1080. On en trouve d'occasion à 150 €. Les stations de travail de l'époque sont parfois des aubaines. Sur le Macintosh G5 bi-processeurs, la bande passante du chipset est supérieure à 20 Go/s, ce qui n'est pas éloigné des bons PC actuels. Avec cinq ports PCI Express (dont un 16x) et deux Gigabits Ethernet, il fait un serveur tout à fait crédible pour un groupe de travail.

Quelle rénovation ?

Suivant l'usage prévu, on peut ajouter de la mémoire. Le remplacement des disques, qui après cinq ans pourraient manquer de fiabilité, ne sera sans doute pas en option. Les SSD sont particulièrement intéressants pour les portables. Pour le logiciel, il n'est pas toujours possible d'effectuer la mise à jour vers la version actuelle du système, à cause des exigences en ressources de celui-ci ou de ses incompatibilités avec l'ancien matériel. Un système Linux ou BSD quelconque est souvent le seul choix possible. Mais c'est aussi le meilleur si on considère leur aptitude à être utilisés dans une grande variété de situations.

Linux au travail

Récemment, j'ai affecté un Mac G5 dans le rôle de serveur de fichiers et de sauvegardes, pour une association dont l'informatique est en partie de ma responsabilité. La conception de cette machine est à pleurer de joie et on la dirait faite pour marcher pendant cinquante ans encore. Elle servait de station de PAO, mais son système, qui n'est plus mis à jour par Apple depuis longtemps, est devenu presque inutilisable. Après un essai avec NetBSD, qui posait quelques problèmes, le G5 a hérité d'une Debian 7, dans sa déclinaison pour Power Macintosh. Netatalk, un logiciel serveur de fichiers (Apple Filling Protocol), a pu interconnecter les (très) vieux Mac, dont il fallait extraire des données archivées, et les Mac Intel, qui ont traduit ces fichiers dans un format moderne.

Il restait à créer un partage Windows en réseau, pour que les Mac puissent échanger des données avec le système d'information géographique sous Windows 7 et offrir à ce dernier un espace de sauvegarde. Là, on a confié le travail à Samba 3, qui donne au Mac G5 tous les attributs d'un serveur Windows. Une mise à jour du réseau vers le Gigabit Ethernet ne sera pas du luxe, considérant le volume des données à échanger, plusieurs dizaines de gigaoctets à chaque fois.

Cet exemple illustre comment du matériel ancien peut continuer à servir, alors même que les éditeurs de systèmes fermés s'en désintéressent.

lundi 10 février 2014

Libé, réseau social ?

À la lecture du peu d'information parue sur le projet des actionnaires de Libération, il est bien difficile d'émettre un avis ou une critique un peu argumentés. Erwann Gaucher fait observer avec raison que l'immobilier parisien ne serait pas une si mauvaise vache à lait et que le slogan « Le Flore du XXIe siècle » sonne un peu creux tant qu'on ne voit pas ce qu'on va y mettre dedans. Cette réserve faite, je pense que l'idée de faire d'un journal un réseau social n'est pas fondamentalement mauvaise (je la défends dans un précédent billet). Mais là encore, il faut s'entendre sur ce que ça signifie.
Les réseaux sociaux numériques sont aujourd'hui des carrefours où l'on échange contenus et discussions. Ces contenus, apportés par les utilisateurs, sont produits par des professionnels ou les utilisateurs eux-mêmes et ils ne coûtent rien aux opérateurs de ces réseaux sociaux. Ces opérateurs se sont placés au centre du processus de diffusion de l'information et ils en tirent une masse de renseignements utiles au commerce et à la publicité. Les médias qui payent des professionnels pour produire de l'information se sont laissés déposséder d'une partie très significative de la distribution numérique et des revenus qui y sont attachés.
Pour revenir au centre de la Toile, les journaux doivent cesser d'être des cul-de-sac – des points d'arrivée – mais des lieux d'échange – des carrefours. C'est ainsi que je comprends l'idée de « hub d'information » exposée par Nicolas Kayser-Brill. Le datajournalisme intéresse la phase amont du flux d'information, la capacité des médias à traiter, avec leur savoir-faire et leur éthique, la masse de données qui arrive. Le réseau social, c'est l'aval du processus, le devenir de l'information – et sa commercialisation. Ça signifie que les journaux numériques devraient intégrer, à l'image de Facebook, Twitter, G+, des fonctions de contacts interpersonnels, de partage de liens (y compris en provenance de concurrents), mais aussi de crowdsourcing, ainsi que des API (interfaces de programmation).
Si on était dans les années 1950, le Flore ne serait pas une si mauvaise image. C'était un café fréquenté par des intellectuels et des artistes et on y lisait la presse de qualité. Aujourd'hui, le café y est hors de prix et on peut y voir des voitures de sport italiennes garées devant. Pas sûr que cet attirail cliquant soit le meilleur symbole de la presse à l'âge numérique. On croise les doigts pour Libé.

vendredi 10 janvier 2014

Les journaux, envisagé comme des réseaux de lecteurs

Ça m'a frappé. Le montant des offres de rachat sur Snapchat. Quatre milliards de dollars, refusés, pour une entreprise créée il y a deux ans, créatrice d'une application de photos évanescentes pour ados en recherche d'émois. En parcourant les nouvelles du jour sur mon agrégateur préféré, je tombe quelque temps après sur les malheurs de la presse, qui a du mal à financer ses sites par la seule publicité en ligne et qui recherche toujours son modèle économique pour l'âge numérique. Ça m'évoque un koan zen à propos d'une vache qui marche jusqu'au bout de l'Univers. J'ai oublié la question du Maître mais la réponse est : « Elle crève en route ».

La conjonction des deux nouvelles est étrange. Les journaux fabriquent l'information et sont pauvres tandis que réseaux sociaux diffusent cette même information et font l'objet des attentes les plus follement optimistes – il est vrai qu'on projette des croissances à deux chiffres dans les années à venir. Les premiers pourraient-ils apprendre quelque chose des seconds ?

Les réseaux sociaux, une pratique ancienne.

Les réseaux sociaux qui marchent ont su faire coïncider leurs services avec les interactions sociales préexistantes de leur public. Dit plus simplement, ce sont des lieux accueillants pour la conversation, souvent à propos des nouvelles du jour. Des équivalents de la cour du lycée, du bistrot, de la machine à café du bureau ou des dîners en ville. L'utilisation la plus fréquente est le copier-coller d'un lien vers un article de la presse en ligne pour lancer la conversation entre amis.

Bien connaître son public – ou chacun de ses lecteurs.

Ces sites ou applications valorisent l’utilisateur en le mettant au centre de son expérience, avec ses préférences, ses photos, ses vidéos et sa coterie. Aujourd’hui, l’invention de soi prime sur les affiliations héritées. Qui parle encore des masses populaires ou des mass-medias ? Qui lit le même journal que ses parents ?

Cette fragmentation des publics peut être la cause d’une certaine instabilité de l’audience. Pourquoi tel ou tel réseau serait plus adapté aux jeunes ou aux sportifs ? Les ados fuiraient Facebook parce que leurs parents commencent à l’utiliser. N'est-ce qu'une question de mode ? Certes, les premiers établis, à condition qu'ils soient accueillants, ont une prime en vertu de la loi de Metcalfe et des tombereaux d'argent levés en bourse, employés à racheter les concurrents en devenir. Mais on peut quand même parier que les réseaux sociaux de demain ne sont pas encore nés.

Un partenariat gagnant-perdant.

Les relations avec la presse sont naturelles mais pas dénuées d’ambiguïtés. Les réseaux sociaux se nourrissent de la presse. Twitter et consorts ne produisent ni ne financent aucun contenu, tout leur est apporté sur un plateau par les utilisateurs, la presse et les industries culturelles elles-mêmes. D’autre part, les journaux incitent leurs lecteurs à relayer leurs contenus sur ces réseaux, qui représentent une source importante d’audience.



Mais qui gagne le plus à ce jeu ? Sûrement pas la presse. Le lecteur né en ligne et non-abonné rapporterait 10 à 20 fois moins que sa version Gutenberg. Remarquez, les réseaux sociaux ne roulent pas tous sur l'or : Certes, le revenu par utilisateur de Google est de 42 € en 2012 mais celui de Facebook est de 5,4 € (chiffres obtenus à partir de sources ouvertes et similaires à ceux du WSJ mais différents de ceux de Forbes). Pour un réseau spécialisé (dans l'emploi) comme LinkedIn, on a 7,7 $ par utilisateur au niveau mondial. Ce qui équivaut à deux fois le revenu par lecteur non-payant des journaux en ligne.

Grâce à la connaissance fine de leur public les réseaux sociaux vendent une publicité personnalisée, très efficace et rémunératrice.

Big(Personal)Data.

Cette valeur, les réseaux sociaux l'extraient de la connaissance qu'ils ont des relations entre les gens. Ils se sont mis au centre des interactions sociales, à l'endroit où ils peuvent les observer, les analyser. Eux en tire un profit commercial mais la NSA ne s'y est pas trompée en se branchant directement sur eux avec PRISM. Régulièrement, on feint de s'étonner que tel ou tel espionne les courriers personnels mais il suffit de lire les conditions d'utilisation pour constater qu'on est très sérieusement « profilé » et qu'on a accepté. Des universitaires ont travaillé avec des profils Facebook de volontaires pour en extraire des informations non exprimées par l'utilisateur. On peut faire le test rapidement avec You Are What You Like.


La simple utilisation d'un ordinateur pour rechercher de l'information dévoile presque tout de l'être social. Les façons de monnayer cette connaissance semblent n'avoir pour limite que l'imagination. La précision publicitaire peut exploiter, par exemple, la localisation (annonces d'emploi, de rencontres, services à la personne, immobilier), les trajets (transports, auto-partage, sorties, loisirs), etc. Qui décidera où s'arrêter ?

Aujourd'hui, les journaux en ligne, même participatifs, ne sont pas des réseaux (sociaux) de lecteurs.

Sur ces sites, les articles occupent l'essentiel de la place. Les commentaires sont en dessous de la limite inférieure de l'écran. L'interaction entre lecteurs est faible. Pour s’inscrire comme contributeur, il faut souvent être abonné au contenu payant.

Un réseau de lecteurs serait d'abord un réseau social, où l'on retrouve des amis qui postent des liens vers tous les médias ou sites web, ce qui est très confraternel. L'essentiel est dans la conversation. On retrouverait une hiérarchie de l'information (ego-centrée, il est vrai) que les rédactions en temps-réel et les mises en page style blog ont contribué à affaiblir.

Il n'est pas évident que les deux logiques puissent toujours cohabiter au sein de la même page.

À l'image des journaux qui en sont à l'initiative, ces réseaux de lecteurs agrégeront des communautés suivant un centre d'intérêt (économie, sport, sciences, informatique…), un attachement régional, linguistique ou une sensibilité politique ou religieuse. Verra-t-on renaître des affiliations autour de la presse ? Quoi qu'il en soit, les journaux sont légitimes dans ce rôle de fédérateurs de communautés, autour d'un contrat de conversation.

Et je soutiens qu'ils devraient prendre une place à côté des géants américains, à l'extrémité de la chaîne de distribution numérique, parce qu'il s'agit d'une part importante de leur métier de médiateurs de l'information, parce qu'ils feraient ce métier avec une éthique de journalistes et que leurs lecteurs, en tant que citoyens, auraient un droit de regard sur les lois régissant leurs données personnelles.

lundi 7 octobre 2013

Densité et risque collectif lié à la pollution de l'air

Dans le précédent post, une carte superpose les densité de population de la France à des diagrammes montrant le nombre de jours irrespirables dans les aires urbaines délimitées, ainsi que leur proportion dans l'année. Cette abondance d'information n'est pas très lisible et n'illustre pas le problème exposé dans l'introduction, à savoir l'impact sanitaire de cette pollution. Pour ce qui est de la question posée dans le titre, où habiter en France pour bien respirer, un chiffre aurait suffi (le nombre de jours irrespirables par an), éventuellement surchargé d'un code de couleur.
Dans cette carte, on montre le nombre de personne-jours irrespirables, une grandeur forgée en multipliant la population et le nombre de jours de pollution auxquels elle est soumise. Ainsi, la comparaison entre les aires urbaines sur le plan de l'impact sanitaire de la pollution est facilitée. La précédente carte le faisait de façon implicite est pas très claire. Là, le diagramme est univoque, porteur d'une seule information. Sa surface devrait être proportionnelle au surcroît de mortalité, en valeur absolue.

(cliquer sur la carte pour avoir l'image en grand - nouvelle fenêtre)



On remarque sans surprise que ce que les personnes-jours pollués sont sur les grandes concentrations de population, Paris, Lille, Lyon, Marseille. En fait, ce sont deux aspects de la même chose et il ne faut pas fonder une analyse dessus. Si on veut faire ressortir des causes de la pollution, il faut croiser des variables indépendantes, comme la population ou la superficie avec le nombre de jours pollués.

Le nuage de points obtenu à partir de ces variables ne montre aucune relation entre elles. La densité, en revanche semble avoir un effet, même s'il est assez faible.



Ensuite, on ne peut pas faire l'économie d'un raisonnement sur l’origine des données. La surveillance de l'air concerne uniquement des zones urbaines, peuplées et denses par définition, qui sont susceptibles d'être polluées à l'occasion. On n'a pas Rodez, ni Lannion, ni Bastia. Les campagnes sont absentes. Tout le matériel dont on dispose est peu ou prou homogène. Il est plus difficile dans ces conditions de montrer des causes sous-jacentes.
La carte laisse voir malgré tout la corrélation entre une forte densité de population et un risque collectif lié à la mauvaise qualité de l'air. Elle souligne incidemment les très grandes disparités de répartition de population et le fait qu'une grand partie du territoire n'est pas couverte par le radar.



Nombre de jours pollués: Il s'échelonne entre 31 et 194, avec une médiane à 83,95 et une moyenne à 92,98.

lundi 19 août 2013

Où respire-t-on bien en France ?

Les chiffres des l'étude CAFE (Clean Air for Europe), 30000 morts prématurées par an en France dues aux diverses pollutions atmosphériques, amènent la question : Où respire-t-on du bon air ?

La réponse est dans d'autres chiffres, publiés par le ministère parisien de l'air pur, mais ces données livrées en feuilles Excel par kilos de bits sont assez peu lisibles. Mieux vaut une carte, qui a l'avantage de mettre en relation une représentation de l'espace et les informations que l'on souhaite présenter. L'outil permettant ce rapprochement est un système d'information géographique (SIG), j'ai utilisé pour ce travail Quantum GIS.

Combien de gens respirent cette merde ?

Il existe des cartes de la pollution basées sur les données ATMO mais je souhaitais mettre en évidence les niveaux de pollution propres à chaque aire urbaine et l'importance de la population qui y est soumise, dans la perspective d'évaluation des risques collectifs de l'étude CAFE.

Le fond de la carte représente la densité de population, depuis le quasi-désert bleu ciel (inférieur à 37 hab/km2) au rouge vif du coeur des métropoles (plus de 40000 hab/km2).
Là dessus, j'ai délimité les aires urbaines couvertes par les statistiques de surveillance de l'air du réseau ATMO. Pour chacune, les portions de camembert indiquent la proportion de l'année où l'air est bon ou très bon (vert), moyen ou médiocre (jaune) et mauvais ou très mauvais (rouge). Le chiffre indiqué en gras représente le nombre de jour dans l'année où l'air n'est pas bon. Les données fournies sont une moyenne sur les années 2005 à 2009.
La surface du diagramme fromager est proportionnelle à la population.

Cherche ville moyenne, au nord ou à l'ouest

L'air n'est pas trop mal dans les agglomérations moyennes situées dans la partie ouest du pays ou sur les côtes Atlantiques et de la Manche. Ainsi, l'air est souvent qualifié de bon à Limoges, Caen, Brest, Rennes et Dunkerque. À l'inverse, les agglomérations importantes, loin dans les terres et celles bordant la méditerranée sont défavorisées. La montagne n'est pas épargnée par la pollution, il est vrai que les grandes villes sont situées dans des vallées ou des cuvettes. Il faudrait aussi affiner en montrant la nature de la pollution (Ozone, NOx, SO2 ou particules) pour déterminer la source (industrie, automobiles) mais les chiffres du fichier que j'ai utilisé ne donnent ce détail que pour les jours en rouge, trop peu nombreux pour être significatifs.

On constate que les grandes concentrations de population respirent un air médiocre trop souvent. Lyon et Marseille semblent être dans une situation préoccupante, avec un air moyen ou pire plus d'un tiers de l'année. Cette pollution de fond favorise ou aggrave des affections et abrège la vie. Les causes sont sans doute liées en partie à la densité même de ces aires urbaines : circulation automobile, chauffage des bâtiments. L'effet sanitaire est multiplié par le nombre d'habitants soumis à ces pollutions, ce que la représentation sous forme d'aires proportionnelles permet d'apprécier d'un coup d’œil.

Le croisement avec d'autres données - force des vents dominants, ensoleillement, présence d'industries - serait nécessaire pour livrer une analyse plus précise.

À défaut de pouvoir construire les villes à la campagne, on devrait pousser les feux d'une révolution en matière de transports urbains et d'efficacité énergétique des bâtiments.

Cliquer sur la carte pour explorer les détails
 

lundi 15 juillet 2013

Voir les données : longueurs, surfaces, volumes.

Donner à voir des données, des abstractions, n'est pas toujours chose simple. Le passeur est souvent coincé entre l'indigence des grapheurs intégrés aux tableurs, lesquels se limitent grossièrement à des histogrammes et des camemberts, et la virtuosité dont un David McCandless donne un bel exemple, pas encore accessible au vulgus pecum scribouillardis.

Un écran, un bout de papier, donnent pourtant tout un éventail de moyens d'expression simples. Mais peut-être, comme en physique on ne peut comparer des longueurs et des masses, il faudrait s'efforcer de garder alignés le réel et sa représentation graphique. Bon, des exemple peut-être ?

On constate généralement qu'une longueur peut toujours être exprimée par une autre.

Distance réalisée avec 5 litres de carburant, pour une tonne, suivant le mode de transport.



Après, pour des notions plus complexes, ça se corse un peu. La tonne.kilomètre, en multipliant une masse et une distance, exprime le travail nécessaire à un transport quelconque et ainsi compare des réalités aussi différentes qu'un livre d'une livre expédié en express par vol transatlantique et une barge de 1000 t de gravier traversant le Rhône. Ce genre travail devrait pouvoir être exprimé par une surface.

Les transports en France, en 2011, suivant le mode (Ministère du développement durable).

 

Enfin, pour représenter le CO2 craché par divers modes de transport par tonne.kilomètre (tk) transportée, c'est carrément le dilemme. On pourrait dire de cette masse (volume) de gaz émis (après élimination du facteur commun 1/tk) qu'il serait juste de la montrer sous forme de ballons ou de cubes. L'ennui de ce choix, c'est que l'arête des cubes serait proportionnelle à la racine cubique de la valeur, ce qui aurait pour effet d'écraser les rapports entre les valeurs, surtout si on n'a pas les moyens graphiques de donner l'impression de volume. Bref, pour moi, la surface n'est pas à exclure.

Et puis, on parle d'empreinte écologique, non ? Encore une surface.

Bon, promis, la prochaine fois j'essaierai avec des volumes.