Une nouvelle façon d'interroger des quantités massives de données géospatiales matricielles

5 novembre 2013

Ecometrica est une plateforme d'analyse géospatiale en ligne qui applique des modèles complexes à plusieurs couches de données géospatiales et vous donne des résultats sur des polygones arbitraires contenant plusieurs millions de cellules en quelques secondes. Et ce, sans utiliser aucune de ces astuces :

  1. devoir précalculer les résultats des modèles pour créer une couche de cache des résultats calculés
  2. précalcul des résultats intermédiaires avancés à des niveaux de zoom plus grossiers
  3. Pré-calcul des résultats pour les "polygones de requête probables".

L'OE fait effectivement #3 pour des polygones prédéfinis afin que certaines requêtes reviennent en une fraction de seconde au lieu de secondes, mais elle peut toujours recalculer les résultats à partir de zéro en quelques secondes. Nous pourrions implémenter ces astuces plus tard, et d'autres les utilisent, mais leur utilisation se traduit par un système moins flexible - changer tout ou partie des modèles, des données, des requêtes ou des polygones à interroger implique une série de pré-calculs coûteux, alors que l'ENP n'en a pas besoin. Comment cela fonctionne-t-il ?

Contexte

Il y a beaucoup de moyens pour modifier, combiner et interroger des données géospatiales matricielles. Il en existe même quelques-unes pour afficher ces données en ligne, dont certaines sont vraiment très utiles. magnifique d'autres. Certaines de ces offres de cartographie en ligne sont réalisées en Flash ou Silverlight, ce qui nécessite un plugin, tandis que d'autres sont réalisées avec des normes Web pures et fonctionnent sur la plupart des navigateurs et des appareils. Elles varient toutes en termes de fonctionnalité, de facilité d'utilisation et d'expérience utilisateur, et vous permettront de laisser vos clients visualiser un nombre illimité de points, de vecteurs, de polygones ou de données matricielles sur de superbes cartes de base.

Capture d'écran de OE NBM

La métrique normative de la biodiversité d'Ecometrica, visible *et* interrogeable

C'est très bien pour examiner des données pré-agrégées dans un contexte géographique. Par exemple, la population par groupe d'âge dans une ville ou un État. Et cela couvre la plupart des cas d'utilisation des cartes en ligne (à part, bien sûr, le fait de vouloir...). regarder des cartes réelles en ligne). Cependant, de nombreuses organisations ont besoin d'effectuer des analyses réelles sur des données géographiques. Par exemple, il s'agit de déterminer si les forêts d'une zone donnée sont en expansion, ou de détecter l'utilisation des sols d'une zone (l'utilisation des sols étant l'agriculture (et quelle culture ?), ou une zone boisée (et quel type d'arbres ?), des tourbières, etc.) Pour ce faire, il faut :

  • télécharger les données satellites brutes de la zone
  • trouver ou développer un modèle qui vous donne les données dont vous avez besoin, à partir des données que vous avez
  • acheter un logiciel de système d'information géographique (SIG) de bureau (tel que ArcGIS)
  • appliquer ce modèle aux données, pour les domaines dont vous avez besoin
  • utiliser le logiciel pour mettre en œuvre le modèle, définir vos zones et appliquer le modèle
  • attendre la fin des calculs
  • intégrer les résultats dans une sorte de rapport
  • rincer et répéter pour chaque zone, plage de dates ou modification de modèle

Certaines organisations embauchent des personnes en interne pour ces tâches. D'autres externalisent le travail. Mais, la plupart du temps, le travail sera effectué en suivant ces étapes. Dans certains cas, vous pouvez avoir de la chance et la métrique que vous recherchez est également recherchée par d'autres personnes, ce qui signifie qu'il existe déjà des données gratuites ou des données disponibles à l'achat à un prix plus avantageux que si vous aviez dû engager quelqu'un pour le faire. Cependant, les données ne couvrent toujours pas la zone dont vous avez besoin. Vous devrez donc probablement télécharger les données, les ouvrir dans un SIG, importer vos zones et effectuer une certaine forme d'agrégation. Ou bien vous utiliserez la valeur d'une zone, telle qu'un État, qui est proche de la zone qui vous intéresse dans les données d'origine.

Prenons un exemple simple. De nombreuses entreprises achètent aujourd'hui des crédits carbone, pour compenser les émissions causées par leurs activités (qui Durabilité d'Ecometrica peut mesurer avec précision !). Vous vous êtes déjà demandé d'où venaient ces crédits ? Certains proviendront de zones en cours de déboisement, au Brésil par exemple, par une entreprise. Cette entreprise, appelons-la NewForest, a acheté des droits sur une grande zone non boisée (une ancienne ferme par exemple). Elle plante des arbres et vend les crédits de carbone à une autre organisation, appelée CleanCarbon. CleanCarbon achète des crédits à de nombreuses organisations, pas seulement à NewForest. Et ils revendent ensuite ces crédits à des entreprises en tant que compensations de carbone. Mais comment CleanCarbon peut-elle être certaine que NewForest est de planter ces arbres ? Ou que les arbres sont cultivent et stockent réellement du carbone ?

Ils peuvent envoyer du personnel sur place, mais il serait presque impossible de visiter l'ensemble du site, pour tous les sites. Ils peuvent regarder manuellement des photos satellites, mais comment savoir si la zone verte est une forêt haute, et pas seulement des buissons ? Ils peuvent donc engager un spécialiste SIG, ou sous-traiter le travail à une société SIG, qui utilisera ensuite des modèles pour déterminer, à partir d'images satellite dans différentes bandes, le carbone aérien stocké dans la végétation, en utilisant différents modèles. Ils devront continuer à payer pour effectuer ce travail régulièrement, disons sur une base annuelle, pour toutes les zones où ils achètent.

L'ENP peut vous aider

Notre écosystème n'est pas simplement un produit de cartographie en ligne. Franchement, d'autres ont créé de meilleurs produits à cet égard, et nous en sommes conscients, puisque nous avons, par exemple, remplacé nos cartes de base par celles fournies par les services suivants MapBox (si vous voulez un moyen facile de créer de belles cartes personnalisées sans jamais toucher à un logiciel SIG, c'est un excellent endroit où aller, d'ailleurs).

Cependant, nous pensons que personne n'a fait quelque chose comme OE. OE vous permet de résoudre le problème de CleanCarbon, et bien d'autres. Il vous permet d'exécuter des modèles de données complexes sur des données géographiques pour n'importe quel polygone arbitraire en quelques secondes. Dans un cas comme celui de notre entreprise fictive CleanCarbon, ils pourraient choisir l'une des mesures que nous avons déjà développées et obtenir leur propre site OE de marque, et obtenir des résultats pour toute zone qui les intéresse, y compris des résultats historiques, et recevoir des rapports automatisés sur la croissance des zones dans lesquelles ils ont investi. Ils pourraient également définir une alerte, ce que nous sommes en train de mettre en œuvre, de sorte que toute déforestation dans la zone (causée par la coupe d'arbres ou les feux de forêt) déclencherait une alerte à leur intention. L'ENP leur permettrait de calculer les résultats pour n'importe quelle zone, et pas seulement pour les zones d'intérêt prédéfinies, en quelques secondes, et de télécharger les résultats sous forme de feuille de calcul ou de rapport PDF.

Bien sûr, ils ont également la possibilité de demander à notre équipe scientifique de mettre en place des mesures personnalisées qui leur conviennent mieux. En quoi cela diffère-t-il de la situation actuelle, où ils doivent embaucher un spécialiste ou externaliser le travail ? Dans ce cas, une fois que la mesure ou le modèle a été défini et introduit dans l'ENP, la configuration des sources, l'ENP se chargera du travail pour eux, et il ne sera pas nécessaire de payer des personnes pour refaire le travail réel et exécuter les rapports. En outre, ces nouvelles mesures seront entièrement interrogeables pour n'importe quel domaine, et CleanCarbon recevra ses alertes et ses rapports automatiquement lorsque de nouvelles données arriveront. Considérez cela comme des frais de personnalisation uniques pour développer des mesures, des indicateurs, des alertes et des rapports sur mesure.

La technologie

Alors, comment pouvons-nous y parvenir, alors que même les logiciels de bureau vous font attendre vos résultats ?

Pour ce faire, l'ENP intègre une technologie propriétaire sous le capot, des algorithmes et des formats de stockage qui ont évolué au fil des années de recherche et de développement. Au tout début, nous avons commencé à utiliser des technologies standard - comme PostGIS - qui existent pour stocker et interroger des informations géographiques. Bien que ces technologies soient excellentes pour réaliser des produits de démonstration, elles commencent à s'effondrer lorsque vous avez des millions de points, et deviennent complètement inutilisables lorsque vous devez interroger des couches multiples de centaines de millions de points de données géolocalisés et/ou de polygones complexes.

Nous nous sommes ensuite rendus à geohashingIl s'agit d'un moyen d'encoder des coordonnées géographiques en une seule chaîne, dont la longueur encode la résolution des coordonnées. Si vous y réfléchissez bien, vous codez des cellules - des boîtes. Vos cellules doivent tomber sur des emplacements prédéterminés pour une résolution donnée, et les résolutions sont également fixes, mais cela signifie qu'une chaîne unique fait référence à une cellule d'une taille donnée à un emplacement donné. Ainsi, les bases de données peuvent en fait indexer très efficacement et interroger rapidement. Il s'agissait de notre deuxième incarnation du moteur de stockage et d'interrogation, et elle nous a permis d'améliorer de plus d'un ordre de grandeur la vitesse d'interrogation et le nombre de cellules interrogeables.

Bien sûr, je ne peux pas à ce stade donner les clés du château, donc je ne peux pas vraiment discuter des spécificités de la technologie que nous avons développée après cela. Nous sommes passés par d'autres itérations, chaque fois en améliorant d'au moins un ordre de grandeur :

  • la quantité de données que nous pouvions stocker et sélectionner en une seule requête
  • combien de cellules pourraient se retrouver dans un polygone donné pour l'interrogation
  • la complexité du polygone

pour un temps maximum donné pour retourner les résultats. Ce temps était toujours de l'ordre de quelques secondes ou dizaines de secondes. Bien que les utilisateurs puissent facilement accepter que l'exécution d'un rapport en arrière-plan prenne quelques minutes, voire quelques heures, l'ENP doit être en mesure de leur fournir les résultats, y compris des rapports complets, sur n'importe quel polygone arbitraire qu'ils dessinent ou téléchargent puis interrogent immédiatement, et dans ce cas d'utilisation, il est tout simplement inacceptable que le système prenne quelques minutes pour fournir les données dont vous avez besoin.

Données de publication

Nous avons donc discuté de l'utilisation de l'OE pour l'interrogation et le rapport de métriques sur des données géospatiales sur des zones prédéfinies ou arbitraires sur plusieurs couches de données brutes ou traitées, mais un autre cas d'utilisation important pour cela est la diffusion des données. Supposons que vous ayez mené un projet de R&D dans le cadre duquel vous avez développé une toute nouvelle méthode de quantification de la repousse. Au final, vous pourriez publier un article ou deux, et éventuellement mettre les données brutes et traitées à disposition en ligne. Par exemple, un GeoTIFF d'un indicateur de repousse par cellule à un moment donné.

Et puis, c'est tout. Tu espères juste que les gens vont l'utiliser.

OE signifie que cela ne doit pas nécessairement être la fin de votre projet. Le modèle pourrait être incorporé dans OE en tant que nouvelle métrique disponible pour tous, ou disponible à la vente pour ceux qui en ont besoin. Vous pouvez également mettre les résultats du modèle à la disposition de tous sur l'ENP, gratuitement ou en vente avec une version d'aperçu à faible résolution. De plus, tout le monde peut interroger les données, et même les utiliser dans ses propres modèles, sans avoir à télécharger d'énormes fichiers et à utiliser des logiciels SIG compliqués.

Prochainement :

Dans les prochains articles, nous parlerons d'un nouveau système de traçage des ressources en cours de développement, qui permet aux organisations de suivre les ressources liées à des lieux de manière sécurisée et traçable, comme les crédits carbone ou le café biologique, et plus encore !

Perspectives connexes

FR