Posición hidrológica multiorden para Europa: un conjunto de características para el aprendizaje automático y el análisis en hidrología

Noticias

HogarHogar / Noticias / Posición hidrológica multiorden para Europa: un conjunto de características para el aprendizaje automático y el análisis en hidrología

May 15, 2024

Posición hidrológica multiorden para Europa: un conjunto de características para el aprendizaje automático y el análisis en hidrología

Datos científicos volumen 9, número de artículo: 662 (2022) Cite este artículo 1059 Accesos a 5 detalles de métricas altmétricas El conjunto de datos presentado EU-MOHP v013.1.1 proporciona información multiescala sobre la

Datos científicos volumen 9, número de artículo: 662 (2022) Citar este artículo

1059 Accesos

5 altmétrico

Detalles de métricas

El conjunto de datos presentado EU-MOHP v013.1.1 proporciona información multiescala sobre la posición hidrológica (MOHP) de un punto geográfico dentro de su respectiva red fluvial y cuenca como mapas cuadriculados. Más precisamente, comprende las tres medidas “distancia de división a corriente” (DSD) como suma de las distancias a la corriente más cercana y división de cuenca, “posición lateral” (LP) como medida relativa de la posición entre la corriente más cercana y división y “distancia de corriente” (SD) como la distancia hasta la corriente más cercana. Estas tres medidas se calculan para nueve órdenes hidrológicos para reflejar diferentes escalas espaciales, desde local hasta continental. Su extensión espacial cubre la mayor parte del Espacio Económico Europeo (EEE39), que también coincide en gran medida con la Europa fisiográfica. Aunque existen múltiples casos de uso potenciales, este conjunto de datos sirve predominantemente como un valioso descriptor ambiental estático o variable predictiva para el modelado hidrogeológico e hidrológico, como tareas de mapeo o pronóstico utilizando el aprendizaje automático. La generación de este conjunto de datos utiliza únicamente software gratuito de código abierto y, por lo tanto, puede transferirse a otras regiones o conjuntos de datos de entrada.

Mediciones)

dividir a la distancia de la corriente • posición lateral • distancia de la corriente

Tipo(s) de tecnología

Sensores remotos

Característica de la muestra: entorno

cuenca de drenaje • cuenca subterránea • cuenca de captación

Característica de la muestra: ubicación

Europa

En los últimos años, las herramientas de ciencia de datos, como el aprendizaje automático, se aplican cada vez más y se desarrollan específicamente para desafíos hidro(ge)lógicos y preguntas de investigación1,2. En el campo de la hidrogeología, el aprendizaje automático se ha utilizado con éxito para la predicción del nivel de las aguas subterráneas y una variedad de tareas cartográficas3,4,5,6,7,8,9,10,11,12,13. Dado que los modelos de aprendizaje automático (con excepción de los modelos híbridos o guiados por la física) se basan exclusivamente en datos sin ningún conocimiento de los procesos físicos, es importante proporcionar características significativas (también llamadas variables predictivas o explicativas) que afecten a la variable objetivo para que que el algoritmo de aprendizaje automático puede modelar la función entre la entrada y el objetivo. Para los procesos superficiales y cercanos a la superficie, este criterio puede cumplirse más o menos mediante la disponibilidad de datos de teledetección, mientras que para la modelización de procesos subterráneos, como en la hidrogeología, esto plantea un serio desafío.

La motivación clave para este conjunto de datos es cerrar parcialmente esta brecha proporcionando un conjunto de características que introducen el contexto hidrológico a los modelos de aprendizaje automático con respecto a la posición horizontal de un punto dentro de su cuenca. Las tres medidas, determinadas por esta posición horizontal, se calculan para varios de los llamados órdenes hidrológicos. Los órdenes hidrológicos representan diferentes escalas espaciales, desde local hasta regional y continental. Por lo tanto, las medidas sirven como sustitutos de las características geofísicas de los sistemas hidrológicos en múltiples escalas y complementan características comúnmente disponibles y utilizadas, como mapas de uso y cobertura del suelo, geológicos o de suelos. Este conjunto de datos está fuertemente inspirado en Belitz et al.14 y adapta sus ideas y métodos a la “EU-Hydro - River Network Database”15 pero, por el contrario, utiliza software gratuito de código abierto y un fuerte enfoque en la reproducibilidad. Este concepto podría ampliarse espacialmente aplicando los métodos presentados a redes fluviales globales o conjuntos de datos de hidrogramas, como HYDRO1k16 o MERIT Hydro-Vector17. Para obtener antecedentes más detallados sobre el concepto y los métodos, nos referimos a Belitz et al.14.

En su estudio, Belitz et al.14 también proporcionan resultados de estudios de casos para demostrar que la posición hidrológica multiorden es una característica valiosa al mapear diversas variables geofísicas objetivo utilizando el aprendizaje automático. Su beneficio para el rendimiento de los modelos de aprendizaje automático también ha sido reconocido en varios otros estudios7,18,19.

Los mapas cuadriculados del conjunto de datos EU-MOHP20 reflejan un atributo geofísico estático y pueden usarse como características para el aprendizaje automático o tareas generales de modelado en el campo de la hidrología y la hidrogeología. Como suele ocurrir en las geociencias, lo “estático” en el sentido de invariable en el tiempo es fuertemente relativo, porque las redes fluviales también cambian con el tiempo, pero con bastante lentitud en comparación con las fluctuaciones del nivel freático. Este conjunto de datos se puede aplicar en múltiples escalas espaciales, desde escalas locales, regionales y continentales. Ejemplos de casos de uso pueden ser el mapeo de parámetros hidrogeoquímicos o variables hidráulicas, la predicción de niveles de agua subterránea o tareas de clasificación de cuencas utilizando métodos de aprendizaje automático no supervisados. Pero también se puede utilizar para análisis de datos exploratorios.

El conjunto de datos EU-MOHP v013.1.120 comprende las tres medidas

dividir a distancia de transmisión (DSD),

posición lateral (LP) y

distancia de transmisión (SD).

para cada orden hidrológico. Esto da como resultado \({n}_{measures}\cdot {n}_{hydrologicorders}=3\cdot 9=27\) métricas diferentes que se utilizarán como características. Espacialmente, el conjunto de datos cubre la mayor parte de la Europa fisiográfica y los 39 países del Espacio Económico Europeo (EEE39). Más precisamente, cubre las 10 masas de tierra contiguas más grandes del EEE39 (Fig. 1).

Cobertura espacial del conjunto de datos que está determinada por la capa de datos del área de estudio.

Conceptualmente, las tres medidas DSD, LP y SD de EU-MOHP20 se basan en la idea de que la ubicación en los sistemas hidrológicos importa14. Una ubicación puede estar, por ejemplo, cerca de la confluencia de dos grandes ríos o, en otro extremo, cerca del límite de captación de las cabeceras de las corrientes. Estas diferencias en la ubicación en el contexto hidrológico contienen información valiosa para los modelos, ya que determinan una parte importante de la dinámica del sistema, por ejemplo, recarga, descarga, fluctuaciones o el retraso temporal en la entrada de señales como los forzamientos meteorológicos. La ubicación o posición hidrológica en este caso se refiere a la posición de un punto entre el río más cercano y su límite de cuenca. Las divisiones de Thiessen se utilizan como límites de cuencas en lugar de las divisiones generadas a partir de modelos de elevación digitales (DEM) por una variedad de razones prácticas, como se describe en Belitz et al.14. Para obtener más detalles sobre las divisiones de Thiessen, consulte la sección Métodos.

A partir de la red fluvial y las divisiones de Thiessen, las medidas EU-MOHP20 se calculan con

donde DSi es la distancia a la corriente, costa o masa de agua superficial más cercana del orden hidrológico i y DDi es la distancia a la división más cercana del orden hidrológico i. Los términos "río" y "arroyo" se usan indistintamente aquí, pero arroyo se refiere más a la representación digital de un río.

Estas tres medidas no sólo se calculan para una única escala, sino que se trasladan a varias escalas a través de la segunda parte importante del concepto, los órdenes hidrológicos anteriormente mencionados. Esto es particularmente valioso porque la importancia de los distintos procesos hidrológicos depende de la escala. Por lo tanto, permite tanto investigaciones a diferentes escalas como la consideración de diferentes profundidades, ya que la profundidad de las rutas de flujo de agua subterránea generalmente aumenta con una mayor escala hidrológica. Los órdenes hidrológicos se basan en los órdenes de corrientes de la red fluvial. Para un orden hidrológico específico i, sólo se utilizan corrientes con un orden de corriente > = i, mientras que aquellas con un orden de corriente

Representación esquemática de medidas MOHP utilizando dos ejemplos para los órdenes hidrológicos 1 (a) y 2 (b). DS es la distancia horizontal a la corriente más cercana y DD es la distancia horizontal a la división de Thiessen más cercana bajo la condición de que la división esté en el mismo lado de la corriente que el centro de la celda ráster (punto negro).

La Figura 3 muestra el ejemplo EU-MOHP v013.1.120 resultante para los tres órdenes hidrológicos 3, 5 y 7 como mapas.

Mapas resultantes de las tres medidas EU-MOHP DSD (a), LP (b) y SD (c) en las columnas, ejemplares para los tres órdenes hidrológicos 3 (1), 5 (2) y 7 (3) en las filas . Tenga en cuenta que las rupturas de la escala de colores agrupados se basan en cuantiles.

La generación de este conjunto de datos se basa en dos conjuntos de datos, primero la “EU-Hydro–River Network Database” versión v01315 y “EU-Hydro–Coastline” versión v01322 con la ventaja de que las dependencias de datos son bajas. A partir de estos dos conjuntos de datos, se derivaron las cuatro capas de datos (1) red fluvial, (2) cuerpos de agua superficiales, (3) cuencas fluviales/área de estudio y 4) línea costera (ver Tabla 1). Debido a estos requisitos de datos de entrada relativamente bajos, es posible transferir la metodología presentada a otras regiones o conjuntos de datos con poco esfuerzo.

La “EU-Hydro–River Network Database”15 así como la “EU-Hydro–Coastline”22 se han descargado manualmente del sitio web Copernicus - Land Monitoring Service (ver Fig. 4a). Los datos de la red fluvial se dividen en dos archivos GeoPackage (.gpkg) para cada una de las 35 cuencas fluviales principales de los 39 países del EEE, uno con el esquema de denominación “drainage_network__public_beta_v009.gpkg” y el segundo con “euhidro__v011.gpkg”. Los datos de la costa se almacenan en un único archivo Shapefile (.shp) (ver Fig. 4b). Todos los archivos tienen un tamaño total de aproximadamente 14 GB cuando se descomprimen.

Flujo de trabajo del procesamiento de datos en diferentes software.

El único archivo .shp que contiene la costa tiene un tamaño de 288 MB. Para obtener instrucciones sobre cómo acceder a estos datos subyacentes, consulte Notas de uso.

La generación del conjunto de datos presentado requiere varios pasos de procesamiento computacionalmente costosos. Por esta razón y para que los métodos sean más reproducibles y fáciles de mantener, todos los pasos de procesamiento se ejecutan y controlan mediante una canalización de procesamiento en el lenguaje de programación R utilizando el paquete de objetivos (Fig. 4c)23,24. Este procesamiento o proceso de destino puede verse como un script de programación que rastrea los cambios en el código fuente y los datos con la principal ventaja entre muchas de que puede omitir pasos de procesamiento que aún están actualizados y volver a ejecutar aquellos que deben actualizarse. . Debido a los requisitos de gran tamaño de memoria para este conjunto de datos, así como por razones de velocidad computacional, se utiliza una base de datos PostgreSQL con la extensión PostGIS para ciertos pasos de procesamiento de datos vectoriales y una base de datos GRASS GIS para todos los cálculos finales basados ​​en ráster del Métricas EU-MOHP20 (Fig. 4d, e). Los cálculos en las bases de datos también son rastreados y ejecutados por el proceso de procesamiento. A continuación, se describen los pasos relevantes de los métodos. Para obtener una descripción completa de todos los detalles, nos referimos al propio código fuente (consulte Disponibilidad del código).

A continuación se describen los pasos de procesamiento más relevantes. Estos pasos son parte del proceso descrito anteriormente y se definen como los llamados objetivos en el código fuente del proceso. Para simplificar la descripción, los pasos de procesamiento se agrupan aquí según las capas de datos mencionadas anteriormente.

Los pasos de preprocesamiento para definir y generar el área de estudio se describen primero porque son necesarios para el procesamiento de todas las demás capas de datos. El área de estudio también define la cobertura espacial del producto final. Para la generación del área de estudio se utiliza la capa *_eudem2_basins_h1* en el archivo GeoPackage mencionado anteriormente con el esquema de nomenclatura que contiene el sufijo “drainage_network” (ver Tabla 1). Contiene geometrías poligonales que representan subcuencas de las principales cuencas fluviales. En primer lugar, se eliminan todas las geometrías poligonales pertenecientes a territorios europeos de ultramar, como las islas francesas del Caribe. Luego, se fusionan los polígonos restantes. Posteriormente, de estos polígonos de masas terrestres contiguas se eligen como área de estudio los 10 polígonos más grandes por área.

El río o red hidrográfica se basa en las geometrías de cadena de líneas de la capa River_Net_l en el archivo GeoPackage mencionado anteriormente con el esquema de nomenclatura que contiene el sufijo “euhidro” (ver Tabla 1). Esta capa de datos requiere más pasos de procesamiento que las otras tres capas de datos. En primer lugar, se eliminan geometrías de cadenas específicas de la red fluvial. Estas cadenas de líneas comprenden todas las geometrías categorizadas como canal o zanja en la columna de atributos dfdd codificada con los valores BH020 para canal y BH030 para zanja25. Estos se eliminan principalmente por las dos razones siguientes: en primer lugar, a muchas de las geometrías de canales y zanjas les faltan valores de orden de corriente, lo cual es necesario para los siguientes pasos de procesamiento y, en segundo lugar, se supone que los canales a menudo están desconectados hidráulicamente del sistema hidrológico natural. debido a sus paredes laterales impermeables y al lecho del canal. Además de esto, la importancia general de canales y acequias es baja cuando se compara su número de geometrías con el número de geometrías de ríos (diferencia de tres órdenes de magnitud). Además, se eliminan todas las geometrías de cadenas lineales categorizadas como ríos no perennes en la columna de atributos hyp codificada con los valores 2 (intermitente), 3 (efímero) y 4 (seco)25. Tras esta filtración quedan más de 1,05 millones de geometrías. Luego, los valores de orden de transmisión faltantes o no válidos se imputan con el valor 1 como primer orden de transmisión. Esto asegura que las geometrías relacionadas estén al menos incluidas en el primer orden hidrológico. Posteriormente, las geometrías de la red fluvial se recortan al área de estudio.

El siguiente paso de procesamiento esencial implementa un método para obtener geometrías de cadenas lineales que representan los cauces principales de las redes fluviales como se describe en el Suplemento de Belitz et. Alabama. (2019). Un cauce principal se define aquí como el camino más largo desde la cabecera del río hasta la siguiente desembocadura del río más distante (consulte las geometrías con el mismo nivel de ruta_id en la Fig. 5b). En la Fig. 5b se muestran esquemáticamente los conceptos principales. En esta figura, un tronco principal consta de geometrías de cadena lineal con el mismo nivelpath_id. Belitz et al.14 utilizaron la columna “LevelPathID” en su conjunto de datos de la red fluvial subyacente NHDPlusV226,27. Como no existe una columna comparable en el conjunto de datos “EU-Hydro–River Network Database”15, su generación es un paso de preprocesamiento obligatorio. Este paso es especialmente esencial cuando se aplican estos métodos a datos de redes fluviales que no proporcionan columnas adecuadas para generar los cauces principales. La generación de esta columna requeridalevelpath_id para el conjunto de datos de la red fluvial15 implica los siguientes pasos. En primer lugar, se deriva una red fluvial por separado para cada orden hidrológico manteniendo solo geometrías con un orden de corriente igual o mayor que el orden hidrológico específico como se describe en Antecedentes y resumen (ver también la Fig. 2). Los siguientes pasos se repiten para cada orden hidrológico. La red fluvial está ordenada por columna de recorrido largo en orden descendente. La columna longpath indica la longitud de la ruta desde el nodo inicial de una geometría de cadena lineal hasta el nodo final de la geometría más aguas abajo de la red fluvial. Luego, comenzando con la geometría superior, se determinan todas las geometrías de línea que están conectadas entre sí mediante las columnas object_id y nextdownid. La columna object_id proporciona una identificación única para cada geometría de cadena lineal y nextdownid indica el object_id de la siguiente geometría descendente. Las líneas lineales ahora identificadas constituyen el cauce principal más largo y se eliminan de la red fluvial original. Esto ahora se repite de forma iterativa para la segunda cadena lineal superior en la red fluvial restante y así sucesivamente.

Representación esquemática de la red fluvial y sus geometrías de cadenas lineales antes de generar los cauces principales (a), después de la identificación de los cauces principales, incluida la columna levelpath_id (b) y después de fusionar las geometrías de las cadenas lineales mediante la columnalevelpath_id y agregar una columna feature_id (c).

Posteriormente, la columna levelpath_id se agrega como una identificación única para todas las geometrías que pertenecen al mismo sistema principal (Fig. 5b). Luego, las geometrías de la red fluvial respectiva se fusionan en función de esta columna (consulte la diferencia en las geometrías de las cadenas lineales entre las Fig. 5b, c). Esto da como resultado una red fluvial para cada orden hidrológico por separado con un número reducido de geometrías, ya que ahora se resumen múltiples geometrías en cauces principales.

El siguiente paso aborda la aparición de divisiones de flujo en la red fluvial. Una división o divergencia de flujo se define aquí como la unión de geometrías de cadena lineal con más de una geometría de cadena lineal que representa corrientes que fluyen hacia afuera (marcas naranjas en la Fig. 6). Para transferir los métodos de Belitz et al.14 para el cálculo de EU-MOHP20, es necesario eliminar las trayectorias de flujo menores que se originan a partir de tales divergencias de la red fluvial. Ninguna columna del conjunto de datos de la red fluvial subyacente proporciona directamente una clasificación de las geometrías de las cadenas lineales en rutas de flujo mayor y menor. Belitz et al.14 utilizaron la divergencia de columnas para eliminar todas las rutas de flujo menores. Aquí, esto se logra eliminando todas las geometrías de cadenas lineales que intersectan otras cadenas lineales tanto con el nodo final como con el inicial. La eliminación de estas rutas de flujo menores no se realiza para el primer orden hidrológico que incluya todas las cadenas de líneas en al menos un orden. La implementación de estos pasos señaló errores en el conjunto de datos de la red fluvial15. Estos errores están relacionados con errores de valores en las columnas longpath y nextdownid. Según la inspección visual, ocurren en las redes fluviales francesas de Garona, Loira y Sena y se corrigen mediante programación durante el procesamiento.

Representación esquemática de la red fluvial y sus geometrías de líneas lineales, incluidas las divergencias antes (a) y después (b) de la eliminación de caminos menores. La geometría de cadena lineal con los feature_ids 7 y 8 se ha eliminado de la red fluvial en B, porque intersectan otras geometrías de cadena lineal con el nodo inicial y final.

Luego, las redes fluviales se clasifican por la longitud de las geometrías de cadena lineal en orden descendente y se les proporciona una ID única para cada geometría en la columna feature_id (consulte feature_id en la Fig. 5c).

Las masas de agua superficial se derivan de la capa InlandWater en el archivo GeoPackage con el esquema de nombres que contiene el sufijo “euhidro” (ver Tabla 1). Se aplica un filtro para retener sólo las geometrías de los cuerpos de agua superficiales que tienen un área mayor que cuatro veces el área de la celda de la cuadrícula. Se aplica otro filtro para eliminar todas las geometrías que no se cruzan con las geometrías de la red fluvial. Dado que las redes fluviales de los 9 órdenes hidrológicos difieren entre sí, este segundo filtro se aplica de forma individual para cada una de las redes fluviales. Esto da como resultado un conjunto de datos de masas de agua superficiales para cada orden hidrológico.

La capa de datos de la línea costera se deriva del archivo Shape relacionado con el conjunto de datos “EU-Hydro–Coastline”22 (ver Tabla 1). Al igual que los ríos, el océano, definido por la línea costera, es un área donde se acumula agua y por lo tanto su representación espacial es necesaria para la generación de este conjunto de datos14.

En primer lugar, se fusionan las geometrías poligonales del archivo Shape subyacente. Luego, se agrega una zona de influencia de 3000 m a las geometrías fusionadas. Esto es necesario para garantizar que el contorno del área de estudio se cruce con las geometrías del polígono de la costa para el siguiente paso. Sin esta zona de amortiguamiento, se pueden notar discrepancias entre el área de estudio y la costa. Estas discrepancias conducirían a resultados no deseados después del siguiente paso. El valor de 3000 m se obtiene de la inspección visual. Las geometrías multipolígonos resultantes se cruzan con el contorno del área de estudio para obtener la línea costera como cadena lineal. Aquellas partes del área de estudio que no se cruzan con las geometrías de los polígonos se clasifican como “fronteras administrativas terrestres”. Esta intersección garantiza que la línea costera se alinee exactamente con el contorno del área de estudio. La línea costera resultante se muestra en la Fig. 7. Luego, la línea costera se agrega a cada red fluvial de todos los órdenes hidrológicos.

Mapa que muestra la ubicación y distribución espacial del litoral y los límites administrativos terrestres resultantes del preprocesamiento.

Después de obtener las cuatro capas de datos requeridas como se describió anteriormente, el siguiente y último paso de procesamiento comprende varios pasos más pequeños con el objetivo final de calcular y exportar las métricas EU-MOHP20. Debido a que el procesamiento es análogo para todos los órdenes hidrológicos y las 10 geometrías de polígonos del área de estudio, este paso se describe sólo una vez en términos generales. Como todos los pasos de procesamiento que se describen a continuación requieren cálculos basados ​​en cuadrículas, se utiliza una base de datos GRASS GIS (ver Fig. 4e).

Las cuatro capas de datos del área de estudio, la red fluvial que incluye la costa y los cuerpos de agua superficiales del orden hidrológico respectivo y la línea costera se escriben en la base de datos GRASS GIS. La proyección de la base de datos GRASS GIS se establece en el sistema de referencia de coordenadas de proyección de área igual azimutal ETRS89 Lambert (EPSG: 3035). La resolución espacial de las celdas ráster se establece en 30 m.

Como se describe en Antecedentes y resumen, los límites de la cuenca son necesarios para determinar la DD (ver Ecs. (1, 2) o Fig. 2). Por tanto, se utilizan las divisiones de Thiessen. Una división de Thiessen es el contorno de una cuenca de Thiessen que, a su vez, es el área que contiene todos los puntos de una red fluvial a los que un río está más cerca que cualquier otro río28. Una ventaja importante es que las divisiones de Thiessen se pueden calcular basándose exclusivamente en la propia red fluvial, evitando problemas como mínimos cerrados en las métricas resultantes14. Esta ventaja supera los numerosos problemas menores asociados con las cuencas basadas en DEM, especialmente cuando se tiene en cuenta la correspondencia incierta de la cuenca subterránea con la cuenca superficial. Una discusión detallada sobre la preferencia de las divisiones de Thiessen sobre las divisiones topográficas se proporciona en Belitz et. Alabama. (2019), apartado 2.2.014. Para obtener las divisiones de Thiessen, el primer paso es calcular la distancia euclidiana desde el centro de cada celda ráster hasta la geometría de la red fluvial más cercana. Las distancias resultantes corresponden a DS en las Ecs. (1–3) o Fig. 2). Este paso también determina el ID de entidad de la geometría más cercana para todas las celdas ráster. Luego, los polígonos que representan las cuencas de Thiessen se derivan fusionando todas las celdas ráster asignadas al mismo ID de entidad. Finalmente, los contornos de estos polígonos se utilizan como divisiones de Thiessen.

Para obtener la distancia a dividir (DD) para cada celda ráster, se calcula la distancia desde el centro de cada celda ráster hasta la división Thiessen más cercana. Pero la determinación de la división de Thiessen más cercana no se puede lograr mediante una simple búsqueda del vecino más cercano, ya que se utiliza para el cálculo de DS y el ID de entidad del río más cercano. Implementar la realidad física de que en las cuencas el agua se acumula y se escurre en los ríos requiere una condición adicional. Esta condición debe garantizar que las distancias a la división más cercana no se calculen a través de ríos. En otras palabras, la división de Thiessen más cercana para cada celda ráster no debe estar al otro lado del río. En otras palabras, al dibujar una línea imaginaria entre la división de Thiessen más cercana y el centro de la celda de la cuadrícula, esta línea no debe cruzar la geometría de un río (ver línea negra versus línea roja en la Fig. 13). Sin esta condición, la línea central geométrica de las cuencas de Thiessen se consideraría áreas de acumulación y descarga. Para cumplir con esta condición, se utilizó el comando GRASS GIS r.walk. Las imprecisiones menores relacionadas con este comando para el propósito descrito se indican en Validación técnica. Las distancias calculadas corresponden a DD en las Ecs. (1, 2) o Fig. 2.

Con base en las dos capas ráster calculadas que contienen las distancias DS y DD, las tres medidas EU-MOHP DSD, LP y SD ahora se calculan mediante la aplicación de las ecuaciones. (1–3) y la calculadora de mapas ráster GRASS GIS (“r.mapcalc”). Para reducir el tamaño de almacenamiento, los valores ráster de la medida LP se multiplican por un factor de 10.000 y se redondean para poder almacenarlos como valores enteros con dos dígitos decimales. Las dos medidas DSD y LP se redondean al número entero más cercano. Finalmente, las capas ráster resultantes para LP, DSD y SD se exportan desde la base de datos GRASS GIS y se almacenan en el disco como archivos GeoTIFF con extensión de archivo.tif.

Para mejorar la reproducibilidad del manuscrito del descriptor de datos, se genera como parte del proceso de procesamiento. Además, todas las tablas y todas las figuras derivadas de datos se crean desde dentro del proceso. Esto garantiza que todas las cifras estén actualizadas y reflejen el estado más reciente de los métodos. El descriptor está escrito en RMarkdown a partir del cual se generan un archivo LaTeX y un PDF utilizando el paquete knitr29,30.

El conjunto de datos EU-MOHP v013.1.120 presentado está disponible en el repositorio de Hydroshare en https://doi.org/10.4211/hs.0d6999591fb048cab5ab71fcb690eadb. El conjunto de datos representa mapas cuadriculados con una resolución espacial de 30 m. Está dividido en varios archivos GeoTIFF con una extensión de archivo.tif. Cada archivo representa datos sobre una de las tres medidas EU-MOHP20 (LP, DSD y SD) para un orden hidrológico para un polígono de área de estudio diferente (cobertura espacial). Los nombres de los archivos están estructurados según el esquema de denominación de archivos “mohp_europe____.tif”. Los marcadores de posición que incluyen “<” y “>” pueden teóricamente reemplazarse por cualquier combinación de los valores resumidos en la Tabla 2. Pero no todos los polígonos del área de estudio tienen una red fluvial para cada orden hidrológico. Por ejemplo, el polígono del área de estudio para la isla de Cerdeña solo tiene ríos con un orden de corriente máximo de 6 y, por lo tanto, solo un orden hidrológico máximo de 6. Esto significa que no hay archivos GeoTIFF para Cerdeña para los órdenes hidrológicos 7 a 9. Por lo tanto, el número total de archivos es \({n}_{measures}\cdot {\sum }_{i=1}^{{n}_{hydrologicorders}}{n}_{studyareapolygons,i}=3 \cdot {\sum }_{i=1}^{9}{n}_{studyreapolygons,i}=192\).

Los archivos GeoTIFF derivados en la sección Medidas DSD, LP y SD se cargaron en Hydroshare como archivos comprimidos por separado con la extensión de archivo 0.7z utilizando el programa de archivo de archivos gratuito y de código abierto 7-Zip. Cada archivo 0.7z corresponde a un archivo .tif.

En Hydroshare tiene la opción de seleccionar todos los archivos 0.7z y descargarlos como un archivo bagit comprimido o descargar una selección personalizada de archivos si solo está interesado en una región específica (área de interés) u órdenes hidrológicas específicas. Para crear una selección definida por el usuario, puede utilizar la barra de búsqueda para filtrar los archivos por una cobertura espacial o un orden hidrológico como se describe en el sitio web de Hydroshare de este conjunto de datos. Si desea comprobar con mayor precisión si su área de interés está cubierta por este conjunto de datos o qué archivos son relevantes, consulte el mapa interactivo en Github (https://mxnl.github.io/macro_mohp_feature/).

El conjunto de datos EU-MOHP20 presentado tiene la versión v013.1.1. La versión se genera como una composición de la versión “EU-Hydro–River Network Database”15 (v013) y un número de versión mayor y menor (1.0) que están relacionados con el métodos de este conjunto de datos.

El conjunto de datos EU-MOHP20 consta de valores calculados basados ​​en un concepto hidrológico y, por lo tanto, no puede validarse mediante observaciones o mediciones. Como primera aproximación, se utiliza para la validación un resumen estadístico basado en una muestra de cada centésima celda de la cuadrícula por fila y columna. La Tabla 3 proporciona el valor mediano, medio, mínimo y máximo de las tres medidas en todos los órdenes hidrológicos. De acuerdo con los antecedentes teóricos, los valores de media, mediana y máximo de DSD y SD aumentan con el aumento del orden hidrológico (ver también Fig. 3a1-3 y c1-3). Esto también pone de relieve las diferentes escalas espaciales. Este aumento no se muestra en los valores medios o medianos de LP debido a que LP es una medida relativa. Los valores mínimo y máximo de LP son 0 y 1 como se esperaba en todos los órdenes hidrológicos. La única anomalía aquí son la mediana y la media relacionadas con el noveno orden hidrológico. Estos valores más bajos en comparación con todos los demás órdenes hidrológicos se deben a la distribución espacial muy desigual de la red fluvial, en este caso en combinación con la forma de la costa de Europa. Esto se discutirá en el siguiente párrafo. Otra anomalía son los valores mínimos de DSD en órdenes hidrológicos superiores. Su desviación de 0 se debe a la probabilidad decreciente de que el centro de una celda de la cuadrícula se encuentre exactamente en la intersección de un río y se divida en un orden hidrológico superior.

Para una descripción más completa de la distribución de los valores de las tres medidas, la Fig. 8 muestra la densidad de los valores para todos los órdenes hidrológicos. Aquí, el aumento general de los valores de DSD y SD con el aumento del orden hidrológico, como se vio anteriormente en la Tabla 3, es claramente evidente. Además, la distribución de los valores de DSD cambia de una distribución unimodal sesgada hacia la izquierda (primer orden hidrológico) a una distribución multimodal (noveno orden hidrológico). Este cambio de modo se debe a las numerosas penínsulas de diferentes tamaños del litoral europeo. Su forma tiene muchas penínsulas de diferentes tamaños. Ejemplos de este tipo de penínsulas ordenadas de menor a mayor son Dinamarca, Bretaña, Grecia, Italia y la Península Ibérica. A medida que aumenta el orden hidrológico, se reduce el número de ríos en estas penínsulas. Si ya no hay ningún río presente, la distribución de DSD muestra un pico en valores relacionados con esta península. Belitz et al.14 denominaron a este efecto efecto península. Esto también explica el cambio evidente en la distribución del LP del noveno orden hidrológico en comparación con todos los demás órdenes.

Líneas de cresta que muestran la distribución de las tres medidas DSD (a), LP (b) y SD (c) para los nueve órdenes hidrológicos. La marca blanca representa la mediana.

Este efecto es más pronunciado en el noveno orden hidrológico, donde los últimos cientos de kilómetros del río Danubio antes de su desembocadura en el Mar Negro son el único segmento fluvial en toda Europa continental (Fig. 9). La utilización de este conjunto de datos en lugares con tal efecto es, en el mejor de los casos, muy limitada.

Mapas resultantes de las tres medidas EU-MOHP DSD, LP y SD (de izquierda a derecha) para el noveno orden hidrológico.

Para evaluar más a fondo la calidad de la metodología aplicada en este estudio, se realizó una comparación cruzada con el conjunto de datos MOHP original para los Estados Unidos contiguos de Belitz et al.14. Por lo tanto, reproducimos partes del conjunto de datos MOHP original aplicando nuestra metodología al conjunto de datos NHDPlusV226, que es el conjunto de datos subyacente del conjunto de datos MOHP original, y comparamos estos resultados reproducidos con el conjunto de datos original14. Como la metodología es análoga para todos los órdenes hidrológicos y los valores de las tres medidas (DSD, LP y SD) tienen las mismas dependencias (DD y DS), es suficiente comparar LP para un solo orden hidrológico. Para fines visuales, se seleccionó el séptimo orden hidrológico. En consecuencia, el conjunto de datos reproducido se denominará “LP7 reproducido” y el original como “LP7 original”. La Figura 10 muestra una comparación lado a lado entre el LP7 original (a) y el LP7 reproducido (b). Desde la inspección visual, los patrones principales parecen muy similares en ambos mapas. Las diferencias se pueden observar principalmente en la proximidad de las fronteras administrativas con Canadá y México. Estas diferencias entre otras menores se deben a desviaciones de la metodología original. Aunque la metodología del conjunto de datos MOHP original14 está generalmente bien descrita, no fue posible comprender y reproducir completamente todos los pasos debido a que el código fuente no estaba disponible públicamente. Por este motivo, la línea costera utilizada para la comparación cruzada no es completamente idéntica a la línea costera utilizada para el conjunto de datos original. Asimismo, en el conjunto de datos reproducido no se incluyen ni las redes fluviales de los dos países vecinos, Canadá y México, ni las masas de agua superficiales en general. Las regiones más afectadas por estas diferencias quedan excluidas de la comparación cruzada cuantitativa. La Figura 10c muestra la diferencia absoluta entre ambos mapas de la Fig. 10a,b definida como

Mapas que muestran el LP7 original (a), el LP7 reproducido (b) y la diferencia absoluta entre el LP7 original y el LP7 reproducido (c) para los Estados Unidos contiguos.

La división por 10.000 se aplica para reescalar los valores a un rango de 0 a 1. En esta figura, las diferencias descritas anteriormente a lo largo de los límites y cerca de las masas de agua superficiales se vuelven más visibles. Esta figura también muestra que los valores de la diferencia absoluta son predominantemente cercanos a 0 (color grisáceo) en todos los Estados Unidos contiguos, lo que indica diferencias pequeñas o nulas. Además de esta comparación visual, se realiza una comparación cruzada cuantitativa comparando los valores de celda ráster del LP7 original y el LP7 reproducido en 10.000 puntos distribuidos aleatoriamente. Para tener en cuenta estas discrepancias esperadas entre los conjuntos de datos originales y reproducidos cerca de la costa y en los límites administrativos terrestres, se utilizó una zona de amortiguación negativa de 300 millas (aproximadamente 480 km) tierra adentro para excluir estas regiones de la comparación cruzada cuantitativa. La Figura 11a muestra esquemáticamente la estrategia de muestreo, incluida la ubicación de la mitad de los 10.000 puntos de muestreo.

(a) Estrategia de muestreo para la comparación cruzada cuantitativa. Los lugares de muestreo se muestran en amarillo. Por razones estéticas, aquí sólo se muestra la mitad del total de 10.000 puntos. (b) Valores de celda ráster en los puntos de muestreo para el LP7 original y el LP7 reproducido. El color del punto representa la densidad del punto: amarillo para densidad alta y azul para densidad baja.

La Figura 11b muestra los valores de celda ráster del LP7 original y del LP7 reproducido en las ubicaciones de muestreo. Si bien una pequeña proporción de todos los puntos está distante de la línea discontinua de igual valor, la gran mayoría está cerca, lo que indica que los valores originales del LP7 están bien reproducidos. Para cuantificar esto se aplicó un modelo de regresión lineal a todos los puntos. El R2 del modelo instalado es 0,988. En resumen, la comparación cruzada muestra una muy buena concordancia de la metodología utilizada en este estudio con los métodos descritos en Belitz et al. (2019). Las mayores diferencias en los resultados pueden explicarse por desviaciones en la metodología reproducida, como ya se mencionó (redes fluviales en países vecinos, masas de agua superficiales).

Dado que la generación de este conjunto de datos se basa en la “Base de datos de la red hidro-fluvial de la UE”, su precisión y validez dependen en gran medida de la calidad de este conjunto de datos subyacente. La “Base de datos EU-Hydro–River Network”15 se ha generado mediante una combinación de interpretación fotográfica de imágenes de muy alta resolución y modelización de drenaje basada en el DEM de la UE con una resolución de 25 m. Comprende una red fluvial para todos los 39 estados del EEE en alta resolución. Según nuestra investigación, no existe una evaluación de calidad exhaustiva ni una validación de la versión utilizada. La inspección visual revela algunos errores relevantes a la metodología aquí presentada. En primer lugar, se produce con frecuencia una confusión en la clasificación de las geometrías de las líneas lineales en canales, acequias y ríos. Un ejemplo de tal confusión se muestra en la Fig. 12. Aquí, algunas geometrías de cadenas lineales de forma relativamente recta se clasifican como río (valor BH140 en la columna dfdd), mientras que las geometrías serpenteantes se clasifican como canal (valor BH020 en la columna dfdd). Se podrían introducir otros errores mediante la limitación de la resolución espacial de las imágenes fotográficas y el DEM de la UE. Esto potencialmente afecta la detección de ríos, canales y acequias más pequeños.

Ejemplo de datos de la red fluvial que muestra la confusión entre los valores BH140 (río), BH020 (canal) y BH030 (zanja) de la columna de atributos dfdd del conjunto de datos de la red fluvial15.

Como se mencionó anteriormente en River Network, se encontraron errores adicionales en los datos de la red fluvial. Estos errores se relacionan con valores incorrectos en las columnas longpath y object_id y se corrigen en lugares donde los mapas resultantes revelaron patrones incorrectos mediante inspección visual. Estos patrones eran evidentes por la falta de una red fluvial en regiones más grandes. Es muy probable que queden más errores de este tipo en la red fluvial con menor impacto en los mapas resultantes. La corrección de estos errores mediante programación requiere un conocimiento teórico sólido de las redes de procesamiento y podría realizarse en futuras versiones de la “EU-Hydro - River Network Database”15.

La precisión de este conjunto de datos también puede verse reducida cerca de los límites que discurren por tierra en lugar de a lo largo de la costa o los límites de las cuencas fluviales. Esto incluye las regiones cercanas a las fronteras en el sur y el este de Turquía, en el este de Europa continental y en el este de Finlandia (ver líneas amarillentas en la Fig. 7). Aquí, los límites del conjunto de datos subyacente, y por lo tanto este conjunto de datos, siguen fronteras administrativas en lugar de límites de cuencas fluviales. Por lo tanto, las distancias calculadas al arroyo más cercano en estas regiones pueden ser inexactas porque otro arroyo no incluido en el conjunto de datos podría estar más cerca de un ráster. centro celular. El ancho de estas regiones potencialmente inexactas a lo largo de los márgenes aumenta con el orden hidrológico. Debido a que se desconocen las ubicaciones de los arroyos de las redes de arroyos adyacentes, no es posible delinear esta región o cuantificar su ancho. Para abordar este problema al aplicar este conjunto de datos a dicha región, una opción conservadora sería truncar o enmascarar estas regiones desplazando los límites correspondientes hacia adentro en el valor máximo en el mapa de distancias de corrientes del orden hidrológico respectivo.

Otra inexactitud la introduce el método para calcular DD. Esta inexactitud sólo afecta a una zona estrecha cerca de las cabeceras. Para calcular DD, se utiliza el comando GRASS GIS r.walk. El comando r.walk originalmente tiene un propósito diferente al que se utiliza aquí. Calcula los costos acumulados de moverse entre dos ubicaciones geográficas basándose en un mapa topográfico y un mapa que representa los costos de fricción. Al aumentar los parámetros de costo, calcula la distancia horizontal desde una celda hasta la división de Thiessen más cercana, prefiriendo un camino sin cruzar un arroyo. Este comportamiento generalmente se logra en todas partes excepto en áreas cercanas a las cabeceras donde “caminar” alrededor del arroyo se convierte en una opción. Para ilustrar esto, se considera el siguiente caso. Si una geometría de cadena lineal que representa una corriente está más cerca de un lado de la división de Thiessen que del otro lado, r.walk calcula una distancia incorrecta alrededor del inicio de la cadena lineal, ya que es más barato “caminar” alrededor de la corriente que caminar en línea recta desde el lado más distante pero correcto de la división Thiessen. Por lo tanto, el camino recto desde este lado erróneamente más cercano de la divisoria de Thiessen cruza el arroyo. El comportamiento requerido y correcto sería calcular la distancia como la longitud de una línea recta hasta la divisoria de Thiessen que no cruza el arroyo (Fig. 13).

Ejemplo esquemático que muestra la fuente de imprecisión de DD en áreas cercanas a las cabeceras causada por el método aplicado para calcular DD. La distancia roja como DD es incorrecta, porque cruza el arroyo y por tanto no cumple la condición definida. El DD correcto sería la distancia gris oscuro. El camino hacia el lado correcto es igual al DD correcto (línea continua gris oscura) y, por lo tanto, no está dibujado en el mapa esquemático.

El método para calcular DD también genera valores faltantes (NA) para las celdas de la cuadrícula que se encuentran dentro de masas de agua superficiales más grandes, como lagos. Este problema solo afecta a la medida DSD o sus mapas ráster relacionados (“ = dsd”). Si es necesario, una posible solución a esto podría ser llenar estas celdas NA con valores de la celda de la cuadrícula que no sea NA más cercana como una aproximación simple.

Como se indica a continuación, animamos a los lectores y usuarios de este conjunto de datos a informar errores en los métodos o códigos en el repositorio de Github mencionado.

Esta publicación de datos proporciona principalmente dos recursos para ser utilizados por la comunidad de investigación. En primer lugar, el conjunto de datos en sí y, en segundo lugar, el código fuente que se adaptará y aplicará a los datos personalizados de la red fluvial. El primero se puede utilizar como contexto hidrológico adicional que describe características en cualquier tarea de modelado basada en aprendizaje automático o no basada en aprendizaje automático en el dominio de la hidrología y la hidrogeología en varias escalas. Después de descargar los archivos 0.7z comprimidos necesarios de Hydroshare (consulte registros de datos para el enlace de descarga), se pueden descomprimir utilizando el programa de archivo de archivos gratuito y de código abierto 7-Zip. Debido al formato de archivo GeoTIFF ampliamente utilizado, el conjunto de datos se puede procesar y visualizar a través de cualquier software SIG. Por razones de reproducibilidad en la ciencia, se recomienda utilizar lenguajes de programación en lugar de software de apuntar y hacer clic como ArcGIS o QGIS. Los lenguajes de programación R o Python proporcionan una variedad de herramientas para importar, procesar y visualizar datos GeoTIFF, pero también ofrecen flexibilidad desde una perspectiva de aprendizaje automático. Los paquetes R ráster y estrellas cubren las operaciones más comunes con datos ráster31,32. Para recortar los archivos GeoTIFF en su área de estudio personalizada o área de interés, la función st_crop() del paquete stars ofrece un recorte rápido sin tener que leer los archivos GeoTIFF grandes en la memoria. Para hacerlo, es necesario leer los archivos GeoTIFF como objetos stars_proxy con read_stars(, proxy = TRUE) antes de aplicar st_crop(). Para simplificar algunos de los pasos anteriores, desarrollamos el paquete R eumohpclipr (https://github.com/MxNl/eumohpclipr/)33. Este paquete proporciona funcionalidad para crear mosaicos, recortar o recortar y trazar el conjunto de datos EU-MOHP20. Para una extracción rápida del valor de la celda ráster basada en polígonos, se recomienda el paquete R exactitudxtractr (https://github.com/isciences/exactextractr)34.

Es importante tener en cuenta que los valores de celda ráster de todos los archivos GeoTIFF se almacenan como números enteros en el tipo de datos INT32 para reducir el tamaño de almacenamiento. Los valores de celda de los archivos que representan LP (“ = lp”) deben dividirse por 100 para obtener porcentajes con dos dígitos decimales o por 10.000 para obtener valores en el rango de 0 a 1. La celda Los valores de todos los demás archivos representan una distancia en metros y se pueden utilizar tal cual. Todos los archivos se almacenan utilizando el sistema de referencia de coordenadas (CRS) ETRS89-extended/LAEA Europe con el código EPSG 3035.

Los siguientes párrafos se centran en el uso del código fuente para reproducir el conjunto de datos EU-MOHP20 y utilizarlo para otros conjuntos de datos personalizados. También proporcionan información sobre la configuración del hardware y el software, así como sobre los pasos principales antes de ejecutar el código fuente.

Los cálculos para generar el conjunto de datos presentado20 se realizaron en un servidor DELL PowerEdge C4140 con una CPU Intel Xeon Gold 6240 R y 384 GB de RAM instalada. El sistema operativo instalado es Microsoft Windows Server 2019 Standard, versión 10.0.17763 Build 17763. El tiempo de ejecución total de la canalización, así como de los objetivos individuales, se resume en la Tabla 4.

El software utilizado comprende R (versión 4.0.3)23, base de datos PostgreSQL (versión 13) con la extensión PostGIS (versión 3.1.0) y GRASS GIS (versión 7.8.5-2). Las dependencias del paquete R se gestionan con el paquete renv35. Las versiones de los paquetes R usados ​​se pueden encontrar en el archivo renv.lock. Los paquetes R más utilizados también se enumeran en las referencias24,29,30,31,32,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50 ,51,52,53,54,55.

El directorio y la estructura de archivos de la carpeta del proyecto que contiene todo el código y los archivos para generar este conjunto de datos se resumen en la Fig. 14 en una estructura de árbol. Los archivos y directorios que no son relevantes para describir los métodos no se muestran aquí. La carpeta del proyecto como directorio de nivel superior es el directorio de trabajo. El archivo config.yml (línea 2) contiene definiciones de variables que un usuario debe configurar antes de ejecutar la canalización de destino. La variable más relevante es el tamaño de celda, que establece la resolución espacial de los mapas cuadriculados EU-MOHP resultantes20. Otra variable importante es el área para cambiar entre un área de estudio de prueba y el área de estudio completa para todo el EEE39. El área de estudio de prueba representa una pequeña fracción del área de estudio. Esto reduce el tiempo de ejecución de la canalización con fines de prueba. La carpeta Grassdata (línea 4) se utiliza para escribir las bases de datos GRASS GIS. La carpeta input_data (línea 5) contiene todos los datos de entrada requeridos. En primer lugar, los datos de la subcarpeta (línea 6) comprenden los datos de la red fluvial como una única carpeta por cuenca, tal como se derivan de descomprimir los datos descargados de la “Base de datos de la red hidro-fluvial de la UE”15 (ver Conjunto de datos subyacente). La segunda subcarpeta EUHYDRO_Coastline_EEA39_v013 (línea 7) contiene los datos de la costa (ver Conjunto de datos subyacente). La tercera subcarpeta Studyarea_test (línea 8) contiene un área de estudio de prueba como archivo Shape solo para fines de prueba de tuberías (consulte Disponibilidad de código). Por último, la subcarpeta Validación contiene todos los datos necesarios para calcular los valores y cifras para la comparación cruzada en Validación técnica. El archivo macro_mohp_feature.Rproj (línea 10) es el archivo del proyecto R. La carpeta datos_salida (línea 12) contiene tres subdirectorios donde se escriben los mapas cuadriculados finales de EU-MOHP20. Estos directorios los crea la canalización si aún no existen. R (línea 16) contiene scripts R donde se definen funciones y constantes personalizadas. renv (línea 25) y el archivo renv.lock (línea 31) están relacionados con el paquete R renv que rastrea las versiones de las dependencias de los paquetes35. El script R run_pipeline.R (línea 32) contiene código para ejecutar la canalización de destino que realiza todo el procesamiento de datos y los cálculos. objetivos (línea 33) contiene la definición de todos los objetivos o pasos de procesamiento de la canalización. Por razones de visión general, se divide temáticamente en varios archivos. _targets (línea 39) es utilizado internamente por el paquete de objetivos. El archivo _targets.R (línea 43) configura la canalización de objetivos y carga todas las dependencias.

Árbol de directorio del directorio del proyecto; Aquí sólo se enumeran los subdirectorios y archivos relevantes.

Para reproducir este conjunto de datos, se requieren los pasos siguientes. Como sistema operativo se han probado bajo Windows (ver arriba en esta sección), por lo que es probable que existan diferencias bajo Linux o MacOS:

Instalar el lenguaje R, PostgreSQL, PostGIS y GRASS GIS en sus versiones anteriormente descritas. Además, instale la última versión de RStudio. RStudio es un entorno de desarrollo integrado gratuito para R.

Configure una base de datos PostgreSQL con el nombre "postgis" o, alternativamente, elija un nombre diferente y cambie la variable nombre_base_datos en el archivo config.yml más adelante. Independientemente del nombre de la base de datos, cambie la configuración de la base de datos PostgreSQL para no solicitar una contraseña para la conexión.

Descargue el repositorio del proyecto que contiene todo el código y los scripts necesarios del repositorio de código estático mencionado anteriormente.

Descargue los datos de entrada requeridos “EU-Hydro–River Network Database”15 y “EU-Hydro–Coastline”22 desde los enlaces siguientes y guárdelos en el directorio input_data como se describió anteriormente para que coincida con la estructura de archivos de input_data (Fig. .14, líneas 5–8). Para descargar los datos se requiere una cuenta de usuario gratuita. Alternativamente, si desea mantener los datos en otro directorio, por ejemplo, en un servidor remoto, debe cambiar las rutas de los archivos en las constantes del archivo.R.

Navegue hasta el directorio del proyecto y abra el archivo macro_mohp_feature.Rproj con RStudio.

Instale el paquete renv ejecutando el siguiente comando en la consola R

instalar.paquetes (“renv”)

Instale todas las dependencias del paquete con la línea siguiente en R-console. Tenga en cuenta que en Linux y MacOS algunos paquetes R tienen dependencias del sistema, como el paquete sf, que depende de libgeos-dev, entre otros. Consulte la documentación respectiva cuando tenga algún problema.

renv:: restaurar ()

Antes de ejecutar el gasoducto en la cobertura espacial completa de los 39 países del EEE, recomendamos probar el gasoducto con el área de estudio de prueba más pequeña configurando el área variable en el archivo config.yml en "prueba". La duración será de unos 20 min. El contenido de config.yml debería verse así (tenga en cuenta la línea vacía en la línea 6):

área: tamaño de celda de prueba: 30 nombre_base de datos: postgis excluir_cuencas_escandinavas: FALSO simplificar_polígonos: FALSO solo_descriptor_datos: FALSO paralelo: VERDADERO

Si la tubería funciona en modo "prueba", puede cambiar el área variable nuevamente a "Europa".

Inicie la canalización de procesamiento ejecutando el archivo run_pipeline.R desde una consola R y en el directorio raíz con

fuente (“run_pipeline.R”)

o, alternativamente, desde la línea de comando con

Rscript run_pipeline.R

Si encuentra algún problema, comuníquese con el autor correspondiente o preferiblemente abra una edición de Github. Los errores probablemente pueden deberse a directorios y rutas de archivos incorrectos. Si la memoria disponible es insuficiente, una opción es ejecutar la canalización de forma secuencial en lugar de en paralelo. Para hacer esto, cambie la variable paralela en el archivo config.yml de VERDADERO a FALSO.

Para reproducir el descriptor de datos en sí, puede ejecutar la canalización después de una ejecución exitosa configurando la variable data_descriptor_only en el archivo config.yml en "TRUE".

Los conjuntos de datos subyacentes requeridos “EU-Hydro–River Network Database”15 versión v013 se pueden descargar desde el Servicio de Monitoreo Terrestre de Copernicus (https://land.copernicus.eu/imagery-in-situ/eu-hidro/eu-hidro- river-network-database?tab=download) así como la versión v013 “EU-Hydro–Coastline”22 (https://land.copernicus.eu/imagery-in-situ/eu-hidro/eu-hidro-coastline ?pestaña=descargar). Para maximizar y simplificar la reproducibilidad, actualmente planeamos configurar un contenedor acoplable. Para obtener actualizaciones de disponibilidad, visite el repositorio de Github mencionado. Para transferir los métodos presentados a otra región personalizada, se requieren datos de entrada equivalentes a los de la Tabla 1.

Como se indicó anteriormente, todos los pasos del procesamiento, incluida la generación del conjunto de datos, la mayoría de las figuras y el manuscrito, se basan en guiones. Todo el código fuente56 requerido se puede encontrar en Hydroshare (https://doi.org/10.4211/hs.8ea376970c904c6698fc8cfe392689de) como repositorio de código estático. Debido al procedimiento del proceso de revisión, este repositorio de código estático solo contiene el estado del código antes de la última iteración de revisión. El código final utilizado para enviar el manuscrito revisado se puede encontrar en esta versión de código separada en Github (https://github.com/MxNl/macro_mohp_feature/releases/tag/v013.1.1.0). El código desarrollado activamente también se puede encontrar en el mismo repositorio en Github (https://github.com/MxNl/macro_mohp_feature). Alentamos a los usuarios interesados ​​de este conjunto de datos a informar errores en el código o dar sugerencias sobre mejoras metodológicas o de programación adicionales abriendo un número en el repositorio de Github o contactando al autor correspondiente por correo electrónico13,55.

Zounemat-Kermani, M. et al. Neurocomputación en hidrología e hidráulica de aguas superficiales: una revisión retrospectiva de dos décadas, estado actual y perspectivas futuras. Revista de Hidrología 588, 125085, https://doi.org/10.1016/j.jhydrol.2020.125085 (2020).

Artículo de Google Scholar

Siéntate, M. et al. Una revisión exhaustiva de las aplicaciones de aprendizaje profundo en hidrología y recursos hídricos. Ciencia y tecnología del agua 82 (12), 2635–2670, https://doi.org/10.2166/wst.2020.369 (2020).

DeSimone, LA, Pope, JP & Ransom, KM Modelos de aprendizaje automático para mapear las condiciones de pH y redox en aguas subterráneas en un sistema acuífero en capas, llanura costera del Atlántico norte, este de EE. UU. Revista de Hidrología: Estudios Regionales 30, 100697, https://doi.org/10.1016/j.ejrh.2020.100697 (2020).

Artículo de Google Scholar

Knoll, L., Breuer, L. & Bach, M. Predicción a gran escala de concentraciones de nitrato en aguas subterráneas a partir de datos espaciales mediante aprendizaje automático. Ciencia del medio ambiente total 668, 1317–1327, https://doi.org/10.1016/j.scitotenv.2019.03.045 (2019).

Artículo ADS CAS PubMed Google Scholar

Knoll, L., Breuer, L. & Bach, M. Estimación a nivel nacional de las condiciones redox de las aguas subterráneas y las concentraciones de nitratos mediante el aprendizaje automático. Cartas de investigación ambiental 15, 064004, https://doi.org/10.1088/1748-9326/ab7d5c (2020).

Artículo ADS CAS Google Scholar

Müller, J. et al. Optimización sustituta de redes neuronales profundas para predicciones de aguas subterráneas. J.Glob Optim 81, 203–231, https://doi.org/10.1007/s10898-020-00912-0 (2019). ArXiv: 1908.10947.

Artículo MathSciNet MATEMÁTICAS Google Scholar

Stackelberg, PE y cols. Predicciones de aprendizaje automático sobre el pH en el sistema acuífero glacial, norte de EE. UU. Agua subterránea 59, 352–368, https://doi.org/10.1111/gwat.13063 (2021).

Artículo CAS Google Scholar

Wang, B., Oldham, C. y Hipsey, MR Comparación de técnicas y variables de aprendizaje automático para la predicción del nitrógeno orgánico disuelto en aguas subterráneas en un área urbana. Ingeniería de Procedia 154, 1176–1184, https://doi.org/10.1016/j.proeng.2016.07.527 (2016).

Artículo CAS Google Scholar

Wunsch, A., Liesch, T. & Broda, S. Pronóstico de niveles de agua subterránea utilizando redes autorregresivas no lineales con entrada exógena (NARX. Journal of Hydrology 567, 743–758, https://doi.org/10.1016/j.jhidrol. 2018.01.045 (2018).

ADS del artículo Google Scholar

Wunsch, A., Liesch, T. & Broda, S. Pronóstico del nivel del agua subterránea con redes neuronales artificiales: una comparación de memoria a corto plazo (LSTM), redes neuronales convolucionales (CNN) y redes autorregresivas no lineales con entrada exógena (NARX). Hidrología y ciencias del sistema terrestre 25, 1671-1687, https://hess.copernicus.org/articles/25/1671/2021/ (2021).

Wunsch, A., Liesch, T. & Broda, S. El aprendizaje profundo muestra una disminución de los niveles de agua subterránea en Alemania hasta 2100 debido al cambio climático. Comunicaciones de la naturaleza 13, 1221, https://doi.org/10.1038/s41467-022-28770-2 (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wunsch, A. et al. Modelado de descarga de manantiales kársticos basado en aprendizaje profundo utilizando datos de entrada distribuidos espacialmente. Hidrología y ciencias del sistema terrestre 26, 2405–2430, https://doi.org/10.5194/hess-26-2405-2022 (2022).

ADS del artículo Google Scholar

Knoll, L., Breuer, L. & Bach, M. Predicción a gran escala de concentraciones de nitrato en aguas subterráneas a partir de datos espaciales mediante aprendizaje automático. Ciencia del medio ambiente total 668, 1317–1327, https://doi.org/10.1016/j.scitotenv.2019.03.045 (2019).

Artículo ADS CAS PubMed Google Scholar

Belitz, K., Moore, RB, Arnold, TL, Sharpe, JB & Starn, JJ Posición hidrológica multiorden en los Estados Unidos continentales: un conjunto de métricas que respaldan el mapeo de aguas subterráneas a escalas regional y nacional. Investigación de recursos hídricos 55, 11188–11207, https://doi.org/10.1029/2019WR025908 (2019).

ADS del artículo Google Scholar

EU-Hydro - Base de datos de la red fluvial. Servicio de Monitoreo Terrestre de Copernicus https://land.copernicus.eu/imagery-in-situ/eu-hidro/eu-hidro-river-network-database?tab=download (2019).

Lehner, B., Verdin, K. y Jarvis, A. Nueva hidrografía global derivada de datos de elevación espaciales. Eos, Transacciones Unión Geofísica Estadounidense 89, 93, https://doi.org/10.1029/2008EO100001 (2008).

ADS del artículo Google Scholar

Lin, P., Pan, M., Wood, EF, Yamazaki, D. & Allen, GH Un nuevo conjunto de datos de red fluvial global basado en vectores que tiene en cuenta la densidad de drenaje variable. Datos científicos 8, 28 http://www.nature.com/articles/s41597-021-00819-9 (2021).

Artículo PubMed PubMed Central Google Scholar

Degnan, JR, Lindsey, BD, Levitt, JP y Szabo, Z. La relación de los contaminantes geogénicos con la edad del agua subterránea, la posición hidrológica del acuífero, el tipo de agua y las condiciones redox en los acuíferos de la llanura costera del Atlántico y del Golfo, este y centro-sur de EE. UU. Ciencia del medio ambiente total 723, 137835, https://doi.org/10.1016/j.scitotenv.2020.137835 (2020).

Artículo ADS CAS PubMed Google Scholar

Knierim, KJ, Kingsbury, JA, Haugh, CJ y Ransom, KM Uso de modelos de árbol de regresión potenciados para predecir la salinidad en los acuíferos de Mississippi Embayment, en el centro de Estados Unidos. Revista JAWRA de la Asociación Estadounidense de Recursos Hídricos 56, 1010–1029, https://doi.org/10.1111/1752-1688.12879 (2020).

ADS del artículo Google Scholar

Nölscher, M., Mutz, M. y Broda, S. Conjunto de datos EU-MOHP v013.1.1. hidroshare https://doi.org/10.4211/hs.0d6999591fb048cab5ab71fcb690eadb (2022).

Strahler, AN Análisis cuantitativo de la geomorfología de cuencas hidrográficas. Eos, Transacciones Unión Geofísica Estadounidense 38, 913–920 (1957).

ADS del artículo Google Scholar

EU-Hydro - Costa - Servicio de vigilancia terrestre de Copernicus. Servicio de Monitoreo Terrestre de Copernicus https://land.copernicus.eu/imagery-in-situ/eu-hidro/eu-hidro-coastline?tab=download (2019).

Equipo, RC R: Un lenguaje y entorno para la informática estadística. Fundación R para Computación Estadística https://cran.r-project.org/mirrors.html (2020).

Landau, WM El paquete Targets R: un conjunto de herramientas dinámico de canalización orientado a funciones Make-like para reproducibilidad y computación de alto rendimiento. objetivos: flujos de trabajo declarativos similares a 'hacer' orientados a funciones dinámicas https://cran.r-project.org/package=targets (2021).

Gallaun, H., Dohr, K., Puhm, M., Stumpf, A. & Hugé, J. EU-Hydro - Guía del usuario de River Net 1.3. Servicio de Monitoreo Terrestre de Copernicus https://land.copernicus.eu/user-corner/technical-library/eu-hidro_user_guide.pdf (2019).

Conjunto de datos de hidrografía nacional plus (nhdplus). Agencia de Protección Ambiental de los Estados Unidos https://www.epa.gov/waterdata/nhdplus-national-hydrography-dataset-plus (2012).

Dewald, T. y col. NHDPlus Versión 2: Guía del usuario. Agencia de Protección Ambiental de los Estados Unidos https://www.epa.gov/waterdata/basic-information (2012).

Johnston, CM y cols. Evaluación de métodos de delimitación de cuencas para el conjunto de datos hidrográficos nacionales de resolución media. Servicio Geológico de EE. UU. https://pubs.usgs.gov/sir/2009/5233/pdf/sir2009-5233.pdf (2009).

Allaire, JJ y cols. rmarkdown: Documentos dinámicos para R https://cran.r-project.org/package=rmarkdown (2021).

Xie, Y. knitr: Una herramienta integral para la investigación reproducible en R https://cran.r-project.org/package=knitr (2014).

Hijmans, RJ raster: Análisis y modelado de datos geográficos https://cran.r-project.org/package=raster (2020).

Pebesma, E. estrellas: Matrices espaciotemporales, cubos de datos rasterizados y vectoriales https://cran.r-project.org/package=stars (2021).

Nölscher, M. & Mutz, M. eumohpclipr https://github.com/MxNl/eumohpclipr/ (2022).

Baston, D. exactitudextractr: Extracción rápida de conjuntos de datos ráster utilizando polígonos https://cran.r-project.org/package=exactextractr (2022).

Ushey, K. renv: Entornos de proyectos https://cran.r-project.org/package=renv (2021).

Wickham, H. y col. tidyverse: instale y cargue fácilmente 'Tidyverse' https://cran.r-project.org/package=tidyverse (2019).

Pebesma, E. sf: Funciones simples para R https://cran.r-project.org/package=sf (2018).

Fischetti, T.asserr: Programación asertiva para canalizaciones de análisis R https://cran.r-project.org/package=assertr (2021).

Grupo de interés especial de R sobre bases de datos (R-SIG-DB), Wickham, H. & Müller, K. DBI: Interfaz de base de datos R https://cran.r-project.org/package=DBI (2021).

Chang, W. extrafont: Herramientas para usar fuentes https://cran.r-project.org/package=extrafont (2014).

Vaughan, D. y Dancho, M. furrr: Aplicar funciones de mapeo en paralelo utilizando futuros https://cran.r-project.org/package=furrr (2021).

Hester, J. pegamento: literales de cadena interpretados https://cran.r-project.org/package=glue (2020).

Müller, K. aquí: Una forma más sencilla de encontrar sus archivos https://cran.r-project.org/package=here (2020).

Csardi, G. & Nepusz, T. igraph: Análisis y visualización de redes https://cran.r-project.org/package=igraph (2006).

Firke, S. janitor: Herramientas sencillas para examinar y limpiar datos sucios https://cran.r-project.org/package=janitor (2021).

Pedersen, TL patchwork: El compositor de tramas https://cran.r-project.org/package=patchwork (2020).

Bivand, R., Keitt, T. & Rowlingson, B. rgdal: Enlaces para la biblioteca de abstracción de datos 'geoespaciales' https://cran.r-project.org/package=rgdal (2021).

Bivand, R. rgrass7: Interfaz entre el sistema de información geográfica GRASS y R https://cran.r-project.org/package=rgrass7 (2021).

Sur, A. rnaturalearth: Datos de mapas mundiales de Natural Earth https://cran.r-project.org/package=rnaturalearth (2017).

Wickham, H., Ooms, J. & Müller, K. RPostgres: Interfaz 'Rcpp' para 'PostgreSQL' https://cran.r-project.org/package=RPostgres (2021).

Cooley, D. sfheaders: Conversión entre objetos R y objetos de funciones simples https://cran.r-project.org/package=sfheaders (2020).

Qiu, Y. & Raggett, D. showtext: Uso de fuentes más fácilmente en R Graphs https://cran.r-project.org/package=showtext (2021).

Walthert, L. y Müller, K. styler: Impresión bonita no invasiva de código R https://cran.r-project.org/package=styler (2021).

Landau, WM tarchetypes: arquetipos para objetivos https://cran.r-project.org/package=tarchetypes (2021).

Hester, J. & Wickham, H. fs: Operaciones de sistemas de archivos multiplataforma basadas en 'libuv' https://cran.r-project.org/package=fs (2020).

NölSscher, M., Mutz, M. & Broda, S. Código EU-MOHP v013.1.1. hidroshare https://doi.org/10.4211/hs.8ea376970c904c6698fc8cfe392689de (2022).

Descargar referencias

La generación de este conjunto de datos no habría sido posible sin todos los paquetes gratuitos de código abierto para R. Por lo tanto, un agradecimiento especial a sus desarrolladores, especialmente a Will Landau, quien rápidamente brindó respuestas y soluciones con respecto al paquete de objetivos. Todos los paquetes usados ​​se pueden encontrar en las referencias. También agradecemos las discusiones y sugerencias de nuestros colegas de BGR. También agradecemos a los tres colegas revisores. Sus comentarios consistentemente constructivos realmente ayudaron a mejorar el descriptor de datos.

Financiamiento de Acceso Abierto habilitado y organizado por Projekt DEAL.

Instituto Federal de Geociencias y Recursos Naturales (BGR), Berlín, 13593, Alemania

Maximiliano Nölscher y Stefan Broda

Investigador independiente, Berlín, Alemania

Michael Mutz

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

MN participó en todas las fases y pasos de la generación de este conjunto de datos, incluidas investigaciones y visualizaciones. MM contribuyó al desarrollo de software en R y PostGIS así como a la metodología y validación. SB contribuyó a la conceptualización del conjunto de datos, pero también dirigió la supervisión, la administración del proyecto y la adquisición de financiación. Todos los autores revisaron y editaron el manuscrito.

Correspondencia a Maximilian Nölscher.

Los autores declaran no tener conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Nölscher, M., Mutz, M. & Broda, S. Posición hidrológica multiorden para Europa: un conjunto de características para el aprendizaje automático y el análisis en hidrología. Datos de ciencia 9, 662 (2022). https://doi.org/10.1038/s41597-022-01787-4

Descargar cita

Recibido: 22 de agosto de 2021

Aceptado: 14 de octubre de 2022

Publicado: 29 de octubre de 2022

DOI: https://doi.org/10.1038/s41597-022-01787-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt