Saltar a contenido

← Volver al índice | Arquitectura IA | Gobernanza Datasets

Deep Research — Bancos de Datos de Animales Marinos para el IEO

Tipo: Documentación de Investigación — Deep Research
Audiencia: Equipo de desarrollo, científicos de datos, investigadores
Fecha: 20 de marzo de 2026
Objetivo: Identificar bancos de datos concretos de animales marinos utilizables para pruebas, generación de datos sintéticos y scraping
Relacionado con: Gobernanza Datasets | Análisis LLM Departamental | Arquitectura IA


1. Contexto y Motivación

El IEO (Centro Oceanográfico de Málaga, IEO-CSIC) trabaja con tres departamentos principales —Pesquerías, Acuicultura y Medio Marino— cada uno con necesidades de datos muy específicas:

Departamento Datos Principales Tipos de Animales
Pesquerías Otolitos, biometrías, capturas, evaluación de stocks Peces óseos (merluza, sardina, anchoa, atún)
Acuicultura Cultivos, crecimiento, reproducción Dorada, lubina, rodaballo, moluscos bivalvos
Medio Marino Biodiversidad, inventarios, distribuciones Cetáceos, tortugas, aves marinas, invertebrados bentónicos

Para desarrollar y probar la plataforma de IA necesitamos: 1. Datos reales de referencia para validar modelos 2. Datos sintéticos realistas para pruebas de carga y desarrollo 3. Imágenes de especies marinas para entrenar/validar visión por computador


2. Bancos de Datos del IEO (Propios)

2.1 Catálogo de Datos del IEO

Aspecto Detalle
URL https://datos.ieo.es
Contenido 641 datasets de biota, 38 datasets de mamíferos marinos
Formato Metadatos ISO 19115, datos en diversos formatos
Licencia Datos públicos del CSIC
Relevancia 🔴 Directa — datos propios del cliente

2.2 Colecciones Históricas del IEO Málaga

  • Colección Líquido (desde 1907): especímenes en alcohol/formol
  • Colección Seca (desde 1913): otolitos, escamas, conchas
  • Volumen: +3.400 especímenes catalogados
  • Digitalización: en curso (proyecto TAXON)

2.3 Campañas Oceanográficas

El IEO realiza ~30 campañas anuales con ~200 científicos. Campañas relevantes para nuestro ámbito:

Campaña Área Tipo de Datos
ECOMED Mediterráneo Arrastre demersal, biometrías de peces
MEDITS Mediterráneo Evaluación de stocks demersales
PELACUS Atlántico Norte Acústica y huevos de pelágicos (sardina, anchoa)
ARSA Golfo de Cádiz Arrastre demersal de profundidad
MEDIAS Mediterráneo Acústica para pelágicos pequeños

3. Bancos de Datos Internacionales — Taxonomía y Especies

3.1 WoRMS — World Register of Marine Species

Aspecto Detalle
URL https://www.marinespecies.org
Contenido Registro taxonómico autoritativo de todas las especies marinas conocidas
Volumen +240.000 nombres válidos de especies
API REST ✅ Pública — https://www.marinespecies.org/rest/
Licencia CC-BY
Uso para IEO Taxonomía de referencia, validación de nombres, AphiaIDs
# Ejemplo: buscar especie por nombre
GET https://www.marinespecies.org/rest/AphiaRecordsByName/Merluccius+merluccius

[!TIP] WoRMS proporciona AphiaIDs que actúan como identificador universal entre todas las demás bases de datos marinas. Es el nexo de unión de todo el ecosistema.

3.2 FishBase

Aspecto Detalle
URL https://www.fishbase.se
Contenido Información biológica de todos los peces óseos y cartilaginosos conocidos
Volumen +35.000 especies, +60.000 nombres comunes, +70.000 imágenes
API https://fishbase.ropensci.org (REST) + paquete R rfishbase
Licencia CC-BY-NC
Datos clave Morfología, hábitat, dieta, reproducción, tallas, distribución

3.3 SeaLifeBase

Aspecto Detalle
URL https://www.sealifebase.se
Contenido Complemento de FishBase para invertebrados y otros organismos marinos no-pez
Volumen ~200.000 registros de especies
API https://fishbase.ropensci.org/sealifebase + paquete R rfishbase
Licencia CC-BY-NC
Uso para IEO Crustáceos, moluscos, equinodermos del departamento de Medio Marino

4. Bancos de Datos de Ocurrencias y Distribución

4.1 OBIS — Ocean Biogeographic Information System

Aspecto Detalle
URL https://obis.org
Contenido Registros georeferenciados de especies marinas
Volumen +100 millones de registros, miles de datasets
API REST ✅ Pública — https://api.obis.org/v3/
Licencia CC-BY (mayoritariamente)
Filtros Taxón, geometría WKT, fecha, profundidad
# Ejemplo: ocurrencias de Merluccius merluccius en el Mediterráneo
GET https://api.obis.org/v3/occurrence?scientificname=Merluccius+merluccius&geometry=POLYGON((-6+35,37+35,37+45,-6+45,-6+35))

4.2 GBIF — Global Biodiversity Information Facility

Aspecto Detalle
URL https://www.gbif.org
Contenido Registros de biodiversidad (terrestre + marina)
Volumen +2.400 millones de registros totales
API REST ✅ Pública — https://api.gbif.org/v1/
Descarga masiva ✅ API asíncrona de descargas (requiere cuenta gratuita)
Python pygbif
Filtro España country=ES + taxonKey para grupos marinos

[!IMPORTANT] El IEO-CSIC contribuye datasets a GBIF. Algunos datos del propio IEO pueden descargarse desde aquí.

4.3 iNaturalist

Aspecto Detalle
URL https://www.inaturalist.org
Contenido Observaciones ciudadanas con foto, geolocalización e identificación
Volumen +200 millones de observaciones (incluye marinas)
API REST ✅ Pública — https://api.inaturalist.org/v1/
Python pyinaturalist
Filtro marino Por taxon_id de grupos marinos + place_id costero
Uso para IEO Imágenes geolocalizadas de especies + identificación comunitaria

5. Bancos de Datos Especializados — Pesquerías y Otolitos

5.1 ICES SmartDots — Lectura de Edad por Otolitos

Aspecto Detalle
URL https://smartdots.ices.dk
Contenido Imágenes de otolitos con anotaciones de edad por expertos
Formato Imágenes + JSON via Web API
API ✅ Web API REST (requiere token de autenticación ICES)
Licencia CC-BY 4.0
Relevancia 🔴 Crítica — directamente mencionado en la documentación del proyecto

[!IMPORTANT] El modelo U-Net-Otolitos del proyecto está entrenado con datos de ICES SmartDots + IEO. Este es el banco de datos más relevante para el departamento de Pesquerías.

5.2 AFORO — Base de Datos de Forma de Otolitos

Aspecto Detalle
URL https://aforo.cmima.csic.es
Contenido Imágenes de alta resolución de otolitos sagitales + análisis de forma
Volumen 9.822 imágenes, 2.980 especies, 289 familias
Cobertura Mediterráneo, Canarias, Antártida, Namibia
Operador ICM-CSIC (mismo CSIC que el IEO)
Licencia Acceso abierto
Relevancia 🔴 Crítica — otolitos del Mediterráneo, mismo organismo (CSIC)

5.3 ICES Data Portal — Datos de Pesquerías

Aspecto Detalle
URL https://data.ices.dk
Contenido Evaluaciones de stocks, capturas, esfuerzo pesquero, datos ambientales
Volumen +300 millones de mediciones
API ✅ Web services para datos de stock assessment
Licencia ICES Data Policy (generalmente abierta)
Datos clave Capturas por especie/zona/año, tallas, madurez, peso

6. Bancos de Datos Ambientales y Oceanográficos

6.1 Copernicus Marine Service (CMEMS)

Aspecto Detalle
URL https://marine.copernicus.eu
Contenido Datos físicos y biogeoquímicos del océano
Variables Temperatura, salinidad, corrientes, clorofila-a, fitoplancton
API Python copernicusmarine (Copernicus Marine Toolbox)
Licencia Gratuita con registro
Mediterráneo Productos específicos: MEDSEA_*

6.2 EMODnet — European Marine Observation and Data Network

Aspecto Detalle
URL https://emodnet.ec.europa.eu
Portales Biology, Chemistry, Bathymetry, Geology, Physics, Human Activities
API ✅ OGC WFS/WCS + ERDDAP
R/Python emodnet.wfs (R), OGC clients (Python)
Licencia Abierta (datos europeos armonizados)
Uso para IEO Distribución de especies, datos medioambientales de contexto

7. Datasets de Imágenes para IA/Computer Vision

7.1 Datasets de Imágenes de Peces

Dataset Especies Imágenes Fuente Uso
FathomNet 233 clases 80.000+ imgs, 106K localizaciones MBARI/Deep-sea Detección submarina
FishNet Multi-especie Gran escala CVPR benchmark Reconocimiento + rasgos funcionales
Mediterranean Fish Dataset 20 spp. mediterráneas 18.400+ peces, 1.600+ imágenes Frontiers in Marine Science 🔴 Ideal para IEO
Croatian Fish Dataset 12 spp. Adriático 794 imágenes FGVC research Clasificación fina
SEAMAPD21 Peces de arrecife Gran escala NOAA Object detection
Deep Vision Fish Pelágicos comerciales Cámaras de arrastre IMR Norway Clasificación automática
Fish Species (Kaggle) 13 especies 8.242 imágenes anotadas Kaggle Entrenamiento/benchmark
Marine Animals (Kaggle) 5 categorías 1.241 entrenamiento Kaggle Clasificación básica

[!TIP] El Mediterranean Fish Dataset (20 especies, +18.400 especímenes) es el más alineado con el IEO Málaga por cobertura geográfica y taxonomía.

7.2 Datasets Especializados

Dataset Contenido Uso para IEO
ICES SmartDots Imágenes de otolitos anotados con edad Entrenamiento U-Net-Otolitos
AFORO 9.822 imágenes de otolitos (forma) Validación de identificación por otolito
Deep-sea JODD 8.151 imágenes, 19 categorías organismos Detección deep-sea
iNaturalist (marino) Millones de fotos con ID comunitaria Data augmentation + validación

8. Estrategia de Datos Sintéticos

8.1 Herramientas de Generación de Datos Tabulares

Herramienta Tipo Uso para IEO Python
SDV (Synthetic Data Vault) Copulas gaussianas + GANs Generar biometrías sintéticas que mantengan correlaciones reales pip install sdv
CTGAN GAN condicional tabular Datos de capturas con distribuciones realistas pip install ctgan
Faker Generador de datos falsos Metadatos: nombres de campaña, códigos IEO, investigadores pip install faker
ydata-synthetic GANs + TimeGAN Series temporales de capturas/biometrías pip install ydata-synthetic
synthcity Multi-método (privacidad) Datos anonimizados para compartir pip install synthcity

8.2 Esquema de Datos Sintéticos para el IEO

# Ejemplo: generación de muestras biológicas sintéticas con SDV
from sdv.single_table import GaussianCopulaSynthesizer
from sdv.metadata import SingleTableMetadata

# Esquema de una muestra biológica del IEO
schema = {
    "codigo_interno": "IEOMA-{DEPARTAMENTO}-{SECUENCIA:04d}",
    "especie": "Merluccius merluccius",       # de WoRMS/FishBase
    "nombre_comun": "Merluza europea",
    "longitud_total_cm": 35.2,                 # distribución normal
    "peso_g": 420.0,                           # correlacionado con longitud
    "sexo": "H",                               # M/H/I
    "madurez": "III",                          # escala I-VI
    "edad_anios": 3,                           # lectura de otolito
    "zona_captura": "GSA06",                   # áreas FAO/GFCM
    "profundidad_m": 120,
    "fecha_captura": "2025-11-15",
    "campana": "ECOMED-2025",
    "latitud": 36.7213,
    "longitud": -4.4214,
    "temperatura_superficie_c": 18.5,          # de Copernicus CMEMS
}

8.3 Augmentation de Imágenes

Técnica Herramienta Uso
Rotación, flip, crop albumentations Aumentar dataset de fotos de especímenes
Color jitter, contraste torchvision.transforms Simular condiciones de iluminación
Style transfer Modelos generativos Simular diferentes fondos/escenas
Synthetic otolith generation U-Net + GANs Generar otolitos sintéticos para entrenamiento
Background randomization Segment Anything Separar espécimen de fondo y recomponer

9. Plan de Scraping y Automatización

9.1 APIs Directas (Sin Scraping)

Fuente Método Datos Obtenidos Coste
WoRMS REST GET /AphiaRecords* Taxonomía completa Gratis
FishBase API rfishbase / REST Biología de 35K+ peces Gratis
OBIS API GET /occurrence Ocurrencias georeferenciadas Gratis
GBIF API POST /occurrence/download Descarga masiva de ocurrencias Gratis (cuenta)
iNaturalist API GET /observations Fotos + identificaciones Gratis (rate-limited)
ICES SmartDots Web API REST Imágenes de otolitos + edad Gratis (token)
Copernicus Python toolbox Datos oceanográficos Gratis (cuenta)
EMODnet OGC WFS/WCS Biología marina europea Gratis

9.2 Scripts de Scraping Recomendados

Para fuentes sin API formal:

Fuente Método Herramienta
AFORO (otolitos CSIC) Web scraping de imágenes Selenium + BeautifulSoup
Catálogo IEO Descarga de metadatos CSW OWSLib (Python)
Publicaciones IEO digitalizadas Extracción de tablas de PDFs tabula-py + pdfplumber

10. Mapa de Alineación con Departamentos del IEO

flowchart TB
    subgraph PESQ ["Pesquerías"]
        P1["ICES SmartDots"]
        P2["AFORO Otolitos"]
        P3["ICES Data Portal"]
        P4["FishBase"]
    end

    subgraph ACUI ["Acuicultura"]
        A1["FishBase"]
        A2["SeaLifeBase"]
        A3["GBIF"]
    end

    subgraph MMAR ["Medio Marino"]
        M1["OBIS"]
        M2["EMODnet Biology"]
        M3["iNaturalist"]
        M4["WoRMS"]
        M5["Copernicus CMEMS"]
    end

    subgraph TRANS ["Transversales"]
        T1["WoRMS - taxonomía"]
        T2["GBIF - ocurrencias"]
        T3["Mediterranean Fish Dataset"]
        T4["FathomNet - deep learning"]
    end

    P1 --> T1
    P4 --> T1
    M1 --> T1
    A2 --> T1

    style PESQ fill:#e74c3c,color:#fff
    style ACUI fill:#2ecc71,color:#fff
    style MMAR fill:#3498db,color:#fff
    style TRANS fill:#f39c12,color:#fff

11. Resumen Ejecutivo — Top 10 Bancos de Datos Prioritarios

# Base de Datos Prioridad Tipo de Datos API Departamento
1 ICES SmartDots 🔴 Crítica Otolitos + edad ✅ REST Pesquerías
2 AFORO 🔴 Crítica Otolitos (forma) ⚠️ Web Pesquerías
3 WoRMS 🔴 Crítica Taxonomía ✅ REST Todos
4 FishBase 🟠 Alta Biología de peces ✅ REST Pesquerías, Acuicultura
5 OBIS 🟠 Alta Ocurrencias marinas ✅ REST Medio Marino
6 Mediterranean Fish Dataset 🟠 Alta Imágenes de peces ⬇️ Descarga IA / Computer Vision
7 GBIF 🟡 Media Biodiversidad global ✅ REST Todos
8 EMODnet Biology 🟡 Media Distribución europea ✅ OGC Medio Marino
9 Copernicus CMEMS 🟡 Media Oceanografía física ✅ Python Contexto ambiental
10 iNaturalist 🟢 Complementaria Fotos ciudadanas ✅ REST Validación IA

12. Predicción de Espacio en Disco

12.1 Estimación por Fuente de Datos

# Base de Datos Tipo Alcance Descarga Tamaño Estimado Notas
1 WoRMS Tabular (CSV/JSON) Dump completo (~240K especies) ~500 MB Taxonomía + clasificaciones + sinónimos
2 FishBase Tabular + imágenes Base de datos completa ~3 GB ~35K especies, 70K+ fotos (thumbnails)
3 SeaLifeBase Tabular ~200K registros ~800 MB Invertebrados, complementa FishBase
4 OBIS Tabular (TSV/Parquet) Export completo (168M registros) ~50 GB GeoParquet via AWS S3. Filtrado España: ~2-5 GB
5 GBIF Tabular (CSV) España marino (~30M ocurrencias) ~8-12 GB ZIP comprimido ~3-4 GB, descomprimido ~12 GB
6 iNaturalist Tabular + imágenes Marino España (~500K obs.) ~15-25 GB Fotos a resolución media (~50 KB/foto)
7 ICES SmartDots Imágenes de otolitos Colección por eventos (~10K imgs) ~8-15 GB Imágenes alta resolución (~1-2 MB/otolito)
8 AFORO Imágenes de otolitos 9.822 imágenes ~12-20 GB Alta resolución + datos de forma
9 ICES Data Portal Tabular (CSV) Stocks pesqueros + series ~2-5 GB Capturas, evaluaciones, series temporales
10 Copernicus CMEMS NetCDF/zarr Mediterráneo (biogeoquímica) ~50-200 GB Según variables y rango temporal seleccionado
11 EMODnet Biology Tabular + vectorial Europa marina ~3-8 GB Distribución de especies europeas

12.2 Datasets de Imágenes para IA

Dataset Imágenes Resolución Típica Tamaño Estimado Notas
FathomNet 448.273 Variable (submarina) ~80-120 GB Descarga programática, no bulk
Mediterranean Fish Dataset 1.600+ (18.400 peces) 1920×1080 ~3-5 GB 🔴 Prioritario para IEO
FishNet (completo) 94.532 Variable ~20-30 GB Multi-especie global
Fish Species (Kaggle) 8.242 ~640×480 ~500 MB Benchmark rápido
Croatian Fish Dataset 794 Alta resolución ~200 MB FGVC Adriático
SEAMAPD21 Gran escala Variable ~15-25 GB Peces de arrecife
Deep Vision Fish Variable Cámara de arrastre ~5-10 GB Pelágicos comerciales

12.3 Datos Sintéticos Generados

Componente Volumen Estimado Tamaño Estimado Notas
Biometrías sintéticas (SDV) 1M registros ~500 MB CSV/Parquet con correlaciones reales
Metadatos sintéticos (Faker) 100K muestras ~50 MB Códigos IEO, campañas, fechas
Imágenes aumentadas 50K imágenes ~10-15 GB Augmentation de datasets reales
Embeddings precalculados ~500K vectores 768d ~3 GB ChromaDB/pgvector

12.4 Resumen por Perfil de Uso

pie title Distribución de Espacio en Disco - Perfil Recomendado
    "Imágenes IA" : 45
    "Datos Oceanográficos" : 25
    "Ocurrencias" : 15
    "Taxonomía" : 5
    "Datos Sintéticos" : 7
    "Embeddings" : 3
Perfil Descripción Espacio Total Qué Incluye
🟢 Mínimo Viable Solo lo esencial para desarrollo y pruebas ~25-35 GB WoRMS + FishBase + Med Fish Dataset + SmartDots (subset) + datos sintéticos
🟠 Recomendado Desarrollo completo + validación IA ~120-180 GB Mínimo + OBIS (filtrado) + GBIF España + AFORO + iNaturalist (subset) + FathomNet (subset) + embeddings
🔴 Completo (Research) Corpus investigación íntegro ~500-850 GB Todo lo anterior + OBIS completo + Copernicus CMEMS + EMODnet + FathomNet completo + FishNet

12.5 Desglose del Perfil Recomendado (~150 GB)

Categoría Fuentes Tamaño % Total
Imágenes para IA Med Fish + SmartDots + AFORO + iNaturalist subset + FathomNet subset ~65 GB 43%
Datos oceanográficos Copernicus CMEMS (Mediterráneo, variables clave) ~35 GB 23%
Ocurrencias/distribución OBIS (España) + GBIF (España marino) + EMODnet ~22 GB 15%
Taxonomía/biología WoRMS + FishBase + SeaLifeBase ~4,5 GB 3%
Datos pesqueros ICES Data Portal (stocks + series) ~4 GB 3%
Datos sintéticos SDV + Faker + augmentation ~16 GB 11%
Embeddings/índices ChromaDB + pgvector ~3 GB 2%

12.6 Requisitos de Infraestructura

Aspecto Mínimo Viable Recomendado Completo
Disco SSD 50 GB (con margen) 250 GB 1 TB
RAM para procesamiento 8 GB 16 GB 32 GB
VRAM (modelos IA) 8 GB 16 GB 24 GB
Ancho de banda descarga ~5 GB/h ~5 GB/h ~5 GB/h
Tiempo estimado descarga ~6 horas ~30 horas ~170 horas

[!WARNING] Los tiempos de descarga son estimaciones conservadoras. Algunas APIs (iNaturalist, SmartDots) tienen rate limiting que puede multiplicar el tiempo por 5-10x. Se recomienda ejecutar descargas en paralelo por fuente y usar caché local.

[!TIP] Estrategia recomendada: Empezar por el perfil Mínimo Viable (~25 GB) para tener datos funcionales en pocas horas, e ir ampliando progresivamente según las necesidades de cada departamento.


13. Próximos Pasos Recomendados

  1. Inmediato: Crear scripts de descarga para WoRMS + FishBase (taxonomía base)
  2. Corto plazo: Solicitar acceso a ICES SmartDots API (token) y descargar imágenes de otolitos
  3. Corto plazo: Descargar Mediterranean Fish Dataset para pruebas de computer vision
  4. Medio plazo: Implementar pipeline SDV para generación de biometrías sintéticas
  5. Medio plazo: Configurar ingesta OBIS + GBIF filtrado por Mediterráneo/Atlántico español
  6. Largo plazo: Construir dataset multimodal IEO (imágenes + metadatos + embeddings)

Documentos Relacionados

Nivel Documento Descripción
Investigación Gobernanza Datasets Políticas de datos y licencias
Arquitectura Arquitectura IA Pipeline de IA, modelos, embeddings
Arquitectura MLOps Workflows Registro de modelos, datasets de entrenamiento
Especificación API Esquema de muestras biológicas