Saltar a contenido

← Volver al índice | Arquitectura IA | Análisis Tecnológico | Bancos de Datos Animales

Análisis de Modelos de IA por Departamento

Tipo: Investigación — Análisis Monotemático de IA
Audiencia: Equipo de desarrollo IA/ML, dirección técnica, responsables de departamento
Fecha: 20 de marzo de 2026
Relacionado con: Arquitectura IA | Fases de Integración | Bancos de Datos Animales


1. Diagnóstico: Estado Actual vs. Estado Objetivo

1.1 Cobertura Actual

La documentación existente define un stack genérico de IA:

Modelo Función Limitación Actual
LLaVA 13B Visión + lenguaje Modelo generalista, sin especialización marina
Llama 3.1 8B Generación de texto Sin conocimiento taxonómico profundo
CLIP ViT-L/14 Embeddings multimodales No optimizado para fauna atlántica
TFLite Edge AI básica Sin modelos de detección de especies

[!WARNING] El stack actual trata la IA como un componente monolítico e indiferenciado. Cada departamento del IEO tiene necesidades radicalmente distintas que requieren modelos y datasets especializados.

1.2 Gap Identificado

flowchart LR
    subgraph Actual ["Estado Actual"]
        A1["1 modelo genérico"]
        A2["Sin datasets del dominio"]
        A3["Sin benchmarks"]
    end

    subgraph Objetivo ["Estado Objetivo"]
        O1["Modelos por departamento"]
        O2["Datasets públicos integrados"]
        O3["Tests de validación"]
    end

    Actual -->|"este documento"| Objetivo

    style Actual fill:#e74c3c,color:#fff
    style Objetivo fill:#2ecc71,color:#fff

2. Panorama de Modelos Multimodales Desplegables Localmente

Todos los modelos deben ejecutarse localmente via Ollama para cumplir con la soberanía de datos (ENS). Estos son los modelos de referencia disponibles en 2026:

2.1 Modelos VLM (Visión + Lenguaje) — Candidatos Generales

Modelo Parámetros VRAM MMMU MathVista DocVQA Ollama Fortaleza Clave
Qwen2.5-VL 7B / 72B 5 / 40 GB 70,2 (72B) 74,8 93,9 ✅ Nativo Extracción de datos estructurados, detalle fino
Llama 3.2 Vision 11B / 90B 8 / 55 GB 60,3 (90B) 57,3 90,1 ✅ Nativo Contexto 128K, análisis contextual
InternVL2.5 8B / 78B 5 / 45 GB 70,0+ (78B) 66,3 90,4+ ✅ Nativo Rendimiento comparable a GPT-4o, OCR
Gemma 3 4B / 12B / 27B 3 / 8 / 18 GB ✅ Nativo Eficiencia, multilingüe, licencia abierta
LLaVA-OneVision 7B / 72B 5 / 40 GB ✅ Nativo Preguntas sobre imagen, razonamiento visual

[!TIP] Stack actual: Se migró de LLaVA 13B a Qwen2.5-VL 7B como modelo general. Ofrece rendimiento superior con menor consumo de VRAM y soporte nativo en Ollama. Para el servidor con GPU dedicada, desplegar InternVL2.5-78B como modelo premium.

2.2 Modelos de Detección de Objetos (Computer Vision)

Modelo Función Velocidad Precisión Ejecución
YOLOv11 Detección y clasificación en tiempo real ~5ms por frame mAP 95%+ (tras fine-tune) TFLite (edge) / ONNX (server)
ConvNeXt-Base Clasificación taxonómica jerárquica ~20ms Top-1: 85%+ PyTorch / Ollama
Mask R-CNN Segmentación de instancias (otolitos) ~100ms Segmentación de anillos PyTorch
U-Net Segmentación semántica (estructuras biológicas) ~50ms Contaje de annuli PyTorch / TFLite
ViT + MCEAM Clasificación con atención ambiental ~30ms 1er puesto FathomNet 2025 PyTorch

2.3 Modelos Especializados por Dominio

Modelo Dominio Creador Tipo Disponibilidad
OceanGPT Ciencias oceánicas generales Zhejiang University LLM de texto Open-source
SpeciesNet Identificación de especies (+2.000) Google DeepMind Clasificador visual Open-source (marzo 2025)
MariNeXt Detección de contaminación marina NVIDIA Research Detección satelital Open-source
FathomNet Models Fauna marina profunda MBARI / FathomNet Clasificador jerárquico Pesos públicos (Kaggle)
MYDAS Foto-ID de tortugas marinas ARCHELON Red neuronal Publicado en paper

3. Análisis por Departamento

3.1 Pesquerías — Departamento Piloto (Fase 1)

flowchart TB
    subgraph Entrada ["Entrada de Datos"]
        OTO["Microfotografías de otolitos"]
        BIO["Biometrías - talla, peso"]
        CAM["Cámaras de lonja"]
    end

    subgraph Modelos ["Stack IA Pesquerías"]
        YOLO["YOLOv11 - Detección de especie"]
        UNET["U-Net - Segmentación de otolitos"]
        VLM["Qwen2.5-VL - Informe contextual"]
    end

    subgraph Salida ["Salida"]
        ESP["Especie identificada"]
        EDAD["Edad estimada"]
        INF["Informe estructurado"]
    end

    OTO --> UNET --> EDAD
    CAM --> YOLO --> ESP
    BIO --> VLM
    ESP --> VLM
    EDAD --> VLM --> INF

    style YOLO fill:#e74c3c,color:#fff
    style UNET fill:#9b59b6,color:#fff
    style VLM fill:#2ecc71,color:#fff

Modelos Recomendados

Tarea Modelo Justificación
Detección de especie YOLOv11 fine-tuned con FathomNet Tiempo real en lonja, mAP elevado
Estimación de edad U-Net + Mask R-CNN (ensemble) Segmentación de annuli en otolitos, compatible con SmartDots del ICES
Informe contextualizado Qwen2.5-VL 7B Genera informes en español combinando imagen + datos biométricos
Embeddings de otolitos CLIP ViT-L/14 (actual) → fine-tuned Búsqueda por similitud visual de otolitos

Sinergias con Organismos Públicos

Organismo Recurso Sinergia
ICES (Consejo Internacional para la Exploración del Mar) SmartDots: plataforma de intercambio de lecturas de otolitos Datos de calibración inter-lector para validar el modelo U-Net
ICES Exchanges de otolitos (espadín, merluza, bacaladilla) Datasets de entrenamiento con edades consensuadas por expertos
NOAA FishBase, publicaciones de edad y crecimiento Referencia cruzada de parámetros de crecimiento por especie
IEO (propio) Campañas ECOMED, datos SIRENO Datos propietarios de alta calidad para fine-tuning
FishAge.org Base de datos pública de peces con edad conocida Ground truth para validación del modelo de edad

Tests Específicos de Reconocimiento de Imagen

Test Entrada Salida Esperada Métrica Umbral MVP
TEST-PES-001: Identificación de especie por foto Imagen de espécimen completo Especie + score de confianza Precisión top-1 ≥ 80%
TEST-PES-002: Identificación top-5 de especie Imagen de espécimen completo 5 candidatos ordenados Precisión top-5 ≥ 95%
TEST-PES-003: Contaje de annuli en otolito Microfotografía de otolito Número de anillos + segmentación Error absoluto medio ≤ 1 año
TEST-PES-004: Detección en vídeo (lonja) Stream de vídeo 30 FPS Bounding box + especie por frame mAP@0.5 ≥ 75%
TEST-PES-005: Detección multi-espécimen Imagen con múltiples peces Conteo + clasificación individual Recall ≥ 85%
TEST-PES-006: Consistencia inter-lector Mismo otolito, N repeticiones Misma edad estimada Coeficiente de variación ≤ 10%

3.2 Acuicultura (Fase 2)

flowchart TB
    subgraph Entrada ["Entrada de Datos"]
        IMG["Imágenes de peces en tanque"]
        SEN["Sensores IoT - temp, O2, pH"]
        REG["Registros de alimentación"]
    end

    subgraph Modelos ["Stack IA Acuicultura"]
        RES["ResNet-50 + ViT - Patología"]
        YOLO2["YOLOv11 - Comportamiento"]
        VLM2["Qwen2.5-VL - Diagnóstico"]
    end

    subgraph Salida ["Salida"]
        PAT["Patología detectada"]
        COMP["Anomalía de comportamiento"]
        DIAG["Informe diagnóstico"]
    end

    IMG --> RES --> PAT
    IMG --> YOLO2 --> COMP
    SEN --> VLM2
    REG --> VLM2
    PAT --> VLM2 --> DIAG

    style RES fill:#e74c3c,color:#fff
    style YOLO2 fill:#9b59b6,color:#fff
    style VLM2 fill:#2ecc71,color:#fff

Modelos Recomendados

Tarea Modelo Justificación
Detección de patologías ResNet-50 + Vision Transformer (híbrido) 99,14% precisión en papers recientes, detecta lesiones y decoloración
Monitorización de comportamiento YOLOv11 + rastreo (ByteTrack) Detecta patrones anómalos de nado indicativos de enfermedad
Diagnóstico integrado Qwen2.5-VL 7B Fusiona imagen + datos IoT para diagnóstico contextualizado
Seguimiento de crecimiento CNN regresión (custom) Estimación de talla/peso a partir de imagen

Sinergias con Organismos Públicos

Organismo Recurso Sinergia
JACUMAR (Junta Nacional Asesora de Cultivos Marinos) Planes nacionales de acuicultura, datos de producción Benchmarks de crecimiento por especie cultivada
ICES WGAQUA Working Group on Aquaculture Protocolos estandarizados de detección de patologías
FAO FIRMS, datos globales de acuicultura Datasets de referencia de patologías en piscicultura
OIE (Organización Mundial de Sanidad Animal) Manual de diagnóstico de enfermedades acuáticas Ground truth para clasificación de patologías

Tests Específicos de Reconocimiento de Imagen

Test Entrada Salida Esperada Métrica Umbral MVP
TEST-ACU-001: Detección de lesiones Imagen de pez en tanque Lesiones marcadas + clasificación Precisión ≥ 90%
TEST-ACU-002: Clasificación de enfermedad Imagen de pez enfermo Tipo de patología (bacteriana, fúngica, parasitaria) Precisión multiclase ≥ 85%
TEST-ACU-003: Detección temprana pre-sintomática Vídeo de comportamiento Alerta de anomalía conductual Sensibilidad ≥ 70%
TEST-ACU-004: Estimación de talla por imagen Fotografía en tanque con referencia Talla estimada en cm Error relativo ≤ 5%

3.3 Medio Marino y Protección Ambiental (Fase 2)

flowchart TB
    subgraph Entrada ["Entrada de Datos"]
        SAT["Imágenes satelitales"]
        CTD["Perfiles CTD"]
        SER["Series temporales ambientales"]
    end

    subgraph Modelos ["Stack IA Medio Marino"]
        GEO["MariNeXt - Contaminación"]
        OCE["OceanGPT - Análisis textual"]
        VLM3["InternVL2.5 - Análisis visual"]
    end

    subgraph Salida ["Salida"]
        CONT["Mapa de contaminación"]
        TEND["Tendencias ambientales"]
        INF2["Informe ambiental"]
    end

    SAT --> GEO --> CONT
    CTD --> OCE
    SER --> OCE --> TEND
    CONT --> VLM3
    TEND --> VLM3 --> INF2

    style GEO fill:#e74c3c,color:#fff
    style OCE fill:#9b59b6,color:#fff
    style VLM3 fill:#2ecc71,color:#fff

Modelos Recomendados

Tarea Modelo Justificación
Detección de contaminación MariNeXt 89,1% precisión en detección de vertidos y plásticos desde satélite
Análisis oceanográfico OceanGPT Primer LLM especializado en ciencias oceánicas, benchmark OceanBench
Cartografía de hábitats GeoAI (U-Net + CNN geoespacial) Segmentación automatizada de corales y fondos
Análisis visual integrado InternVL2.5 8B Superior en gráficos, tablas y datos científicos complejos
Detección de plásticos ADOPT (EPFL) Combina detección satelital + predicción de derivas

Sinergias con Organismos Públicos

Organismo Recurso Sinergia
Copernicus (EU) Datos satelitales Sentinel, Marine Service Imágenes de resolución media/alta para entrenar MariNeXt
AEMET Series meteorológicas costeras Correlación clima-datos ambientales marinos
MARINA (Marine AI Research Alliance) LLMs especializados para ciencias marinas Modelos pre-entrenados y colaboración en OceanGPT
NOAA / IOC-UNESCO Argo (perfiles oceánicos), OBIS (biodiversidad) Datasets masivos de variables oceanográficas
IHM (Instituto Hidrográfico de la Marina) Cartografía de fondos española Ground truth para modelos de segmentación batimétrica

Tests Específicos

Test Entrada Salida Esperada Métrica Umbral MVP
TEST-MAR-001: Detección de vertido Imagen satelital Sentinel-2 Máscara de contaminación Precisión ≥ 85%
TEST-MAR-002: Clasificación de hábitat bentónico Imagen sonar/subacuática Tipo de hábitat (coral, arena, roca, posidonia) mIoU ≥ 70%
TEST-MAR-003: Análisis de serie temporal Serie CTD de 10 años Tendencia + anomalías detectadas Correlación con experto ≥ 0,85

3.4 Tortugas Marinas y Cetáceos (Fase 3)

Modelos Recomendados

Tarea Modelo Justificación
Foto-ID de tortugas MYDAS (red neuronal) >95% éxito en identificación por escamas post-oculares
Foto-ID de cetáceos Happywhale / Flukebook (Pose Invariant Embeddings) 97-99% precisión, >100.000 individuos identificados
Detección en vídeo aéreo YOLOv11 + LSTM Detección de cetáceos en imágenes UAV, tracking temporal
Detección en imagen satelital NOAA GAIA (CNN) Detección de ballenas en imágenes de alta resolución
Identificación de especies SpeciesNet (Google DeepMind) +2.000 especies de fauna, open-source

Sinergias con Organismos Públicos

Organismo Recurso Sinergia
Happywhale Base de datos global de foto-ID de cetáceos +1M fotos con individuos identificados como training data
Flukebook (Wild Me) Plataforma open-source de foto-ID Algoritmos de matching reutilizables
ACCOBAMS Acuerdo de conservación de cetáceos del Mediterráneo Protocolos de monitorización estandarizados
ARCHELON Programa de conservación de tortugas marinas Algoritmo MYDAS y datasets anotados

Tests Específicos

Test Entrada Salida Esperada Métrica Umbral MVP
TEST-CET-001: Re-identificación de individuo 2 fotos del mismo cetáceo Match positivo Recall@1 ≥ 90%
TEST-CET-002: Detección en vídeo aéreo (UAV) Vídeo de vuelo sobre agua Bounding boxes de cetáceos mAP@0.5 ≥ 80%
TEST-CET-003: Foto-ID de tortuga Foto de escamas faciales ID del individuo o «nuevo individuo» Precisión ≥ 90%

3.5 Oceanografía Física y Geología Marina (Fase 3)

Modelos Recomendados

Tarea Modelo Justificación
Predicción oceanográfica Modelos data-driven (CNN-LSTM) Igualan modelos numéricos en SST y nivel del mar
Análisis de datos CTD OceanGPT Comprensión de patrones oceanográficos en lenguaje natural
Cartografía de fondos GeoAI (CNN + datos multihaz) Segmentación automatizada de tipos de fondo
Análisis de riesgos geológicos U-Net geoespacial Detección de fallas y deslizamientos submarinos

4. Datasets Públicos y Fuentes de Datos para Entrenamiento

4.1 Catálogo de Datasets

Dataset Descripción Volumen Acceso Departamento Objetivo
FathomNet Imágenes anotadas de fauna marina profunda +200K imágenes API pública + Kaggle Pesquerías, todos
iNaturalist Observaciones de biodiversidad con imágenes +100M observaciones API REST pública Todos
GBIF Registros globales de biodiversidad +2.600M registros API REST pública Todos
FishBase Base de datos de peces: taxonomía, biología, distribución +35.000 especies, tablas Parquet S3 / API Pesquerías
FishAge.org Base de referencia de peces con edad conocida En crecimiento Web pública Pesquerías
ICES SmartDots Imágenes de otolitos con lecturas de edad consensuadas Miles por especie Plataforma ICES Pesquerías
OBIS Sistema de información de biodiversidad oceánica +150M registros API pública Medio Marino
Copernicus Marine Datos satelitales y oceanográficos PB de datos API registrada Medio Marino, Oceanografía
Happywhale Fotos de cetáceos identificados individualmente +1M fotos API/acuerdo Tortugas y Cetáceos

4.2 Estrategia de Alimentación del Sistema

flowchart TB
    subgraph Publicos ["Datasets Públicos"]
        D1["FathomNet"]
        D2["iNaturalist"]
        D3["ICES SmartDots"]
        D4["Copernicus"]
    end

    subgraph Propios ["Datos Propios IEO"]
        D5["Colecciones históricas"]
        D6["Campañas ECOMED"]
        D7["Datos SIRENO"]
    end

    subgraph Pipeline ["Pipeline de Entrenamiento"]
        MERGE["Fusión + Normalización"]
        TRAIN["Fine-tuning LoRA/QLoRA"]
        EVAL["Evaluación con benchmarks"]
    end

    D1 --> MERGE
    D2 --> MERGE
    D3 --> MERGE
    D4 --> MERGE
    D5 --> MERGE
    D6 --> MERGE
    D7 --> MERGE
    MERGE --> TRAIN --> EVAL

    style Publicos fill:#3498db,color:#fff
    style Propios fill:#f39c12,color:#fff
    style Pipeline fill:#2ecc71,color:#fff

[!IMPORTANT] Los datasets públicos se utilizan para pre-entrenamiento y transfer learning. Los datos propios del IEO (otolitos, biometrías, colecciones) son el diferenciador competitivo que permite alcanzar precisiones superiores al 90% en especies mediterráneas y atlánticas. Ver el Deep Research de Bancos de Datos Animales para un análisis exhaustivo de APIs, volúmenes y estrategias de datos sintéticos.


5. Hoja de Ruta de Tests de Reconocimiento de Imagen y Vídeo

5.1 Entorno de Testing

Componente Tecnología
Framework de test pytest + pytest-benchmark
Datasets de validación Subconjunto curado del IEO (100-500 imágenes anotadas por departamento)
Métricas automatizadas scikit-learn (precision, recall, F1, mAP), torchmetrics
Infraestructura Ollama API local, GPU NVIDIA (16 GB VRAM mínimo)

5.2 Suite Completa de Tests

Bloque A — Tests de Modelo Base (Sin Fine-tuning)

Estos tests validan la capacidad out-of-the-box de cada modelo candidato antes de cualquier adaptación:

ID Test Modelo Entrada Resultado Esperado
BASE-001 Descripción de espécimen marino Qwen2.5-VL 7B Foto de pez común Descripción coherente con características visibles
BASE-002 Descripción de espécimen marino InternVL2.5 8B Misma foto Comparar calidad descriptiva vs BASE-001
BASE-003 Descripción de espécimen marino Llama 3.2 Vision 11B Misma foto Comparar calidad descriptiva vs BASE-001/002
BASE-004 Interpretación de otolito Qwen2.5-VL 7B Microfotografía de otolito ¿Reconoce anillos de crecimiento?
BASE-005 Lectura de tabla biométrica InternVL2.5 8B Captura de Excel con biometrías Extracción precisa de datos tabulares
BASE-006 Detección multi-objeto YOLOv11 (pre-trained COCO) Foto de bandeja con varios peces Detección de objetos (sin clasificación de especie)

Bloque B — Tests de Rendimiento en Vídeo

ID Test Modelo Configuración Métrica
VID-001 Latencia de inferencia por frame YOLOv11 Vídeo 1080p, 30 FPS ms/frame (objetivo: ≤ 33ms)
VID-002 Latencia de inferencia VLM Qwen2.5-VL 7B Frame individual extraído de vídeo ms/inferencia (objetivo: ≤ 500ms)
VID-003 Uso de VRAM bajo carga YOLOv11 + Qwen2.5-VL Vídeo continuo 5 minutos Peak VRAM (objetivo: ≤ 16 GB total)
VID-004 Throughput sostenido Pipeline completo Vídeo continuo 10 minutos Frames procesados/segundo
VID-005 Detección en condiciones difíciles YOLOv11 Vídeo con agua turbia, reflejos, poca luz mAP degradación vs condiciones ideales

Bloque C — Tests Específicos de Dominio (Post Fine-tuning)

Resumen consolidado de los tests departamentales descritos en la sección 3:

Departamento Tests IDs
Pesquerías Identificación de especie, contaje de annuli, detección en vídeo, multi-espécimen, consistencia TEST-PES-001 a 006
Acuicultura Detección de lesiones, clasificación de enfermedad, detección temprana, estimación de talla TEST-ACU-001 a 004
Medio Marino Detección de vertido, clasificación de hábitat, análisis de serie temporal TEST-MAR-001 a 003
Tortugas y Cetáceos Re-identificación, detección aérea, foto-ID de tortuga TEST-CET-001 a 003

5.3 Criterios de Aceptación Globales

Criterio Umbral MVP Umbral Fase 3
Precisión top-1 de especie ≥ 80% ≥ 92%
Precisión top-5 de especie ≥ 95% ≥ 99%
Latencia de inferencia (foto) ≤ 3s ≤ 1s
Latencia de inferencia (vídeo) ≤ 500ms/frame ≤ 100ms/frame
Error de estimación de edad ≤ 1 año ≤ 0,5 años
VRAM total del stack ≤ 16 GB ≤ 24 GB
Disponibilidad del servicio ≥ 95% ≥ 99,5%

6. Recomendaciones Estratégicas

6.1 Stack de IA Recomendado (Actualizado)

Capa Modelo Actual Modelo Recomendado Mejora
VLM General LLaVA 13B Qwen2.5-VL 7B +40% precisión, -40% VRAM
VLM Premium InternVL2.5 78B (server) Nivel GPT-4o en benchmarks
Texto Llama 3.1 8B OceanGPT + Llama 3.1 Conocimiento oceánico nativo
Detección — (no existía) YOLOv11 fine-tuned Tiempo real en vídeo
Segmentación — (no existía) U-Net + Mask R-CNN Otolitos y patologías
Embeddings CLIP ViT-L/14 CLIP ViT-L/14 fine-tuned Especializado en fauna marina
Edge AI TFLite genérico YOLOv11 TFLite Detección de especies on-device
Foto-ID — (no existía) Happywhale / MYDAS Cetáceos y tortugas
Geoespacial — (no existía) MariNeXt Contaminación marina

6.2 Prioridad de Implementación

gantt
    title Despliegue de Modelos de IA
    dateFormat YYYY-MM-DD
    axisFormat %B %Y

    section Fase 1
    Migración a Qwen2.5-VL 7B        :m1, 2026-04-01, 2w
    Despliegue YOLOv11 base           :m2, after m1, 2w
    Fine-tune con FathomNet           :m3, after m2, 3w
    Tests BASE y VID                  :m4, after m3, 2w
    Fine-tune U-Net con otolitos ICES :m5, after m4, 3w
    Tests PES                         :m6, after m5, 2w

    section Fase 2
    ResNet-ViT para patologías        :a1, after m6, 3w
    Tests ACU                         :a2, after a1, 2w
    OceanGPT + MariNeXt               :a3, after a1, 3w
    Tests MAR                         :a4, after a3, 2w

    section Fase 3
    Integración Happywhale-MYDAS      :c1, after a4, 3w
    Tests CET                         :c2, after c1, 2w
    InternVL2.5 78B como premium      :c3, after c2, 2w

Documentos Relacionados

Nivel Documento Descripción
Investigación Análisis Tecnológico Integral Fundamentos: datos, ENS, M365, CAG+RAG, Dapr
Investigación Bancos de Datos Animales Fuentes internacionales, APIs, datasets de imágenes, almacenamiento
Arquitectura MLOps y Workflows Agénticos MLOps, Dapr Workflow, LangChain4j, ciclo de vida de modelos
Arquitectura Arquitectura IA Pipeline CAG+RAG, modelos, métricas
Arquitectura Arquitectura del Sistema Stack completo, backend, frontend
Negocio Fases de Integración Integración departamental progresiva
Negocio Catálogo de Servicios Servicios ofrecidos a cada departamento