AI-graderingsmodule

AI-graderingsmodule

AI die netvliesfoto’s analyseert in minder dan twee seconden — en oogartsen helpt diabetische oogziekte te detecteren voordat deze permanente schade veroorzaakt.

De Deneye AI-graderingsmodule analyseert fundusfoto’s en kent een van de vijf internationaal gestandaardiseerde DR-ernstgraden toe. Dit geeft de beoordelende oogarts een direct, op bewijs gebaseerd startpunt — waardoor de werkdruk daalt terwijl de volledige klinische verantwoordelijkheid behouden blijft.

De AI wordt nooit autonoom ingezet. Elke gradering wordt beoordeeld en bevestigd door een gecertificeerde oogarts voordat er een klinische beslissing wordt genomen.

Nul ernstige gevallen gemist. In alle 37.368 validatieafbeeldingen uit vier landen werd niet één ernstig of proliferatief DR-geval geclassificeerd als “Geen DR”. De AI is ontworpen om conservatief te falen.

Hoe het werkt

Drie stappen van foto naar graderingsresultaat

1

Foto vastgelegd

Een screener fotografeert het netvlies van de patiënt met een standaard funduslens. De afbeelding wordt geüpload naar het Deneye-platform — ook vanuit een afgelegen locatie zonder permanente internetverbinding.

2

AI gradeert in <2 seconden

Het AI-model verwerkt de afbeelding en voorspelt een DR-ernst op de 5-punts internationale klinische DR-schaal. Het resultaat verschijnt direct op de werklijst van de oogarts.

3

Oogarts bevestigt

Een gecertificeerde oogarts beoordeelt de afbeelding en het AI-voorstel. De oogarts bevestigt, past aan of overschrijft de gradering. Pas na menselijke beoordeling bereikt het resultaat de patiënt.

De vijf DR-ernstniveaus

Gebaseerd op de internationale klinische schaal voor diabetische retinopathie

Graad Naam Wat het betekent Aanbevolen vervolgstap
0 Geen DR Geen zichtbare tekenen van diabetische schade aan het netvlies Jaarlijkse routinescreening
1 Milde NPDR Vroege veranderingen: micro-aneurysma’s (kleine uitstulpingen in netvliesvaten) Beoordeling door oogarts
2 Matige NPDR Uitgebreidere veranderingen: bloedingen, harde exsudaten, watten-spots Beoordeling door oogarts
3 Ernstige NPDR Significante netvliesschade; hoog risico op achteruitgang zonder behandeling Spoedige verwijzing naar oogarts
4 Proliferatieve DR Abnormale nieuwe bloedvaten op het netvlies; hoog risico op ernstig gezichtsverlies Urgente verwijzing naar oogarts

NPDR = Niet-proliferatieve diabetische retinopathie. Het platform kent ook de markering Niet Gradeerbaar toe aan afbeeldingen van onvoldoende kwaliteit, die worden teruggestuurd naar de screener voor een nieuwe opname.

Onafhankelijke validatie op 37.368 afbeeldingen

Getest op vier onafhankelijke datasets uit vier landen — geen ervan gebruikt tijdens de training

De standaardmaat voor prestaties in DR-gradering is de Kwadratisch gewogen kappa (QWK) — een statistiek die de grades van de AI vergelijkt met die van expertoogartsen, met zwaardere straffen voor grotere afwijkingen. De schaal loopt van 0 (niet beter dan toeval) tot 1,0 (perfecte overeenkomst). Een kappa boven de 0,80 wordt in de DR-literatuur doorgaans als “uitstekend” beschouwd.

DatasetAfbeeldingenLandQW KappaAangrenzende nauwkeurigheid
APTOS 2019 (hold-out)733India0,89698,9%
IDRiD Training413India0,88598,3%
IDRiD Testing103India0,80697,1%
Messidor-21.744Frankrijk0,77198,9%
EyePACS35.108VS0,57491,2%
Totaal (extern)37.3684 landen0,60791,6%
Toelichting op EyePACS (kappa 0,574). Het model is getraind op Indiase netvliesfoto’s (APTOS 2019). EyePACS-afbeeldingen zijn afkomstig van Amerikaanse klinieken met andere camera’s, belichting en patiëntenpopulaties. Deze domeinverschuiving vermindert de precisie bij fijnmazige gradering, maar de aangrenzende nauwkeurigheid blijft 91,2% — fouten zijn één graad naast de werkelijkheid, niet catastrofaal. Geen enkel ernstig of proliferatief geval werd zelfs op deze dataset gemist. Domeinverschuiving is een gedocumenteerde uitdaging in de DR-AI-literatuur en motiveert ons kalibratietraject voor nieuwe implementatielocaties.

Voor specialisten

Modelarchitectuur & training

Ontwerpkeuzes, hyperparameters en deploymentspecificaties

Modelspecificaties

ArchitectuurEfficientNet-B0 (timm-bibliotheek, PyTorch)
Parameters4,6 miljoen
Invoer224×224 px — RGB, float32
UitvoerRegressiescore 0,0–4,0, afgerond naar geheel getal
RegressiehoofdDropout(0,3) → Linear(1280→512) → ReLU → Dropout(0,15) → Linear(512→1)
VerliesfunctieOrdinalMSELoss (MSE + ordinale grensboete)
Backbone-initialisatieImageNet voorgetrainde gewichten
DeploymentONNX-formaat, 17,8 MB, CPU-inferentie
Inferentietijd<2 seconden per afbeelding (Intel i7 CPU)

Trainingsconfiguratie

Primaire datasetAPTOS 2019 — 3.662 afbeeldingen (Aravind Eye Hospital, India)
Validatiesplitsing20% hold-out — 733 afbeeldingen
OptimizerAdam
Leersnelheid1e-3 (hoofd) → 1e-4 (fine-tune)
Batchgrootte32
Epochs20 (3 hoofd-only + 17 volledige fine-tune)
LR-plannerCosineAnnealingLR (T_max=20, eta_min=1e-6)
KlassenonevenwichtigheidGewogen willekeurige sampler (inverse frequentie)
Trainingstijd~175 minuten op Colab T4 GPU

Beeldverwerkingspijplijn

Server-side toegepast vóór elke inferentie. Identiek aan de training. Camera-onafhankelijk.

  1. Zwarte rand bijsnijden — verwijdert camerapadding vóór het aanpassen van de grootte, zodat zwarte pixels de modelinvoer niet beïnvloeden (drempel tol = 7)
  2. Formaat wijzigen naar 224×224 — standaard invoerresolutie voor EfficientNet-B0
  3. CLAHE op LAB L-kanaal (clipLimit 2,0, tileGridSize 8×8) — verbetert de zichtbaarheid van laesies door lokaal contrast te egaliseren in uitsluitend het helderheidskanaal, zonder kleurinformatie te wijzigen
  4. Circulair masker — onderdrukt hoekruis; fundusfoto’s zijn van nature cirkelvormig door de optiek van de funduscamera
  5. ImageNet-normalisatie — gemiddelde [0,485, 0,456, 0,406], std [0,229, 0,224, 0,225]

Waarom regressie in plaats van classificatie?

DR-graden zijn ordinaal — het verwarren van Graad 3 met Graad 4 is klinisch veel ernstiger dan het verwarren van Graad 1 met Graad 2. Een standaard classificatiemodel behandelt alle fouten gelijk. De regressiebenadering voorspelt een continue ernstsscore (0,0–4,0) die wordt afgerond naar de dichtstbijzijnde gehele graad. Dit maakt het model inherent gevoeliger voor ernstige ziekte en sluit naadloos aan op de kwadratisch gewogen kappa-evaluatiemaatstaf, die grote afwijkingen zwaarder bestraft.

Tweefasige trainingsstrategie

  • Fase 1 — Alleen hoofd (3 epochs, lr=1e-3): De EfficientNet-backbone is bevroren. Alleen het regressiehoofd wordt getraind. Dit zorgt voor snelle convergentie zonder catastrofaal vergeten van ImageNet-representaties.
  • Fase 2 — Volledige fine-tune (17 epochs, lr=1e-4): Het volledige netwerk wordt ontbevroren en getraind met een lagere leersnelheid. De backbone past zich aan het medische domein aan, terwijl het hoofd een stabiel startsignaal geeft.

Data-augmentatie

Albumentations-bibliotheek: HorizontalFlip (p=0,5), VerticalFlip (p=0,5), RandomRotate90 (p=0,5), ShiftScaleRotate (p=0,7), RandomBrightnessContrast (p=0,5), HueSaturationValue (p=0,3), GaussianBlur (p=0,2), CoarseDropout (p=0,3, max_holes=8). De APTOS-dataset heeft een sterke “Geen DR”-meerderheid (49,5%); een gewogen willekeurige sampler oversampled de minderheidsklassen om vertekening te compenseren.

Benchmark & resultaten

Vergelijking met standaard AI

Deneye EfficientNet-B0 vs. DINOv2 (HuggingFace) op 733 APTOS-validatieafbeeldingen

Maatstaf Deneye (EfficientNet-B0) DINOv2 (HuggingFace)
Kwadratisch gewogen kappa0,8960,654
Exacte nauwkeurigheid73,4%35,5%
Geen DR recall96%34%
DR-detectiegevoeligheid~98%~66%
Modelgrootte17,8 MB~350 MB
Runtime-afhankelijkheidONNX RuntimePyTorch + HuggingFace
LicentieMITGPL-3.0

DINOv2 rapporteerde 96,8% trainingsnauwkeurigheid, maar toonde bij inferentie sterke voorkeur voor “Geen DR” en miste het merendeel van de ziektegevallen — een klassiek teken van overfitting op de meerderheidsklasse.

Trainingscurves & verwarringsmatrix

APTOS 2019 trainingsset (2.929 afbeeldingen), 20% hold-out validatie (733 afbeeldingen). Beste QWK: 0,896.

Trainingsverlies en QW-kappa per epoch over 20 epochs
Trainings- en validatieverlies & QWK per epoch. Convergentie treedt op na de hoofd-only fase (eerste 3 epochs). Het model bereikt een stabiele QWK van 0,896 bij epoch 20.
5x5 verwarringsmatrix: AI-graad vs. expertgraad op APTOS hold-out set
Verwarringsmatrix op de 733 APTOS hold-out afbeeldingen. Fouten buiten de diagonaal zijn vrijwel altijd aangrenzende graden (één stap). Geen ernstige of proliferatieve gevallen (graden 3–4) verschijnen in de kolom Graad 0 “Geen DR”.
Een gedetailleerd AI-graderingsrapport is beschikbaar op aanvraag. Het rapport bevat volledige validatiemaatstaven voor alle datasets, verwarringsmatrices per dataset, vergelijkingen van graderingsverdelingen en volledige methodologiedocumentatie.

Interesse in de AI-graderingsmodule?

Neem contact met ons op voor meer informatie over integratieopties of voor een live demonstratie.