PuSH - Publication Server of Helmholtz Zentrum München: Benchmarking vision-language models for diagnostics in emergency and critical care settings.

Navigation

Home

Deutsch

Research

Advanced Search

Browse by ...

... Journal

... Publication Type

... Research Data

... Publication Year

Publication overview

Support & Contact

Contact persons

Help

Data protection

Kurz, C.* ; Merzhevich, T.* ; Eskofier, B.M. ; Kather, J.N.* ; Gmeiner, B.*

Benchmarking vision-language models for diagnostics in emergency and critical care settings.

NPJ Digit. Med. 8:423 (2025)

Publ. Version/Full Text

DOI

PMC

	Open Access Gold

Abstract
Metrics
Extra information

The applicability of vision-language models (VLMs) for acute care in emergency and intensive care units remains underexplored. Using a multimodal dataset of diagnostic questions involving medical images and clinical context, we benchmarked several small open-source VLMs against GPT-4o. While open models demonstrated limited diagnostic accuracy (up to 40.4%), GPT-4o significantly outperformed them (68.1%). Findings highlight the need for specialized training and optimization to improve open-source VLMs for acute care applications.

Altmetric

Additional Metrics?

[➜Log in]

Edit extra informations Login

Publication type Article: Journal article

Document type Scientific Article

ISSN (print) / ISBN 2398-6352

e-ISSN 2398-6352

Journal NPJ digital medicine

Quellenangaben Volume: 8, Issue: 1, Article Number: 423

Publisher Nature Publishing Group

Publishing Place Heidelberger Platz 3, Berlin, 14197, Germany

Reviewing status Peer reviewed

Institute(s) Institute of AI for Health (AIH)

Grants Novartis Pharma