Is one run enough? Reproducibility of flagship large language models across temperature and reasoning settings in biomedical text processing

20260 citationsJournal Articlehybrid Open Access

Authors

Paul Windisch · University Hospital of Bern

Carole Koechli · University Hospital of Bern

Fabio Dennstädt · University Hospital of Bern

Daniel M. Aebersold · University Hospital of Bern

Daniel R Zwahlen · Kantonsspital Winterthur

Robert Förster · University Hospital of Bern

Christina Schröder

Abstract

For binary biomedical classification with tightly constrained outputs, both models were reproducible across decoding and reasoning settings, suggesting single runs are often sufficient, with minimal replication as a practical stability check.

Topics & Keywords

Artificial Intelligence in Healthcare and Education Biomedical Text Mining and Ontologies Genomics and Rare Diseases

UN Sustainable Development Goals

Quality Education

Publication Details

Published in: Journal of the American Medical Informatics Association

DOI: 10.1093/jamia/ocag039

Field-Weighted Citation Impact: 0.00