Científicos de la Escuela de Medicina de Harvard y la Universidad de Stanford han creado una herramienta de diagnóstico que utiliza inteligencia artificial que puede detectar enfermedades en radiografías de tórax según las descripciones en lenguaje natural proporcionadas en los informes clínicos adjuntos.
Debido a que la mayoría de los modelos de IA existentes necesitan una ardua anotación humana de enormes cantidades de datos antes de que los datos etiquetados se ingresen en el modelo para entrenarlo, el paso se considera un gran avance en el diseño de IA clínica.
El modelo, llamado CheXzero, se desempeñó a la par de los radiólogos humanos en su capacidad para identificar patologías en las radiografías de tórax, según un artículo que describe su trabajo y que se publicó en Nature Biomedical Engineering. El grupo también ha hecho que el código del modelo sea de libre acceso para otros investigadores.
Para detectar correctamente patologías durante su “entrenamiento”, la mayoría de los algoritmos de IA necesitan conjuntos de datos etiquetados. Dado que este procedimiento requiere una anotación extensa, a menudo costosa y que requiere mucho tiempo por parte de médicos humanos, es particularmente difícil para tareas que involucran la interpretación de imágenes médicas.
Por ejemplo, para etiquetar un conjunto de datos de rayos X de tórax, los radiólogos expertos tendrían que mirar cientos de miles de imágenes de rayos X una por una y anotar explícitamente cada una con las condiciones detectadas. Si bien los modelos de IA más recientes han tratado de abordar este cuello de botella de etiquetado aprendiendo de datos no etiquetados en una etapa de «entrenamiento previo», eventualmente requieren un ajuste fino en los datos etiquetados para lograr un alto rendimiento.
Por el contrario, el nuevo modelo es autosupervisado, en el sentido de que aprende de forma más independiente, sin necesidad de datos etiquetados a mano antes o después del entrenamiento. El modelo se basa únicamente en radiografías de tórax y las notas en inglés que se encuentran en los informes de rayos X adjuntos.
“Vivimos en los primeros días de los modelos médicos de inteligencia artificial de próxima generación que pueden realizar tareas flexibles aprendiendo directamente del texto”, dijo el investigador principal del estudio, Pranav Rajpurkar, profesor asistente de informática biomédica en el Instituto Blavatnik en HMS. “Hasta ahora, la mayoría de los modelos de IA se han basado en la anotación manual de grandes cantidades de datos, por una suma de 100 000 imágenes, para lograr un alto rendimiento. Nuestro método no necesita tales anotaciones específicas de la enfermedad.
“Con CheXzero, uno puede simplemente alimentar al modelo con una radiografía de tórax y el informe de radiología correspondiente, y aprenderá que la imagen y el texto en el informe deben considerarse similares; en otras palabras, aprenderá a coincidir con la radiografía de tórax. rayas con su informe adjunto”, agregó Rajpurkar. “El modelo puede eventualmente aprender cómo los conceptos en el texto no estructurado se corresponden con los patrones visuales en la imagen”.
El modelo fue “entrenado” en un conjunto de datos disponible públicamente que contiene más de 377 000 radiografías de tórax y más de 227 000 notas clínicas correspondientes. Luego, se probó su desempeño en dos conjuntos de datos separados de radiografías de tórax y las notas correspondientes recopiladas de dos instituciones diferentes, una de las cuales estaba en un país diferente. Esta diversidad de conjuntos de datos tenía como objetivo garantizar que el modelo funcionara igual de bien cuando se expusiera a notas clínicas que pueden usar una terminología diferente para describir el mismo hallazgo.
Tras la prueba, CheXzero identificó con éxito patologías que no fueron anotadas explícitamente por médicos humanos. Superó a otras herramientas de IA autosupervisadas y funcionó con una precisión similar a la de los radiólogos humanos.
El enfoque, dijeron los investigadores, eventualmente podría aplicarse a modalidades de imágenes mucho más allá de los rayos X, incluidas las tomografías computarizadas, las resonancias magnéticas y los ecocardiogramas.
«CheXzero muestra que la precisión de la interpretación de imágenes médicas complejas ya no necesita permanecer a merced de grandes conjuntos de datos etiquetados», dijo el coautor del estudio Ekin Tiu, estudiante de pregrado en Stanford e investigador visitante en HMS. “Utilizamos las radiografías de tórax como ejemplo de conducción, pero en realidad, la capacidad de CheXzero se puede generalizar a una amplia gama de entornos médicos donde los datos no estructurados son la norma, y encarna precisamente la promesa de eludir el cuello de botella de etiquetado a gran escala que ha plagado el campo del aprendizaje automático médico”.