Un estudio publicado en JMIR Mental Health, vía PsyPost, describe la situación de fiabilidad de los modelos de inteligencia artificial respecto a un tema de investigación científica. Lo consideran como una situación de riesgo significativo debido a que estos modelos pueden generar citas bibliográficas falsas o inexactas. Sabemos que la IA es cada vez más utilizada para generar grandes cantidades de trabajo y el texto es uno de los fenómenos donde se ha notado que puede errar.La IA no es tan buena como parece, evidencian los fallos que puede tener en trabajo con referencias bibliográficasDetectaron que es muy común de suceder cuando la IA no tiene la más remota idea sobre temas que les resultan especializados. Un ejemplo de esto es cuando se generan afirmaciones que resultan ser falsas o inventadas. En el caso de cuestiones académicas, se ha detectado que las citas científicas suelen ser alteradas y/o falsificadas.Para ponerlo aún más en evidencia, investigadores de la Facultad de Psicología de la Universidad de Deakin de Australia realizaron un experimento en materia de salud mental. Querían comprobar el rendimiento efectivo de la IA con un enfoque de visibilidad pública y la profundidad sobre dicho tema a nivel de literatura científica.Se utilizó GPT-4o de OpenAI, uno de los modelos más utilizados y conocidos en la actualidad para trabajar. Se generaron seis revisiones bibliográficas diferentes sobre transtornos de salud mental y se eligieron con base en niveles de reconocimiento público y la cobertura que haya tenido respecto a investigación. Se solicitaron dos tipos de revisiones a los tres trastornos: una descripción general con síntomas, impacto social y posibles tratamientos; una revisión especializada con evidencias. Dichas revisiones deberían tener una extensión de al menos 2.000 palabras y 20 citas de fuentes comprobables.La IA utilizada en un sinfín de tareasFueron 176 citas que la IA generó y se utilizaron plataformas académicas para revisarlas. Se clasificaron por: falsificadas, reales con errores o totalmente precisas. ¿Cuáles fueron los resultados? En seis revisiones, 35 de 176 citas fueron falsas. 141 citas de publicaciones reales, la mitad tenía al menos un error. Dos tercios de las referencias eran inventadas o tenían errores bibliográficos. Se comprobó que entre más profundidad en el transtorno respecto a conocimiento eran más citas falsas.Esto sucede solo con GPT-4o, ¿y las demás cómo se comportarían?Los autores del estudio reconocen que esto sucedió solo en un modelo que fue puesto a prueba, por lo que indican que "podrían no ser representativos de otros". Lo que quedó en evidencia es que este experimento se limitó a temas específicos con indicaciones sencillas, sin tener que emplear técnicas avanzadas de trabajo. En este caso, los investigadores repitieron indicaciones y probablemente pudo variar si empleaban otras diferentes.En conclusión, recomendaron ampliamente a otros colegas que puedan "actuar cautelosamente" y que puedan hacer una verificación real de lo que la IA genere en sus trabajos futuros. La IA debería de tener un estándar para este tipo de trabajos, aunque muy probablemente a muchos otros usuarios no les interese en lo más mínimo por lamentable que sea.El artículo El fraude de las citas: la IA inventa referencias científicas y la mentira aumenta si le preguntas por temas menos conocidos fue publicado originalmente en Andro4all.