Los chatbots se han convertido en uno de los ejes del auge de la inteligencia artificial (IA). Desde ChatGPT y Copilot hasta Claude Chat y Perplexity, estas herramientas son tendencia. Sin embargo, por mucho que nos entusiasmemos, no debemos confiar plenamente en sus respuestas.
Y, sino que se lo digan al abogado que recurrió a ChatGPT para salir victorioso en un juicio y descubrió que los documentos presentados ante el juez contenían decisiones judiciales, referencias y citas falsas. Como podemos ver, los chatbots tienen muchas virtudes, pero la fiabilidad no es una de ellas.
Una posible solución al problema de fiabilidad
Un estudio publicado por una compañía emergente fundada por exempleados de Google sugiere que los chatbots tienen una tasa de alucinaciones de al menos el 3%. Para muchos usuarios esto puede ser un problema menor, pero las cosas cambian cuando hablamos de usos profesionales.
Las herramientas impulsadas por grandes modelos de lenguaje (LLM) están llegando al mundo empresarial a través de soluciones como Copilot en Office 365. Ahora bien, si los empleados acaban manejando información errónea, esto podría acabar provocando más de un dolor de cabeza a la firma.
Cleanlab, una startup fundada por exinvestigadores del MIT acaba de lanzar su propia iniciativa para abordar este problema. Estamos hablando de una herramienta impulsada por lo que denominan Trustworthy Language Model (TLM), un enfoque que apunta a la fiabilidad de las respuestas.
TLM funciona como una “capa de confianza” para que los usuarios puedan saber qué tan fiable es la respuesta que acaban de recibir a través de un sistema de puntuación. Esta herramienta ha sido diseñada para que pueda funcionar de manera complementaria a modelos como GPT-3.5, GPT-4 y modelos personalizados de empresas.

El sistema envía nuestra pregunta a varios modelos y después analiza su devolución. La respuesta llegará acompañada con un puntaje que se situará entre 0 y 1. En una prueba sencilla en la que hemos preguntado la raíz cuadrada de nueve hemos recibido una respuesta correcta (3) con un puntaje de 0,885.

Cleanlab señala que ChatGPT en su versión gratuita puede equivocarse en cosas muy simples. Al preguntar cuántas veces aparece la letra “N” en la palabra “enter”, el chatbot de OpenAI suele responder que la letra aparece dos veces. Lo hemos probado y efectivamente el chatbot responde erróneamente.
La startup imagina a su tecnología siendo útil en un amplio abanico de usos. Mencionan que podría ayudar a los chatbots de atención al cliente a ser más fiables. El chatbot funcionaría de manera automatizada, pero si una de las respuestas cae por debajo del umbral de fiabilidad, se podría solicitar la intervención de un humano.
Si eres un entusiasta de la inteligencia artificial puedes probar TLM a través de la web. La herramienta también está disponible a través de una API. Cabe señalar que la solución se encuentra disponible a través versiones gratuitas de código abierto y versiones de pago con características adicionales.
Imágenes | Cleanlab | Captura de pantalla
En Xataka | El ganador más inesperado de la primera gran batalla por la IA es también al que dábamos por muerto: Meta
Ver 13 comentarios
13 comentarios
Usuario desactivado
Que idea más inútil!
Se basa en suponer que dando un puntaje a varias alucinaciones se obtiene algun resultado cercano a la realidad.
stranno
A ver si publicáis las actualizaciones de Telegram, como hacéis con los cuatro-cinco cambios que hace Whatsapp al año.
https://telegram.org/blog/my-profile-and-15-more/
Yo creo que Telegram incurre en delito de abusos contra Whatsapp. Habría que ver si esto no es denunciable.
aar21
Solo hay que hacer una pregunta complicada de algo que conoces bien y no es muy conocido para ver las respuestas inventadas.
ayrton_senna
ChatGPT tiende a mentir mucho.
Gemini también pero al mismo tiempo sorprende dando respuestas útiles a temas relacionados con la pregunta en los que no habíamos pensado y que suelen ser relevantes.
Mistral suele fallar menos que ChatGPT y Gemini y es sorprendentemente rápido.
Lo mejor es tener varias pestañas abiertas y comparar la respuesta de distintos bots.
Seth_
Habría que leer bien el tema y en que se basa, a grosso modo no lo entiendo del todo; es decir, algo es cierto o no lo es. Si le asigno un porcentaje de confianza y supongamos que es el del 0.99% cabe un posibilidad mínima de que la respuesta no es confiable, pero si cabe esa posibilidad igual debo validar lo que me está respondiendo. A lo que voy es, ¿cuál es el porcentaje de confianza en el que debería empezar a confiar en la respuesta?
davidkeko
No inventan nada. Simplemente dan la respuesta más probable a la pregunta que has formulado. Cuando hubo las crisis de invenciones debido a un error numérico se descubrió el pastel de cómo funciona esta falsa inteligencia.
buceopistilos
Se supone que chat GPT 5 va a abordar el tema de las alucinaciones , parece que este proyecto será otro proyecto de IA que acabará desapareciendo con las evolucione que va añadiendo Open AI a su GPT.
ZellDich
Lógico es un chat, busca la pregunta en su base de datos y la que más veces está le es la buena, no te entiende cuantas veces está n, en la frase
matrushko
Entiendi que cuanto más se acerque a 1 más fiable es pero a mi me sale:
You
Cuántas veces aparece la letra N en la palabra "enter"
user avatar
TLM
La letra "N" aparece una vez en la palabra "enter".
>>> Trustworthiness Score: 0.358
No deberia ser 1? ...o lo he entendido mal