No existe tal cosa como el “Prompt Injection” como un mecanismo de ataque, ni una vulnerabilidad. No existe porque todos los prompts son “inyectados” en el contexto “plano” de un LLM, un espacio de tokens donde por diseño cada token tiene los mismos “privilegios” que cualquier otro token, y los tokens no diferencian entre instrucciones y datos.

Tus instrucciones para el LLM son datos, los datos que tus usuarios ingresan y que tu pasas al LLM son instrucciones.

Este post es una versión condensada del de Garret Galoway que me encantó cuando lo leí.