<img height="1" width="1" style="display:none;" alt="" src="https://dc.ads.linkedin.com/collect/?pid=81693&amp;fmt=gif">
Español

Qué es llms.txt, cómo crear el tuyo y por qué importa

Tres de cada cuatro webs en España son invisibles para los agentes de IA. Y la mayoría no lo sabe.

Según datos de InboundCycle, obtenidos de 28 auditorías GEO realizadas entre enero y mayo de 2026, solo el 27% de las webs auditadas tiene un archivo llms.txt. El resto simplemente no existe para los modelos de lenguaje que buscan contexto sobre un negocio.

llms.txt es un archivo markdown que se coloca en la raíz de una web (/llms.txt) para ofrecer a los modelos de lenguaje un índice curado del contenido del sitio, facilitando que lo lean e interpreten de forma eficiente durante la inferencia. Lo creó Jeremy Howard (Answer.AI) en septiembre de 2024, y la especificación se mantiene en llmstxt.org.

Si estás empezando a preparar tu web para agentes de IA, este archivo es una de las primeras piezas del puzzle.

Para qué sirve llms.txt (y para qué no)

llms.txt sirve para que un agente de IA consulte un índice curado de tu contenido más relevante cuando un usuario le hace una pregunta, en lugar de rastrear cientos de páginas HTML. Es una herramienta de descubrimiento para inferencia, no de control ni de entrenamiento.

Inferencia, entrenamiento e indexación son tres procesos distintos. Como explicó Howard: «Our expectation is that llms.txt will mainly be useful for inference.»

Robots.txt controla el acceso de los crawlers. Sitemap.xml cataloga URLs. llms.txt le dice a un agente de IA qué merece la pena leer.

El mecanismo subyacente es RAG (Retrieval-Augmented Generation, la arquitectura que usan las IAs para buscar información externa al responder preguntas). En vez de parsear HTML con anuncios y menús, el agente encuentra un índice limpio que le ahorra trabajo.

Los datos de Pronovix (2026) lo cuantifican: la misma página en HTML consume 16.933 tokens; en markdown, 2.583 — un 85% menos.

Un dato que merece pararse a pensar: según Mintlify y Profound (2025), llms-full.txt (la versión que concatena todo el contenido) se consulta 5,6 veces más que el propio llms.txt. Los agentes quieren el texto entero, no solo el índice.

A nivel de adopción, BuiltWith registra unos 193.000 sitios con llms.txt en mayo de 2026, un crecimiento de 700× en 12 meses. Pero como matiza Pronovix: «las implementaciones curadas reales están más cerca de 1.000».

Donde el valor es directo y medible hoy es en developer tooling: agentes de IDE como Cursor, Claude Code y Copilot cargan activamente llms.txt para contextualizar las librerías que manejan.

Y aquí viene lo que cambia la perspectiva: llms.txt no es señal de ranking SEO. Mueller, Illyes, SE Ranking, Ahrefs y Semrush convergen en lo mismo. Es una herramienta GEO (visibilidad ante IAs), no SEO.

Seguro que te suena: otro archivo más que «tienes que tener». Antes de implementarlo a ciegas o de descartarlo sin más, veamos exactamente cómo se construye.

Formato oficial y cómo se compara con robots.txt

El formato oficial de llms.txt es un archivo markdown con estructura fija: un título H1, un resumen en blockquote, párrafos opcionales de contexto y secciones H2 con listas de enlaces anotados.

Piénsalo como una biblioteca. Robots.txt marca los estantes restringidos, sitemap.xml es el catálogo completo. Y llms.txt es la lista curada que el bibliotecario prepara para un investigador que tiene 15 minutos.

La especificación canónica (llmstxt.org)

La estructura: H1 con el nombre del sitio (lo único obligatorio), blockquote con resumen breve (la parte más importante — la mayoría de LLMs solo leen esta parte completa), y secciones H2 con enlaces en formato [nombre](url): descripción. La sección «Optional» está reservada para contenido prescindible. Tamaño recomendado: menos de 5 KB ideal (Presenc.ai, 2026); menos de 50 KB como máximo (Mintlify).

Una aclaración que importa: algunos blogs españoles — incluido Acumbamail, actualmente en la segunda posición del SERP para esta búsqueda — describen directivas como $trainingAllowed o $chatAllowed dentro de llms.txt. Esas directivas no existen en la especificación oficial.

La confusión viene de mezclar tres propuestas distintas: robots.txt (acceso de crawlers), ai.txt de Spawning (permisos de entrenamiento) y Content-Signal de Cloudflare (directivas dentro de robots.txt). llms.txt no tiene ningún mecanismo de permisos.

Tabla comparativa: robots.txt vs sitemap.xml vs llms.txt vs ai.txt

ArchivoDesdeFormatoFunciónAudienciaEnforcement
robots.txt1994Texto planoControl de acceso de crawlersBots de búsqueda e IARespetado por convención
sitemap.xml2005XMLCatálogo de URLs indexablesMotores de búsquedaReconocido universalmente
llms.txt2024MarkdownÍndice curado para inferenciaLLMs y agentes de IASin confirmación
ai.txt2023Texto planoPermisos de entrenamientoTraining pipelinesVoluntario

Mueller (Google) fue directo: «LLMs.txt has been compared to as a Robots.txt for large language models but that's 100% incorrect.»

Si quieres que los bots de IA accedan a tu contenido, verifica que tu robots.txt no los bloquea. Los user-agents clave son GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot y Google-Extended. Un Allow: / para cada uno es suficiente.

Familia de archivos: llms-full.txt y compañía

Alrededor de llms.txt existe una familia: llms-full.txt (contenido completo concatenado, surgido de la colaboración Mintlify-Anthropic en noviembre de 2024), llms-ctx.txt (formato XML optimizado para Claude), .md mirrors (versiones markdown de cada página) y AGENTS.md (convención emergente que describe qué puede hacer un agente de IA, no qué puede leer).

El más relevante es llms-full.txt: se consulta 5,6 veces más que llms.txt (Mintlify, 2025).

Cómo crear tu llms.txt paso a paso

Crear un llms.txt es un proceso de cuatro fases que puedes completar en menos de una hora: auditar tu contenido, redactar el archivo, validar la sintaxis y desplegarlo en la raíz de tu dominio. El resultado es un índice limpio que cualquier agente de IA puede interpretar sin ambigüedad.

Paso 0 — Comprueba si ya lo tienes

Antes de crear nada, verifica si tu web ya tiene uno. Visita tudominio.com/llms.txt en el navegador o ejecuta curl -I https://tudominio.com/llms.txt en la terminal.

Un código 200 con contenido en texto plano significa que ya lo tienes. Un 301 que redirige correctamente cuenta, aunque algunos parsers estrictos pueden fallar. Un 404 significa que no existe.

Fase 1 — Auditoría y decisión (semana 1)

Identifica tu contenido prioritario: las páginas que un colega senior recomendaría a alguien que pregunta «¿qué debería leer para entender este negocio?». Para la mayoría de webs B2B: home, servicios principales, cornerstone articles, FAQ y guías de referencia. Descarta archivos de tags, carritos, URLs paginadas y páginas legales.

Define 3-7 secciones H2 temáticas para organizar los enlaces. No todas las webs necesitan llms.txt con la misma urgencia: documentación técnica y SaaS con docs son los que más se benefician.

B2B con contenido de referencia obtiene valor moderado. Webs brochure con menos de 50 páginas pueden prescindir.

Fase 2 — Redacción del archivo

Escribe el H1 con el nombre de tu empresa, un blockquote de 1-3 frases que explique qué hace tu web y qué preguntas responde el contenido listado. Después, añade secciones H2 con listas de enlaces anotados: [Nombre](url): descripción breve. Las descripciones importan: un enlace sin contexto obliga al agente a descargarlo antes de decidir si le interesa.

Si esto te parece demasiado técnico, la buena noticia es que la mayoría de plataformas ya lo automatizan.

Dos reglas imprescindibles. Si tu web tiene contenido detrás de login, solo lista páginas públicas. Y en línea con el RGPD, nunca incluyas URLs que contengan datos personales.

Para sitios multiidioma, el patrón es /llms.txt como índice principal y /es/llms.txt, /pt-br/llms.txt para cada mercado, usando hreflang como fuente de verdad para el mapeo de URLs.

Fase 3 — Validación

Pasa tu archivo por un validador como llmstxtvalidator.dev o LLMTEXT. Después, haz un sanity check con un LLM: copia el contenido en ChatGPT o Claude y pregunta «Según este archivo, ¿qué hace este sitio y qué debería leer primero?». Si la respuesta es correcta, la estructura funciona.

Los 6 errores críticos que debes evitar: MIME type incorrecto (el servidor devuelve HTML en vez de texto plano), enlaces rotos, directivas falsas que no existen en la spec, ruta incorrecta, autenticación que bloquea el acceso sin que tú lo sepas, y URLs sensibles listadas por error.

En nuestras auditorías hemos encontrado casos reales de estos errores. En una web, el servidor devuelve un HTTP 200 pero el contenido es una página de error HTML — un falso positivo que engaña a los crawlers. En otro caso, un firewall bloquea el acceso al archivo sin que el propietario lo sepa.

Fase 4 — Despliegue y mantenimiento

Publica el archivo en la raíz de tu dominio y verifica con curl que se sirve como texto plano. Las principales plataformas ya lo soportan: en WordPress, Yoast (v25.3+, junio 2025), Rank Math y AIOSEO lo generan automáticamente.

Webflow lo permite nativamente desde julio de 2025. Hostinger tiene un toggle de activación.

En InboundCycle, implementamos llms.txt en todas las webs de nuestros clientes. Lo hacemos en HubSpot CMS — una plataforma que aún no tiene soporte nativo — mediante una solución con el File Manager y un redirect 301.

Para evitar que el archivo quede obsoleto, las opciones van desde route handlers dinámicos (Next.js, Nuxt) hasta automatizaciones de plataforma como la actualización semanal de Yoast. Un llms.txt con enlaces rotos es peor que no tener ninguno.

Monitoriza con Cloudflare Bot Analytics (gratuito) filtrando por user-agents de IA: GPTBot, ClaudeBot, PerplexityBot. Si ves menos de 10 hits al mes, nadie lo está leyendo — a partir de 30, merece la pena invertir más.

Como segunda vía de medición, herramientas como Ahrefs Brand Radar o Profound permiten rastrear si las IAs mencionan tu marca en sus respuestas.

Si prefieres que lo hagamos por ti, nuestro servicio de web agéntica cubre la implementación completa.

¿Funciona realmente? Lo que dicen los datos

La respuesta corta es que no hay evidencia de que llms.txt mejore tu visibilidad ante IAs generativas hoy. Cuatro estudios independientes convergen en el mismo hallazgo: sin correlación entre tener el archivo y ser citado. Pero la asimetría de costes y la opcionalidad futura cambian el cálculo.

Llegados a este punto, la pregunta honesta es: ¿merece la pena invertir incluso una hora?

SE Ranking analizó 300.000 dominios en noviembre de 2025 y no encontró relación. OtterlyAI monitorizó 62.100 peticiones de bots de IA durante 90 días: solo 84 fueron a /llms.txt (un 0,1%).

ALLMO.ai examinó 94.000 URLs sin detectar diferencias. Y Search Engine Land siguió 10 sitios durante 180 días: 8 de 10 no experimentaron ningún cambio.

La posición de Google es inequívoca. Mueller lo comparó con la meta tag keywords en Reddit (junio de 2025, vía Search Engine Journal): «It's comparable to the keywords meta tag — this is what a site-owner claims their site is about.»

Illyes confirmó en Bangkok (julio de 2025): «Google doesn't support LLMs.txt and isn't planning to.» En diciembre de 2025, Google publicó brevemente un llms.txt en sus propios Developer Docs y lo retiró en horas.

Ninguno de los grandes proveedores confirma que consume llms.txt de terceros en inferencia.

Proveedor¿Publica el suyo?¿Consume el de terceros?
OpenAISí (Agents SDK)No confirmado
AnthropicSí (docs.claude.com)No confirmado
GoogleRechaza explícitamenteNo — Illyes lo descartó
MetaParcialmenteSin guidance público
PerplexitySí (docs)No confirmado (evidencia anecdótica)

Anthropic publica el suyo, pero publicar un archivo no significa leer el de otros.

Existe además un bucle de desinformación: las herramientas SEO señalan la ausencia de llms.txt como un «issue», los usuarios lo implementan por FOMO, y la percepción de necesidad se refuerza sola.

Pero cuidado, porque hay un matiz importante aquí. En nuestra muestra, las webs con llms.txt bien implementado tienen un AEO Score medio de 66/100, frente a 51/100 en las que no lo tienen. No podemos afirmar causalidad — las webs que implementan llms.txt probablemente también cuidan otros aspectos de su presencia en IA — pero el patrón es consistente.

Vercel atribuye el 10% de sus registros a ChatGPT (junio de 2025), aunque su estrategia combina múltiples factores y es un caso developer-tool documentation-heavy, el escenario más favorable para llms.txt.

Nuestra posición es «low-risk / low-reward»: implementar con expectativas calibradas. El valor real hoy está en developer tooling; el valor especulativo, en la opcionalidad.

Crear el archivo no equivale a que funcione — publicar llms.txt no obliga a nadie a respetarlo, y no es legalmente vinculante en ningún marco regulatorio.

Todos estos datos están acotados a mayo de 2026. No existe ningún estudio específico del mercado español — los datos de nuestras auditorías son lo más cercano.

llms.txt vs MCP — la diferencia que nadie explica

llms.txt y Model Context Protocol resuelven problemas distintos en capas diferentes del ecosistema agéntico. Ningún competidor en el SERP español, brasileño ni anglosajón explica esta diferencia, y es fundamental para entender dónde encaja cada pieza.

Y ahora viene la parte que realmente importa: llms.txt es descubrimiento estático (le dice al agente «qué leer y dónde encontrarlo»), mientras que MCP es interacción dinámica (le dice «qué hacer y cómo ejecutarlo»).

Dimensiónllms.txtMCP
Qué esArchivo markdown estáticoProtocolo de interacción en tiempo real
Cómo se consumeGET pasivo vía HTTPLlamadas JSON-RPC bidireccionales
Qué proporcionaÍndice de contenido y metadatosDatos en vivo, funciones ejecutables
ProtocoloNinguno (solo HTTP GET a una ruta conocida)JSON-RPC sobre stdio o SSE
Pregunta que responde¿Qué hay en este sitio?¿Qué puedo hacer con este sistema?
EstadoSin estadoCon estado (sesión activa)
AnalogíaÍndice de una bibliotecaBibliotecario que busca libros y responde preguntas
Cuándo usarSiempre que quieras que un agente sepa qué hay en tu webCuando necesites que el agente ejecute acciones en tu sistema

No compiten: se complementan. Implementa llms.txt primero (bajo esfuerzo, amplia aplicabilidad) y considera MCP cuando tengas un caso de uso que requiera que el agente ejecute acciones.

Preguntas frecuentes

¿Qué es llms.txt?

Un archivo markdown que se coloca en la raíz de una web (/llms.txt) para ofrecer a los modelos de lenguaje un índice curado del contenido del sitio. Facilita que los LLMs lean e interpreten el contenido durante la inferencia, no el entrenamiento. Lo creó Jeremy Howard (Answer.AI) en septiembre de 2024.

¿Qué es llms-full.txt?

llms-full.txt es el archivo companion oficial de llms.txt. Mientras llms.txt es un índice con enlaces anotados, llms-full.txt concatena el contenido completo de todas las páginas listadas en formato markdown. Según datos de Mintlify, se consulta 5,6 veces más que llms.txt.

¿Cuál es la diferencia entre llms.txt y AGENTS.md?

llms.txt es un índice de contenido para que los modelos de lenguaje descubran y lean páginas de una web. AGENTS.md es una convención emergente que describe las capacidades de agentes de IA: qué pueden hacer y qué herramientas exponen. Son complementarios: llms.txt informa, AGENTS.md habilita acciones.

¿Qué es un archivo robots.txt y en qué se diferencia?

robots.txt indica a los crawlers qué rutas pueden rastrear y cuáles no — controla el acceso. llms.txt no bloquea nada: ofrece a los LLMs un índice curado del contenido más relevante. Son complementarios: robots.txt gestiona permisos, llms.txt facilita la comprensión.

¿Mejora el SEO tener llms.txt?

No. Ningún motor de búsqueda usa llms.txt como señal de ranking — Mueller (Google) lo comparó con la meta tag keywords. Su valor está en la visibilidad ante IAs (GEO), no ante buscadores (SEO). Implementarlo no tiene riesgo, pero tampoco mejora posiciones en Google.

Conclusión — qué hacer esta semana

  • Comprueba si ya tienes llms.txt (curl + navegador)
  • Si no lo tienes: crea uno manual con tu contenido prioritario (menos de 1 hora)
  • Valida con llmstxtvalidator.dev
  • Activa bot analytics para medir si alguien lo lee
  • Revisa en 3 meses con expectativas calibradas

Implementamos llms.txt en todas las webs de nuestros clientes — incluido HubSpot CMS, que no lo soporta nativamente. Si quieres hacer tu web legible para agentes de IA, empieza por aquí.

El estándar aún no ha ganado. Pero el coste de estar preparado es tan bajo que no tiene sentido esperar a que lo haga.

¿Y tú qué opinas? ¡Déjanos aquí tus comentarios!

Suscríbete al Blog
Suscríbete por email y recibe además un pack de bienvenida con nuestros 5 mejores artículos