<img height="1" width="1" style="display:none;" alt="" src="https://dc.ads.linkedin.com/collect/?pid=81693&amp;fmt=gif">

SEO técnico: qué es y cómo auditarlo paso a paso

Tu artículo principal rankea en el top 5 de Google. El contenido es sólido, los datos están actualizados, las fuentes citadas. Pero abres ChatGPT, preguntas por tu tema principal y tu web no aparece por ningún lado. Perplexity tampoco te cita. Gemini, silencio.

El problema no es tu contenido. Es tu infraestructura.

Lo que descubren muchos equipos al hacer esta comprobación por primera vez es que un sitio puede posicionar bien en Google y ser completamente invisible para los crawlers de IA al mismo tiempo. La razón es técnica: Googlebot renderiza JavaScript con un navegador Chromium completo; GPTBot, ClaudeBot y PerplexityBot no ejecutan JavaScript en absoluto. Si tu web depende de client-side rendering, los bots de IA ven una página en blanco (Vercel/MERJ, diciembre 2024, análisis de 500 millones de fetches de GPTBot).

Y este no es un problema marginal. El tráfico referido por plataformas de IA alcanzó 1.130 millones de visitas mensuales en junio de 2025, un crecimiento del 357% interanual (Similarweb/TechCrunch, julio 2025). Los visitantes que llegan desde IA convierten al 7% frente al 5% de Google, permanecen 15 minutos en el sitio frente a 8, y visitan 12 páginas frente a 9 (Similarweb, enero 2026).

Esta guía te explica exactamente cómo auditar y optimizar tu infraestructura técnica para que funcione tanto para Google como para los motores generativos. Con un checklist de 30 puntos, fragmentos de código copiables y la distinción entre lo que importa para buscadores tradicionales y lo que importa para IA.


Qué es el SEO técnico y por qué importa más que nunca

El SEO técnico es el conjunto de optimizaciones de infraestructura web que permiten a los motores de búsqueda —y ahora también a los LLMs— rastrear, renderizar e indexar tu contenido. En 2026, un sitio técnicamente sano no solo rankea mejor en Google: también aumenta sus probabilidades de ser citado en ChatGPT, Perplexity y Google AI Overviews.

Si el SEO on-page se ocupa de que tu contenido sea relevante y el off-page de que sea autoritativo, el SEO técnico se encarga de algo más básico: que sea encontrable. Puedes tener el mejor artículo del mundo, pero si los bots no pueden rastrearlo, indexarlo o procesarlo, no existe. Ni en las SERPs ni en las respuestas de IA.

Piénsalo como la fontanería de un edificio: nadie la ve, nadie la valora cuando funciona bien, pero cuando falla, todo lo demás deja de funcionar. Eso es exactamente lo que hace el SEO técnico con tu web.

La evolución del concepto ha sido radical. Hace cinco años, "SEO técnico" significaba velocidad de carga, sitemaps y robots.txt para Googlebot. En 2026, incluye la gestión de más de 19 bots de IA de 10+ compañías diferentes, la decisión estratégica de qué crawlers pueden acceder a tu contenido, y la garantía de que tu rendering funciona para sistemas que no ejecutan JavaScript.

Los pilares del SEO técnico en 2026:

  • Crawlability. Que los bots puedan descubrir y acceder a tus páginas.
  • Indexación. Que el contenido rastreado se almacene correctamente para aparecer en resultados.
  • Rendimiento. Core Web Vitals, velocidad de carga, TTFB.
  • Seguridad. HTTPS, cabeceras de seguridad.
  • Datos estructurados. Schema.org en JSON-LD para Google y para IA.
  • Accesibilidad para IA. Rendering server-side, robots.txt diferenciado, llms.txt.

El 63,38% del tráfico web ya es móvil (SEOTesting, 2025). Y Google completó la migración a mobile-first indexing en julio de 2024 — dejó de indexar versiones de escritorio por completo. Si tu sitio no es responsive, ni siquiera Google te ve.

Diferencia entre SEO técnico y SEO on-page

La frontera es clara: lo técnico asegura que el contenido sea encontrable; lo on-page asegura que sea relevante.

Dimensión SEO técnico SEO on-page
Qué optimiza Infraestructura (servidor, rendering, crawling) Contenido (headings, keywords, estructura)
Quién lo ejecuta Desarrolladores + SEOs técnicos Redactores + SEOs de contenido
Herramientas Screaming Frog, GSC, PageSpeed Insights Frase.io, Surfer, análisis de intención
Impacto Que los bots accedan al contenido Que el contenido responda a la intención
Frecuencia Auditoría trimestral + monitoreo continuo En cada publicación o actualización

Para profundizar en la optimización del contenido en sí, consulta nuestra guía de SEO on-page.

El nuevo factor: crawlable para Google vs. crawlable para LLMs

Este es el hilo conductor de todo el artículo. En 2026, que tu web sea crawlable para Google no significa que sea crawlable para los LLMs.

Googlebot renderiza JavaScript completo usando headless Chromium. GPTBot, ClaudeBot y PerplexityBot no ejecutan JavaScript — ven solo el HTML crudo. Un análisis de más de 500 millones de fetches de GPTBot no encontró ninguna evidencia de ejecución de JavaScript (PBX Science, 2026). ChatGPT descarga archivos JS el 11,50% de las veces pero no los ejecuta; ClaudeBot los descarga el 23,84% pero tampoco los ejecuta (Vercel/MERJ, diciembre 2024).

La implicación práctica: tu SPA puede rankear en posición 1 en Google mientras es completamente invisible para todos los sistemas de búsqueda de IA simultáneamente.

Solo el 11-25% de los dominios son citados simultáneamente por ChatGPT y Perplexity, dependiendo de la metodología de medición (The Digital Bloom, 2025, 680 millones de citaciones; SE Ranking, 2025). Y el CTR orgánico cae un 61% en las queries donde aparecen AI Overviews (Seer Interactive, noviembre 2025, 3.119 queries, 25,1 millones de impresiones).

Cada decisión técnica que tomes a partir de ahora tiene dos caras: cómo afecta a Google y cómo afecta a la IA. Esa doble perspectiva es lo que convierte al SEO técnico de 2026 en una disciplina fundamentalmente diferente a la de hace tres años.


Core Web Vitals: solo el 48% de webs móviles aprueban

Porcentaje de páginas móviles que cumplen cada umbral

62%
LCP
Umbral: ≤ 2,5s
85,6%
INP
Umbral: ≤ 200ms
81%
CLS
Umbral: ≤ 0,1
48%

Las tres métricas a la vez

Menos de la mitad de las webs móviles aprueban los tres umbrales simultáneamente

Desde el 32% en 2021 — mejora constante pero insuficiente
Fuente: HTTP Archive Web Almanac, 2025 / CrUX Release Notes, marzo 2026

Crawling e indexación: cómo asegurarte de que te encuentran

El crawling es el proceso por el cual los bots descubren tus páginas siguiendo enlaces y sitemaps. La indexación decide si esas páginas se almacenan para aparecer en resultados. Si un bot no puede rastrearte, no existes: ni en Google ni en las respuestas de ChatGPT. Optimizar el crawl budget y tu robots.txt es el primer paso de cualquier auditoría técnica.

Para entender cómo funciona todo el pipeline de rastreo e indexación de Google en profundidad, puedes consultar nuestra guía sobre cómo funcionan las SERPs.

Crawl budget: qué es y cómo optimizarlo

El crawl budget es el número de páginas que un bot puede y quiere rastrear en tu sitio durante un período determinado. Google lo calcula combinando la capacidad de rastreo (cuántas peticiones simultáneas puede hacer sin sobrecargar tu servidor) y la demanda de rastreo (cuántas páginas considera que vale la pena rastrear).

Cuando el crawl budget se desperdicia en páginas irrelevantes, las páginas importantes se rastrean con menos frecuencia. Para la mayoría de sitios pequeños no es un problema. Pero a partir de unos pocos miles de URLs, se vuelve crítico.

Factores que consumen crawl budget:

  • Cadenas de redirecciones. Cada salto intermedio consume una petición.
  • Parámetros de URL no gestionados. Variantes infinitas de la misma página (?sort=price&color=red).
  • Páginas thin content. Contenido duplicado o de bajo valor que el bot rastrea sin necesidad.
  • Errores 5xx. Cada error obliga al bot a reintentar.
  • Paginación infinita. Scroll infinito sin URLs canónicas.
  • Contenido duplicado. Versiones www/non-www, HTTP/HTTPS, con/sin trailing slash.

Auditar el crawl budget es sencillo con Screaming Frog: analiza el log del servidor, filtra por user-agent (Googlebot, GPTBot, ClaudeBot) y comprueba qué páginas están recibiendo visitas de bots y cuáles no.

Crawl budget para crawlers de IA: 4 tipos que debes conocer

No te habían enseñado esto en ningún curso de SEO porque hace dos años no existía. Los crawlers de IA no son un bloque monolítico. Se dividen en cuatro categorías funcionales con implicaciones completamente diferentes:

1. Training crawlers — Rastrean contenido para entrenar los modelos fundacionales. Bloquearlos no afecta a tu visibilidad en búsqueda IA. Ejemplos: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Gemini), Bytespider (ByteDance), CCBot (Common Crawl), Meta-ExternalAgent.

2. Search/retrieval crawlers — Alimentan las respuestas de búsqueda en tiempo real. Bloquearlos significa desaparecer de las citaciones IA. Ejemplos: OAI-SearchBot (OpenAI), Claude-SearchBot (Anthropic), PerplexityBot (Perplexity).

3. User-initiated crawlers — Se activan cuando un usuario solicita explícitamente que la IA visite una URL. ChatGPT-User puede no respetar robots.txt según una actualización de la documentación de OpenAI de diciembre de 2025. Perplexity-User tampoco lo respeta según su propia documentación.

4. Dual-purpose crawlers — Bingbot sirve para búsqueda tradicional y para Copilot/Bing Chat, y alimenta aproximadamente el 92% de las respuestas web de ChatGPT (PBX Science, 2026). Bloquear Bingbot tiene consecuencias desproporcionadas para tu visibilidad en IA.

Compañía Training Search/Retrieval User-initiated
OpenAI GPTBot OAI-SearchBot ChatGPT-User
Anthropic ClaudeBot Claude-SearchBot Claude-User
Perplexity PerplexityBot Perplexity-User
Google Google-Extended Googlebot (compartido)
Microsoft Bingbot (compartido)
Meta Meta-ExternalAgent
Apple Applebot-Extended
Amazon Amazonbot

La decisión estratégica es clara: bloquear training crawlers es bajo riesgo; bloquear retrieval crawlers elimina directamente tu visibilidad en búsqueda IA.

4 tipos de crawlers de IA: impacto de bloquearlos

Cada tipo cumple una función distinta — bloquear el equivocado te hace invisible

🗄️
Training crawlers
Rastrean contenido para entrenar modelos fundacionales. Bloquearlos no afecta a tu visibilidad en búsqueda IA.
GPTBot ClaudeBot Google-Extended Bytespider CCBot
Bajo riesgo si bloqueas
👤
User-initiated
Se activan cuando un usuario pide a la IA que visite una URL concreta. Pueden ignorar robots.txt.
ChatGPT-User Perplexity-User Claude-User
No controlable via robots.txt
Dual-purpose
Sirven para búsqueda tradicional y para IA. Bingbot alimenta el 92% de las respuestas web de ChatGPT.
Bingbot Googlebot
Impacto desproporcionado si bloqueas
Seguro bloquear
Nunca bloquear
Fuente: PBX Science, 2026 / Vercel-MERJ, 2024 / OpenAI docs, 2025

Robots.txt clásico y para IA: 3 escenarios copy-paste

Aquí van tres configuraciones que puedes copiar y pegar directamente en tu robots.txt. Elige la que se ajuste a tu estrategia.

Escenario 1 — Máxima visibilidad IA (permite todo):

# BUSCADORES TRADICIONALES
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# CRAWLERS IA — BÚSQUEDA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: Amazonbot
Allow: /

# CRAWLERS IA — TRAINING
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: *
Allow: /

Sitemap: https://tusitio.com/sitemap.xml

Escenario 2 — Bloquear training, permitir búsqueda (el más recomendado):

# PERMITIR BÚSQUEDA IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

# BLOQUEAR TRAINING IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DeepSeekBot
Disallow: /

# BUSCADORES TRADICIONALES
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Allow: /

Sitemap: https://tusitio.com/sitemap.xml

OpenAI confirma explícitamente que cada configuración es independiente: "a webmaster can allow OAI-SearchBot to appear in search results while disallowing GPTBot." Los datos de Hostinger lo validan: los sitios que permitieron crawlers de búsqueda mientras bloqueaban los de training vieron la cobertura de OAI-SearchBot crecer del 4,7% al 55%+ mientras GPTBot cayó al 12% (Search Engine Journal, citando datos de Hostinger).

Escenario 3 — Bloquear todo excepto buscadores tradicionales:

Bloquea además OAI-SearchBot, ChatGPT-User, Claude-SearchBot, Claude-User, PerplexityBot, Perplexity-User, Amazonbot. Consecuencia: desapareces de las respuestas IA por completo. No recomendado salvo para sectores con propiedad intelectual sensible.

Un dato para reflexionar: el 49% de los 100 principales sitios de noticias bloquean OAI-SearchBot, en muchos casos sin saber que se están eliminando de las citaciones de búsqueda IA (BuzzStream, 2025).

Advertencia sobre Cloudflare: Desde julio de 2025, Cloudflare bloquea crawlers de IA por defecto para nuevas zonas. Si tu sitio usa Cloudflare, verifica que la configuración de AI Crawl Control permita los bots que necesitas. Más de 2,5 millones de sitios web usan el bloqueo gestionado de Cloudflare. Cloudflare también ofrece funciones avanzadas como "Pay Per Crawl" (devuelve HTTP 402 a los crawlers de IA para monetizar el acceso) y "AI Labyrinth" (un honeypot que atrapa a scrapers no autorizados en un laberinto de páginas). Akamai reportó un incremento del 300% en tráfico de crawlers de IA durante 2025.

Un matiz legal que conviene conocer: robots.txt no es legalmente vinculante. En el caso Ziff Davis v. OpenAI (diciembre 2025), el juez Stein dictaminó que las directivas de robots.txt "no controlan efectivamente el acceso al contenido más de lo que un cartel pidiendo que no pisen el césped controla efectivamente el acceso a un jardín." Perplexity ha sido documentada repetidamente violando robots.txt — Cloudflare creó dominios de prueba nuevos con bloques explícitos y Perplexity accedió igualmente usando un user-agent falso de Chrome (Cloudflare blog, agosto 2025). El grupo de trabajo IETF AIPREF está desarrollando un estándar formal con vocabulario basado en propósito (training vs. indexing vs. inference), pero tiene dos borradores en competencia y ningún calendario definido.

llms.txt: qué es, adopción real y efecto medible

llms.txt es una propuesta de Jeremy Howard (co-fundador de Answer.AI, septiembre 2024) para crear un archivo en la raíz de tu web que resuma tu contenido en formato Markdown, facilitando que los LLMs comprendan la estructura y contenido de tu sitio. Mientras robots.txt controla el acceso, llms.txt facilita la comprensión.

La adopción ha crecido rápido: el 10,13% de los dominios lo tienen implementado (SE Ranking, noviembre 2025, 300.000 dominios), y BuiltWith contabiliza más de 844.000 sitios con llms.txt a octubre de 2025.

Ahora viene la parte incómoda. Tres estudios independientes han buscado un efecto medible de llms.txt en citaciones IA. Ninguno lo ha encontrado:

  • SE Ranking (300.000 dominios): "When we removed the LLMs.txt factor, the model's predictions actually improved."
  • Search Engine Land (10 sitios, 90 días): 8 de 10 sin cambio medible.
  • OtterlyAI (62.100+ visitas de bots IA, 90 días): Solo 84 visitas fueron a /llms.txt (0,1%). "No significant impact."

John Mueller (Google) en Bluesky: "AFAIK none of the AI services have said they're using LLMs.TXT."

La recomendación honesta: implementarlo cuesta menos de una hora, no tiene riesgo y podría beneficiarte si las plataformas lo adoptan en el futuro. Pero no le dediques más tiempo del necesario ni esperes resultados inmediatos. El caso de uso más fuerte sigue siendo la documentación técnica para asistentes de código como Cursor o GitHub Copilot — el escenario original para el que fue diseñado.

Canonical tags, noindex y señales de indexación

Las etiquetas canonical y noindex son señales que le indican a los bots qué páginas indexar y cuál considerar la versión principal cuando existen duplicados.

Canonical (<link rel="canonical" href="URL">) consolida la autoridad de versiones duplicadas en una sola URL. Errores comunes: poner canonicals que apuntan a páginas 404, usar canonicals relativos en vez de absolutos, o tener canonical y noindex en la misma página (señales contradictorias).

Noindex (<meta name="robots" content="noindex">) impide la indexación. Úsalo en páginas de filtro, resultados de búsqueda interna, páginas de agradecimiento y contenido thin que no aporta valor al buscador.

Un dato relevante sobre el estado de la indexación en el ecosistema IA: el 73% de los compradores B2B ya usan herramientas de IA en su proceso de investigación, pero solo el 22% de los marketers rastrean su visibilidad en IA (Averi, marzo 2026). Eso significa que tres de cada cuatro equipos de marketing están tomando decisiones de indexación sin considerar cómo afectan a su presencia en motores generativos.


Velocidad, Core Web Vitals y rendimiento técnico

Los Core Web Vitals miden la experiencia de carga, interactividad y estabilidad visual de tu web. Desde marzo de 2024, INP reemplazó a FID como métrica de interactividad. Cumplir los umbrales (LCP ≤2,5s, INP ≤200ms, CLS ≤0,1) es un requisito mínimo tanto para rankear en Google como para que los crawlers de IA procesen tu contenido sin timeouts.

LCP, INP y CLS: los tres números que debes vigilar

LCP (Largest Contentful Paint) mide cuánto tarda en cargarse el elemento visual más grande de la pantalla. Umbral: ≤2,5 segundos. Es la métrica más difícil de cumplir: solo el 62% de las páginas móviles la superan (HTTP Archive Web Almanac, julio 2025).

INP (Interaction to Next Paint) mide la latencia de todas las interacciones del usuario, no solo la primera (como hacía FID). Umbral: ≤200ms. FID solo medía el input delay de la primera interacción; INP mide input delay + processing + presentation delay de todas las interacciones y reporta el peor caso representativo. El cambio oficial se produjo el 12 de marzo de 2024 (web.dev). Cuando se anunció, solo el 65% de las páginas móviles cumplían el umbral; a diciembre de 2025, ya lo hace el 85,6% (CrUX Release Notes, marzo 2026).

CLS (Cumulative Layout Shift) mide la estabilidad visual — cuánto se mueve el contenido mientras se carga. Umbral: ≤0,1. Es la más fácil de cumplir: 81% de las páginas la pasan.

En conjunto, solo el 48% de las páginas móviles cumplen las tres métricas simultáneamente. La tendencia es positiva: era el 32% en 2021 (HTTP Archive, 2025).

Cómo medir: PageSpeed Insights (datos de campo + laboratorio), CrUX Dashboard (tendencias históricas), Web Vitals extension de Chrome (tiempo real durante navegación).

Acciones para mejorar LCP:

  • Implementar CDN para reducir latencia geográfica.
  • Comprimir imágenes (WebP/AVIF) y dimensionarlas correctamente.
  • Aplicar lazy load solo a imágenes below-the-fold (nunca al LCP element).
  • Minificar CSS y JavaScript.
  • Usar preload para recursos críticos (fuentes, imagen hero).
  • Reducir TTFB a <200ms (optimizar respuesta del servidor).

Un caso real: QuintoAndar (Brasil) redujo su INP un 80% y aumentó las conversiones un 36% (web.dev case study).

CWV como puerta de entrada para IA: requisito mínimo, no diferenciador

Hay una pregunta que todo el mundo se hace: ¿mejorar mis Core Web Vitals mejora mi visibilidad en IA?

La respuesta corta: los CWV son una puerta de entrada, no un factor de diferenciación. Un estudio de Dan Taylor publicado en Search Engine Land analizó 107.352 páginas y encontró una correlación entre LCP y visibilidad IA de solo -0,12 a -0,18 — estadísticamente significativa pero funcionalmente débil.

Lo que esto significa en la práctica: si tus CWV están en rojo, los crawlers de IA hacen timeout. Los crawlers como OAI-SearchBot y GPTBot tienen timeouts ajustados de 1-5 segundos (Prerender.io). Si tu TTFB es alto o tu HTML inicial es pesado, pueden abandonar tu página antes de leer el contenido. Pero una vez que pasas los umbrales mínimos, seguir mejorando los CWV no te da ventaja adicional en visibilidad IA.

El scope es importante: aquí identificamos los umbrales y su relación con la IA. Si quieres profundizar en qué métricas rastrear y con qué frecuencia, consulta nuestro artículo sobre métricas GEO.

Mobile-first y HTTPS: lo que ya no puedes ignorar

Google completó la migración a mobile-first indexing en julio de 2024. Si tu sitio no es responsive, Google ya no te indexa. Sin excepción.

HTTPS es señal de ranking desde 2014. En 2026 no es una "mejora" — es un requisito básico. Los navegadores marcan como "No seguro" cualquier sitio HTTP, y los crawlers de IA dependen de conexiones seguras para las transferencias de datos.


Rendering y JavaScript: el gap invisible para los crawlers de IA

Si tu web depende de JavaScript para renderizar contenido, Googlebot la ve completa pero GPTBot, ClaudeBot y PerplexityBot pueden ver una página en blanco. La solución: Server-Side Rendering (SSR) o Static Site Generation (SSG). En 2026, elegir tu estrategia de rendering es una decisión de visibilidad tanto en buscadores como en motores generativos.

Este es probablemente el punto técnico más infravalorado de todo el ecosistema SEO/GEO actual. Ninguno de los principales crawlers de IA renderiza JavaScript. La evidencia es contundente y unánime.

SSR vs. SSG vs. SPA: qué ve cada crawler

Dimensión CSR (SPA) SSR SSG
Qué recibe el crawler <div id="root"></div> + scripts HTML completo HTML estático pre-construido
Googlebot Lo ve (tras cola de renderizado) Lo ve inmediatamente Lo ve inmediatamente
GPTBot/ClaudeBot Invisible (página en blanco) Lo ve completo Lo ve completo
PerplexityBot Invisible Lo ve completo Lo ve completo
Bingbot Parcialmente (limitado en JS) Lo ve completo Lo ve completo
Tiempo hasta contenido visible 3-8 segundos 0,5-2 segundos <0,5 segundos
Coste de servidor Bajo (hosting estático) Más alto (compute por request) Bajo (CDN)
Ideal para Dashboards internos E-commerce, contenido dinámico Blogs, docs, marketing
Frameworks React, Angular, Vue (default) Next.js, Nuxt, SvelteKit Astro, Next.js (export), Hugo

La propia documentación de Google lo confirma: "Keep in mind that server-side or pre-rendering is still a great idea because... not all bots can run JavaScript."

4 señales de que tu sitio tiene un rendering gap:

  • El contenido no aparece en "View Source" del navegador (solo se ve al inspeccionar el DOM renderizado).
  • Tu aplicación depende de fetch() en el cliente para obtener el contenido principal.
  • Usas un framework SPA sin configuración de SSR.
  • Las páginas solo muestran contenido tras la hidratación de JavaScript.

Los frameworks modernos resuelven esto de forma nativa. Next.js (8-9 millones de descargas semanales en npm), Nuxt (2,5 millones), Astro (crecimiento rápido) y SvelteKit (1,2-1,5 millones) ofrecen SSR y SSG como opciones de configuración, no como proyectos de migración desde cero.

Hay un matiz técnico importante sobre las variantes de rendering:

  • SSR completo: Resuelve la crawlability para IA al 100%. Cada petición genera HTML completo en el servidor.
  • SSG (Static Site Generation): Resuelve la crawlability al 100%. El HTML se pre-genera en el build. Ideal para blogs, documentación y marketing.
  • ISR (Incremental Static Regeneration): Prácticamente resuelve la crawlability. El contenido puede estar ligeramente desactualizado entre regeneraciones.
  • Streaming SSR: Generalmente funciona, pero los crawlers de IA pueden desconectarse antes de recibir el stream completo.
  • Partial Hydration / Islands (Astro): Excelente — HTML estático con JavaScript selectivo solo donde se necesita interactividad.

Si quieres profundizar en cómo aparecer en las respuestas de ChatGPT una vez que tu rendering esté resuelto, consulta nuestra guía sobre cómo aparecer en ChatGPT y Perplexity.

El rendering gap: visible para Google, invisible para la IA

Lo que ve cada crawler cuando tu web depende de JavaScript (CSR/SPA)

Googlebot

Chromium completo + WRS

tusitio.com/articulo

GPTBot / ClaudeBot / PerplexityBot

Solo HTML crudo — sin JS

tusitio.com/articulo
Página en blanco
Sin contenido visible
<div id="root"></div>
💡
La solución: Server-Side Rendering (SSR) o Static Site Generation (SSG). El contenido llega en el HTML inicial, sin depender de JavaScript. Frameworks como Next.js, Nuxt y Astro lo resuelven de forma nativa.
Fuente: Vercel-MERJ, 2024 — 500M+ fetches de GPTBot analizados, 0 evidencia de ejecución JS

Checklist de rendering para IA

Un test rápido que puedes hacer ahora mismo desde tu terminal:

curl -s https://tusitio.com/pagina-importante | grep "texto que debería estar en el HTML"

Si el texto no aparece en la respuesta del curl, los crawlers de IA tampoco lo ven. Ese comando reproduce exactamente lo que GPTBot y ClaudeBot reciben cuando visitan tu página.

Objetivos técnicos:

  • TTFB <200ms (tiempo de respuesta del servidor).
  • HTML inicial <100KB (el payload que los crawlers procesan).
  • Contenido principal presente en el HTML del servidor, no cargado por JavaScript.
  • Ratio texto/HTML alto (contenido real vs. markup y scripts).

Datos estructurados y Schema: hablar el idioma de Google y de los LLMs

Los datos estructurados (Schema.org en JSON-LD) permiten a Google mostrar rich results y a los LLMs identificar entidades, hechos y relaciones en tu contenido. En 2026, implementar Organization con sameAs, FAQPage para RAG y Article con dateModified es la forma más directa de ser comprendido tanto por el Knowledge Graph como por los sistemas de retrieval de ChatGPT y Perplexity.

Las menciones de marca correlacionan con la visibilidad en IA a un nivel de 0,664 — 2,5 veces más que el Domain Rating (0,266) — según Ahrefs (julio 2025, 75.000 marcas). Los datos estructurados son una de las formas más directas de reforzar esas señales de entidad.

Schema para Google: rich results y visibilidad SERP

Los tipos de Schema más impactantes para SEO en 2026:

  • Article. Fecha de publicación, autor, publisher. Base para aparecer en Google News y Discover.
  • FAQPage. Preguntas y respuestas expandibles en SERPs (restringido a sitios gubernamentales/sanitarios desde agosto 2023, pero aún útil para IA y Bing).
  • HowTo. Pasos secuenciales con imágenes (deprecated en desktop septiembre 2023 por Google, pero Bing puede seguir usándolo).
  • Product. Precio, disponibilidad, reseñas para e-commerce.
  • BreadcrumbList. Ruta de navegación visible en SERPs.
  • Organization. Identidad de marca, logo, enlaces sociales.

Para validar tu implementación: Rich Results Test (solo Google) y Schema Markup Validator (todos los tipos, independiente de Google).

Schema para IA: Organization, sameAs y FAQPage para RAG

Aquí es donde el Schema pasa de ser un recurso SEO a ser una herramienta GEO/AEO. Los LLMs usan datos estructurados de formas que Google nunca anticipó.

Organization + sameAs permite a los LLMs resolver la entidad de tu marca. Si tu Schema vincula tu web a tu página de Wikipedia, tu perfil de Wikidata, tu Crunchbase y tu LinkedIn, el modelo puede confirmar que "Company Name" en tu web es la misma entidad que aparece en esas fuentes de referencia.

Según Norbert Kathriner, las fuentes con Q-IDs de Wikidata y sameAs verificados reciben 2-3x mayor peso en el sistema de ponderación de evidencia de los LLMs. Y LovedByAI reporta que las entidades con enlaces a Wikidata o Crunchbase logran resolución de entidad un 40% más rápido.

Jerarquía recomendada de sameAs:

  • Tier 1 (prioritario): Wikipedia, Wikidata
  • Tier 2 (importante): Crunchbase, LinkedIn
  • Tier 3 (complementario): Twitter/X, perfiles sociales

FAQPage sigue siendo relevante para IA aunque Google la haya restringido para rich results. Las preguntas y respuestas en formato estructurado son directamente extraíbles por los sistemas RAG. Frase.io afirma que las páginas con FAQPage markup son 3,2 veces más propensas a aparecer en AI Overviews (aunque la metodología no es transparente).

Article con dateModified es una señal de frescura crítica. Las URLs citadas por IA son un 25,7% más frescas que las citadas en orgánico de Google (Ahrefs, 2026, 16,9 millones de URLs). Mantener el dateModified actualizado cada vez que haces una revisión sustantiva del contenido le dice a los crawlers que la información es vigente.

Implementación JSON-LD de Organization con sameAs:

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "@id": "https://tusitio.com/#organization",
  "name": "Nombre de tu empresa",
  "url": "https://tusitio.com",
  "logo": "https://tusitio.com/logo.png",
  "sameAs": [
    "https://en.wikipedia.org/wiki/Tu_Empresa",
    "https://www.wikidata.org/entity/Q12345",
    "https://www.crunchbase.com/organization/tu-empresa",
    "https://www.linkedin.com/company/tu-empresa",
    "https://twitter.com/tuempresa"
  ]
}

Article con dateModified y autor vinculado:

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Título del artículo",
  "datePublished": "2026-01-15T08:00:00+00:00",
  "dateModified": "2026-04-07T10:30:00+00:00",
  "author": {
    "@type": "Person",
    "@id": "https://tusitio.com/autores/nombre#person",
    "name": "Nombre del Autor",
    "url": "https://tusitio.com/autores/nombre",
    "sameAs": [
      "https://www.linkedin.com/in/nombreautor",
      "https://twitter.com/nombreautor"
    ]
  },
  "publisher": {
    "@id": "https://tusitio.com/#organization"
  }
}

FAQPage para extracción RAG:

{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "¿Qué es el SEO técnico?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "El SEO técnico es el conjunto de optimizaciones de infraestructura web que permite a buscadores y LLMs encontrar, procesar y mostrar tu contenido."
      }
    }
  ]
}

Un detalle crítico: los crawlers de IA solo leen JSON-LD que esté renderizado en el HTML del servidor. Si tu Schema se inyecta con JavaScript después de la carga, GPTBot y ClaudeBot no lo ven. "Crawlers like GPTBot, ClaudeBot, and PerplexityBot can't execute JavaScript and miss any structured data added later" (Search Engine Journal, citando a Elie Berreby).

Para la implementación de Schema como factor on-page dentro de tu estrategia de contenidos, consulta nuestra guía de estrategia SEO.

Meta tags y configuración para AI crawlers

Además de robots.txt, puedes controlar el acceso de los crawlers de IA a nivel de página con meta tags y HTTP headers.

Meta robots para IA:

<!-- Bloquear uso para entrenamiento IA -->
<meta name="robots" content="noai, noimageai">

X-Robots-Tag en HTTP headers (útil cuando no controlas el HTML):

X-Robots-Tag: noai, noimageai

En HubSpot, puedes añadir estas meta tags en la configuración de página individual (Settings > Advanced > Additional code snippets > Head HTML). En WordPress, plugins como Yoast SEO permiten configurar meta tags personalizados por página o globalmente.


Redirecciones: cuándo usar 301, cuándo 302 y cómo auditar cadenas

Una redirección 301 transfiere autoridad de forma permanente; una 302 indica un cambio temporal y no consolida link equity. Las cadenas de redirecciones (A→B→C→D) desperdician crawl budget y ralentizan la carga. Auditar y limpiar redirecciones es una de las acciones técnicas de mayor impacto inmediato en cualquier sitio.

301 vs. 302: cuándo usar cada una

La confusión entre 301 y 302 sigue siendo uno de los errores técnicos más frecuentes. La regla es simple: si el cambio es permanente, usa 301. Si es temporal, usa 302.

Escenario Tipo Motivo
Migración de dominio 301 Permanente — transfiere toda la autoridad
Cambio de URL permanente 301 Consolida link equity en la nueva URL
Test A/B temporal 302 El original volverá — no quieres transferir autoridad
Mantenimiento programado 302 La URL original se restaurará
Consolidar páginas duplicadas 301 Una absorbe la autoridad de la otra

El error clásico: usar 302 para migraciones permanentes. Google interpreta la 302 como temporal y puede seguir indexando la URL antigua durante meses. Para los crawlers de IA, el impacto es peor: dado que rastrean con menor frecuencia que Googlebot, una cadena de redirecciones consume más proporcionalmente de su crawl budget limitado.

Cómo auditar cadenas y bucles de redirecciones

Una cadena de redirecciones es cuando A redirige a B, B redirige a C, y C redirige a D. Cada salto añade latencia y consume crawl budget. Para los crawlers de IA, con timeouts de 1-5 segundos, una cadena de 3+ saltos puede hacer que abandonen tu página antes de llegar al destino.

La regla: máximo 1 salto. Toda cadena debería ir directamente de A a D.

Pasos de auditoría:

  • Rastrear con Screaming Frog. Reports > Redirect Chains muestra todas las cadenas del sitio.
  • Identificar cadenas >1 salto. Prioriza las que afectan a páginas con tráfico o autoridad.
  • Consolidar en salto único. Actualiza cada redirección para que apunte directamente al destino final.
  • Verificar en GSC. Comprueba que las URLs redirigidas ya no aparecen como errores de cobertura.

Herramientas adicionales: httpstatus.io para verificar cadenas individuales, GSC para detectar errores de rastreo relacionados.


Auditoría técnica paso a paso: checklist de 30 puntos

Una auditoría de SEO técnico revisa la infraestructura completa de tu web en 30 puntos agrupados en cinco áreas: crawlability, indexación, rendimiento, arquitectura y preparación para IA. Con herramientas como Screaming Frog, GSC y PageSpeed Insights, puedes completar una auditoría básica en una tarde y priorizar correcciones por impacto.

Herramientas imprescindibles para la auditoría

No necesitas 20 herramientas. Estas 7 cubren el 95% de las necesidades:

  • Google Search Console. Cobertura de indexación, errores de rastreo, Core Web Vitals, sitemaps.
  • Screaming Frog. Rastreo completo del sitio: redirecciones, canonicals, meta tags, tiempos de respuesta.
  • PageSpeed Insights. CWV con datos de campo (CrUX) y de laboratorio (Lighthouse).
  • GTmetrix. Análisis de rendimiento con cascada de carga detallada.
  • Sitebulb. Auditoría visual con priorización automática de problemas. Valida Schema incluso cuando Google no lo soporta.
  • Rich Results Test. Validación de datos estructurados para Google.
  • Schema Markup Validator. Validación de Schema.org independiente de Google.

Para herramientas de monitoreo específicas de visibilidad en IA, consulta nuestra guía de herramientas GEO.

Los 30 puntos del checklist técnico

Y aquí va lo que viniste a buscar. Voy a ser honesto: la mayoría de checklists que circulan cubren solo la mitad de lo que necesitas en 2026. Este incluye los puntos clásicos de Google más los nuevos para IA.

Crawlability (puntos 1-10)

# Punto Prioridad Google IA
1XML sitemap enviado a Search ConsoleCrítica
2Canonical tags en todas las páginasCrítica
3Hreflang para multi-idiomaAlta
4Paginación correcta (rel=next/prev o load-more)Alta
5Estructura de URLs limpia y descriptivaAlta
6Crawl budget optimizado (noindex en thin pages)Alta
7Robots.txt diferenciado (training vs. search vs. traditional)Crítica
8llms.txt en la raíz del dominioMedia
9Configuración CDN/WAF revisada (Cloudflare AI Crawl Control)Crítica
10Sin cadenas de redirecciones (máximo 1 salto)Alta

Indexación (puntos 11-16)

# Punto Prioridad Google IA
11Meta robots / X-Robots-Tag configurados correctamenteCrítica
12Sin contenido duplicado (canonicals + redirects)Alta
13Cobertura de indexación monitorizada en GSCAlta
14IndexNow implementado (Bing/Yandex + sistemas IA)Media
15Breadcrumbs Schema implementadoMedia
16HTML semántico y limpio (estructura clara de headings)Alta

Rendimiento (puntos 17-22)

# Punto Prioridad Google IA
17LCP ≤2,5sCrítica
18INP ≤200msAlta
19CLS ≤0,1Alta
20TTFB <200msAlta
21HTTPS en todo el sitioCrítica
22Mobile-friendly / responsive designCrítica

Arquitectura (puntos 23-26)

# Punto Prioridad Google IA
23SSR/SSG verificado (sin contenido dependiente de JS)Crítica
24HTML inicial <100KBAlta
25Contenido en HTML del servidor (no lazy-loaded tras JS)Crítica
26Alta densidad texto/HTML (ratio texto real vs. markup)Media

Preparación para IA (puntos 27-30)

# Punto Prioridad Google IA
27Schema Organization + sameAs (Wikipedia, Wikidata, LinkedIn)Alta
28Schema Article con dateModified actualizadoAlta
29FAQPage Schema en contenido con preguntas frecuentesMedia
30Monitoreo de crawlers IA en logs del servidorAlta

Un contraargumento que merece atención: algunos SEOs argumentan que esta complejidad adicional no justifica el esfuerzo, dado que la IA todavía representa menos del 1% del tráfico de referencia total comparado con Google Search. Y tienen un punto. Pero recuerda que el tráfico IA ha crecido un 357% interanual, convierte mejor (7% vs. 5%) y los primeros en optimizar capturan una ventaja desproporcionada.

Monitoreo continuo: logs de servidor y crawlers de IA

Implementar el checklist es el primer paso. Mantenerlo es lo que realmente separa a los equipos técnicos buenos de los excelentes.

Cómo filtrar logs por user-agent para detectar crawlers de IA:

# Filtrar visitas de GPTBot en logs de Apache/Nginx
grep "GPTBot" /var/log/nginx/access.log | wc -l

# Ver todos los crawlers de IA
grep -E "GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|Claude-SearchBot" /var/log/nginx/access.log

Lo que buscas: frecuencia de visitas (¿te rastrean regularmente?), páginas visitadas (¿rastrean lo importante?), códigos de respuesta (¿reciben errores?).

La distinción clave es entre métricas input-side (crawls: cuántas veces te visitan los bots, qué páginas rastrean) y métricas output-side (citaciones: cuántas veces apareces en las respuestas). Los logs te dan la primera; para la segunda necesitas herramientas de monitoreo GEO.


Preguntas frecuentes sobre SEO técnico

¿Qué es el SEO técnico?

El SEO técnico es el conjunto de optimizaciones de infraestructura web (crawling, indexación, velocidad, seguridad, datos estructurados) que permite a buscadores y LLMs encontrar, procesar y mostrar tu contenido. A diferencia del SEO on-page, no trata sobre qué dices sino sobre cómo de accesible es lo que dices.

¿Cuáles son los elementos principales del SEO técnico?

En 2026, los seis pilares son: crawlability (robots.txt, sitemap, gestión de crawl budget), indexación (canonical, noindex, hreflang), rendimiento (Core Web Vitals: LCP, INP, CLS), seguridad (HTTPS), datos estructurados (Schema.org en JSON-LD) y, como novedad, preparación para crawlers de IA (SSR/SSG, robots.txt diferenciado, llms.txt).

¿Cómo hacer una auditoría de SEO técnico?

Sigue el checklist de 30 puntos descrito en esta guía. Necesitas tres herramientas mínimas: Screaming Frog (rastreo completo), Google Search Console (cobertura de indexación y CWV) y PageSpeed Insights (rendimiento). Revisa las cinco áreas: crawlability, indexación, rendimiento, arquitectura y preparación para IA. Una auditoría básica se puede completar en una tarde.

¿Cuál es la diferencia entre SEO técnico y SEO on-page?

El SEO técnico optimiza la infraestructura — que el contenido sea encontrable y procesable por los bots. El SEO on-page optimiza el contenido en sí — que sea relevante y responda a la intención de búsqueda. El primero lo ejecutan desarrolladores y SEOs técnicos; el segundo, redactores y SEOs de contenido. Ambos son necesarios: sin base técnica, el mejor contenido es invisible.

¿Por qué es importante el SEO técnico en 2026?

Porque sin una base técnica sólida, ni Google ni los LLMs pueden acceder a tu contenido. En 2026, la importancia se ha multiplicado: los crawlers de IA no renderizan JavaScript, tienen timeouts estrictos de 1-5 segundos y requieren configuraciones de robots.txt específicas. Un sitio que solo optimiza para Google está ignorando un canal que crece al 357% anual.

¿Qué herramientas se usan para SEO técnico?

Las esenciales: Google Search Console, Screaming Frog, PageSpeed Insights, Sitebulb, GTmetrix, Rich Results Test y Schema Markup Validator. Para la dimensión de IA, añade análisis de logs del servidor (filtrado por user-agents de crawlers IA) y herramientas GEO para monitorizar si los crawlers acceden a tu contenido.


Siguiente paso: de la auditoría a la acción

Has llegado hasta aquí y tienes el mapa completo: cómo funciona el crawling para Google y para IA, qué decisiones tomar con tu robots.txt, cómo optimizar rendimiento, rendering y datos estructurados, y un checklist de 30 puntos para auditar tu sitio.

La implementación puede empezar hoy:

  • Esta semana: Ejecuta el test de rendering (curl -s URL | grep "contenido") en tus 10 páginas más importantes. Si el contenido no aparece, tienes un rendering gap que está costándote visibilidad en IA.
  • Esta semana también: Revisa tu robots.txt y asegúrate de que no estás bloqueando crawlers de búsqueda IA (OAI-SearchBot, Claude-SearchBot) cuando lo que quieres bloquear es solo el training.
  • Este mes: Audita tus Core Web Vitals con PageSpeed Insights y prioriza las correcciones de LCP (la métrica que más sitios suspenden). El umbral es ≤2,5 segundos.
  • Este mes también: Implementa Schema Organization con sameAs apuntando a tus perfiles verificados. Es la acción de datos estructurados con mayor impacto demostrado para visibilidad en IA.
  • A partir de ahora: Monitoriza los logs del servidor filtrando por user-agents de crawlers IA. Saber con qué frecuencia te rastrean y qué páginas visitan es el primer paso para optimizar tu crawl budget para IA.

Para la estrategia completa de cómo aparecer en ChatGPT y Perplexity, consulta nuestra guía práctica sobre citaciones en IA. Y para medir si todo esto está funcionando, visita nuestro artículo sobre métricas GEO.

Las marcas que construyan ahora una infraestructura técnica dual — para Google y para IA — capturarán una ventaja estructural difícil de replicar cuando el resto del mercado despierte. El momento de auditar es hoy.

Fuentes

  1. RAE - indexar

  2. Centro de la Búsqueda de Google - Directrices para webmasters

  3. Base de conocimientos de HubSpot - Ver y editar tu mapa del sitio del dominio alojado en HubSpot

  4. Centro de la Búsqueda de Google - Impedir que la Búsqueda indexe páginas con la directiva noindex

  5. Base de conocimientos de HubSpot - Evitar que el contenido aparezca en los resultados de búsqueda

  6. Yoast - How to noindex an entire site

  7. Ayuda de Search Console - Herramienta de retirada

¿Y tú qué opinas? ¡Déjanos aquí tus comentarios!

Suscríbete al Blog
Suscríbete por email y recibe además un pack de bienvenida con nuestros 5 mejores artículos