<img height="1" width="1" style="display:none;" alt="" src="https://dc.ads.linkedin.com/collect/?pid=81693&amp;fmt=gif">

Qué es la indexación en SEO: por qué importa y cómo funciona

Si buscas «qué es la indexación» y Google te responde con el Euríbor, el problema de la indexación web queda perfectamente ilustrado. En España, 3 de cada 5 resultados para esa búsqueda hablan de indexación financiera — vincular valores a un índice de referencia como el IPC. Este artículo habla de otra cosa: de cómo los buscadores descubren, leen y almacenan tus páginas.

La indexación es la base técnica de toda estrategia de visibilidad orgánica. Eso incluye el SEO técnico como parte de la estrategia de GEO y AEO: si no estás indexado, no existes.

Qué es la indexación web (y qué NO es)

La indexación web es el proceso por el cual un buscador descubre, lee, procesa y almacena una página en su base de datos — el «índice» —, haciéndola elegible para aparecer en resultados de búsqueda. Sin indexación, no hay posicionamiento posible: es la primera puerta, no la última.

Piensa en tu web como un libro recién impreso. Publicar una página equivale a dejarlo en una estantería; indexar es que el bibliotecario lo registre en el fichero — sin ese registro, nadie lo encuentra. Google utiliza esta misma analogía en su documentación oficial.

La RAE reconoce dos significados para «indexación»: el financiero (vincular valores a un índice como el Euríbor o el IPC) y el informático (registrar información para su consulta). Aquí hablamos del segundo. Y un matiz clave: estar indexado no garantiza aparecer arriba en los resultados — eso depende del posicionamiento.

Un dato que merece pararse a pensar: el índice de Google supera los 100.000.000 GB y cubre «cientos de miles de millones» de páginas (Google, 2024).

Cómo funciona: el pipeline crawl → render → index → serve

El proceso sigue un pipeline de 4 etapas operativas. Google lo presenta como tres fases, pero el renderizado es un paso diferenciado dentro de la indexación (Google Search Central, 2025):

  • Discover: Google descubre la URL a través de enlaces, sitemaps o envíos en Search Console.
  • Crawl: Googlebot descarga el HTML de la página.
  • Render: un navegador automático ejecuta el JavaScript y construye la estructura completa de la página (el DOM).
  • Index: Google extrae el contenido, elige la versión canónica y almacena la página en su índice invertido.

Aquí es donde muchos se pierden: desde el 5 de julio de 2024, Googlebot Smartphone es el rastreador primario para el 100% de los sitios. Si tu versión móvil oculta contenido que sí aparece en escritorio, Google no lo ve (Google Search Central, 2024).

La infraestructura interna de Google se llama Caffeine desde 2010, basada en el sistema Percolator. El cambio redujo la edad media de los documentos indexados un 50% respecto al modelo anterior de procesamiento por lotes (Peng & Dabek, OSDI 2010).

Que Search Console muestre «URL is on Google» no significa que la página sea visible en los resultados. La indexación es necesaria, pero no suficiente.

Ahora que sabes qué es la indexación, la pregunta natural es: ¿cómo decides qué se indexa y qué no?

Cómo controlar qué se indexa (y qué no)

El control de la indexación se apoya en cuatro herramientas técnicas, cada una actuando en una capa distinta: robots.txt controla el rastreo, meta robots controla la indexación, X-Robots-Tag extiende ese control a archivos no HTML, y el sitemap XML facilita el descubrimiento. Confundir estas capas es el error técnico más frecuente en migraciones.

Herramienta Qué controla Ubicación Ejemplo
robots.txt Rastreo (¿Googlebot accede?) /robots.txt en raíz Disallow: /admin/
Meta robots Indexación (¿Google almacena?) <head> del HTML <meta name="robots" content="noindex">
X-Robots-Tag Indexación (no-HTML y reglas masivas) Header HTTP X-Robots-Tag: noindex
Sitemap XML Descubrimiento (URLs a indexar) Declarado en robots.txt o GSC <loc>https://example.com/page</loc>

Si robots.txt bloquea una URL, Googlebot no puede leer su meta robots — un noindex en una URL bloqueada es invisible. Google eliminó el soporte de noindex en robots.txt en julio de 2019 (Ahrefs, 2024, citando documentación de Google). Es el error auto-infligido más común en migraciones.

Mira este dato: el sitemap XML tiene un límite de 50.000 URLs o 50 MB por archivo. Google ignora las etiquetas <priority> y <changefreq> — solo usa <lastmod> si es consistentemente preciso (Google Search Central, 2025).

Los redirects 301 y 302 también son señales de indexación: un 301 indica que el destino es la versión canónica; un 302, que el origen sigue siendo la preferida. Gary Illyes (Google) confirmó en 2016 que ya no pierden PageRank. La recomendación es mantener los 301 al menos un año y limitar las cadenas a 2 saltos como máximo (Google Search Central, 2025).

Una distinción clave: rel=canonical es un hint — Google puede ignorarlo. noindex es una directive — Google la obedece.

Cómo des-indexar contenido

Si necesitas eliminar contenido del índice, hay 4 métodos con distintas velocidades y permanencias:

Método Velocidad Permanencia
GSC Removals ~24 horas Temporal (6 meses)
noindex (meta o X-Robots-Tag) Días a semanas Permanente
404/410 Días a semanas Permanente
Protección por contraseña Inmediato Permanente

La secuencia correcta: (1) permitir el rastreo, (2) añadir noindex, (3) esperar al siguiente rastreo. Nunca uses robots.txt para des-indexar — si bloqueas, Google no puede leer el noindex y la URL puede persistir en el índice (Google, 2025).

Los controles están claros. ¿Pero qué pasa cuando algo falla?

5 problemas de indexación que puedes diagnosticar hoy

Los problemas de indexación más frecuentes en sitios B2B tienen diagnóstico y solución concretos. Un noindex accidental, un soft 404, un canonical contradictorio, un renderizado JavaScript invisible o un «Discovered — not indexed» persistente: todos pueden resolverse con las herramientas que ya tienes en Search Console.

Problema Estado en GSC Solución
Noindex accidental «Excluded by 'noindex' tag» Revisar tags de staging; quitar noindex; pedir indexación
Soft 404 «Soft 404» Añadir contenido real, devolver 404/410 o redirigir con 301
Canonical contradictorio «Google chose different canonical» Alinear canonical, enlaces internos y sitemap
JS rendering invisible Contenido ausente en URL Inspection SSR o SSG; meta tags server-side
Discovered — not indexed «Discovered — currently not indexed» Mejorar calidad, consolidar duplicados, reforzar enlazado interno

Hay una trampa técnica que conviene conocer: si el HTML inicial incluye noindex, JavaScript no puede eliminarlo después. Google puede saltar el renderizado al encontrar esa etiqueta — es una trampa de un solo sentido (Google, 2025).

Y ahora viene la parte que realmente importa: el problema con JavaScript no es React, Angular ni Vue en sí. Es el client-side rendering (CSR) — que el contenido se genere en el navegador del usuario, no en el servidor.

La solución es Next.js para React, Nuxt.js para Vue o Angular Universal. El SSR (Server-Side Rendering — generar el HTML en el servidor antes de enviarlo) ya no es opcional si buscas visibilidad en múltiples motores.

El estado «Discovered — not indexed» se ha convertido en el nuevo normal desde las actualizaciones de calidad de 2023-2024. John Mueller lo ha dicho: «es completamente normal que no indexemos todo; puede que indexemos solo 1/10 de un sitio web» (Onely, citando a Mueller). La indexación ya no es automática — es un resultado que hay que ganarse.

Una vez resueltos los problemas técnicos, el siguiente paso es optimizar tus páginas para Google en contenido y estructura on-page.

Crawl budget y Core Web Vitals — la verdad sin ruido

El crawl budget es, según Google, «el conjunto de URLs que Google puede y quiere rastrear» de tu sitio. Depende de dos factores: la capacidad de rastreo (velocidad del servidor) y la demanda de rastreo (cuánto le interesa tu contenido a Google) (Google Search Central, 2025).

Pero cuidado, porque hay un matiz importante aquí: Google dice explícitamente que la mayoría de sitios no necesita preocuparse por el crawl budget. Solo importa con más de 10.000 páginas con actualizaciones diarias o más de 1 millón de URLs. Para el 95% de sitios B2B, el problema real no es el presupuesto de rastreo sino la arquitectura de descubrimiento.

En cuanto a Core Web Vitals — LCP < 2,5s, INP < 200ms (reemplazó a FID el 12 de marzo de 2024), CLS < 0,1 —, solo el 62% de las páginas móviles pasan el umbral de LCP (Web Almanac, 2025). Pero la relación con la indexación es indirecta: opera a través de la eficiencia de rastreo y renderizado, no como un interruptor directo. No hay estudio primario que demuestre lo contrario.

Diagnosticar problemas es el primer paso. El segundo es saber dónde mirar.

Cómo verificar si tu web está indexada

Verificar si tu web está indexada requiere tres herramientas que funcionan en capas: URL Inspection para diagnóstico URL por URL, el Page Indexing report para una vista global del sitio, y el operador site: como verificación rápida externa. Ninguna de las tres es suficiente por sí sola.

Método Mejor para Límites
URL Inspection (GSC) Diagnóstico de 1 URL No detecta duplicados ni canonicals
Page Indexing report (GSC) Vista global del sitio 4 días de desfase
Operador site: Verificación rápida externa Aproximación — Mueller dice que «no es para diagnóstico»

El flujo de diagnóstico sigue 4 capas: (1) inspeccionar la URL concreta, (2) identificar si el problema es de rastreo, renderizado, canonical o calidad, (3) validar si es aislado o sistémico en el Page Indexing report, (4) cuantificar con un crawler externo como Screaming Frog.

Si llevas tiempo en SEO, esto te sonará: muchos «problemas de indexación» son en realidad problemas de descubrimiento. Los datos de Onely muestran que el 83% de las páginas se indexan en la primera semana, pero en sitios nuevos el proceso puede tardar hasta 8 semanas.

Los backlinks aceleran el descubrimiento: Google usa los enlaces para «encontrar nuevas páginas que rastrear». Para mejorar ese descubrimiento, conseguir enlaces de calidad sigue siendo una de las señales más fuertes. Pero no es la única vía: sitemaps, enlaces internos y envíos en Search Console también funcionan.

La recomendación de Mueller para la arquitectura interna lo resume: homepage → pillar → artículo. Si tu homepage no enlaza a tus pilares y estos a tus artículos, el problema no es de indexación — es de arquitectura.

Si solo te preocupas por Google, te estás quedando corto.

Indexación más allá de Google: IA y multi-motor

En 2026, la indexación ya no es una relación exclusiva con Google. Los motores de IA como ChatGPT, Claude y Perplexity construyen índices paralelos, y protocolos como IndexNow permiten notificar cambios a Bing, Yandex, Naver y otros motores en tiempo real. El mapa de la visibilidad orgánica se ha multiplicado.

IndexNow procesa 3.500 millones de URLs al día y es el estándar para la indexación instantánea fuera de Google (IndexNow, 2024). Lo usan LinkedIn, eBay y Amazon, con plugins nativos en Yoast, Rank Math, Wix y Shopify. Google no lo ha adoptado.

La implementación requiere 3 pasos: generar una API key, hospedar un archivo en la raíz del sitio y enviar un POST con las URLs modificadas. Un solo envío propaga a todos los motores participantes en 10 segundos.

Esto es justo lo que cambia la perspectiva: GPTBot (OpenAI) pasó del 5% al 30% del tráfico de rastreadores en un solo año (Cloudflare Radar, 2025). Si no abres tu robots.txt a GPTBot, ClaudeBot y PerplexityBot, tus contenidos no alimentan sus respuestas.

Los crawlers de IA hacen 3,6 veces más peticiones que los buscadores tradicionales (Search Engine Journal, 2026). El coste de ancho de banda es real, pero para una marca B2B que busca visibilidad en IA, el trade-off compensa.

Otro recurso emergente es el archivo llms.txt: una declaración para agentes de IA que OpenAI y Microsoft ya rastrean. Google dice que no es necesario, pero activarlo es una inversión de bajo coste.

En nuestros proyectos de SEO técnico y visibilidad en IA, la configuración técnica fue siempre el primer paso. Implementar schema FAQ genera un +28% de citaciones en resultados de IA (Relixir, 2025, 50 dominios B2B).

Los datos estructurados bien implementados también elevan el CTR un 20% en 30 días (SearchPilot, test A/B controlado).

El 96,3% de los españoles de 16-74 años usa internet, el 84,5% de las empresas medianas tiene web y el 21,1% ya utiliza IA — un salto de 8,7 puntos en un año (INE, 2025). Sin indexación, eres invisible para ese mercado.

Entender cómo funcionan las SERPs una vez indexado tu contenido completa el panorama.

La indexación no es un ajuste que haces una vez y olvidas. Es un pipeline dinámico que necesita auditoría y control técnico continuo. Cinco pasos que puedes dar esta semana:

  • Abre Google Search Console → Page Indexing report → identifica cuántas URLs tienes en «Discovered — not indexed»
  • Revisa tu robots.txt: ¿estás bloqueando sin querer URLs importantes?
  • Verifica que tu sitemap.xml incluye solo URLs canónicas con status 200
  • Si usas React, Vue o Angular: confirma que el contenido principal se renderiza del lado del servidor
  • Añade las directivas para AI crawlers (GPTBot, ClaudeBot, PerplexityBot) en tu robots.txt

En 5 proyectos de contenido web que hemos gestionado — con un total de 9,4 millones de clics orgánicos — la posición media pasó de páginas 2-3 a página 1 en todos los casos.

La indexación es donde empieza todo. Y en 2026, «todo» ya no es solo Google.

Preguntas frecuentes sobre indexación web

¿Qué es la indexación y para qué sirve?

La indexación web es el proceso por el cual Google almacena una copia de tu página en su base de datos. Sin ella, tu web no aparece en ningún resultado de búsqueda. Es el requisito previo de cualquier estrategia SEO o GEO: si no estás indexado, no existes para Google ni para los motores de IA.

¿Qué es indexar y dé un ejemplo?

Indexar una página web significa que Google la ha leído y almacenado en su índice. Ejemplo: publicas una URL, Googlebot la descubre, la rastrea, ejecuta el JavaScript, extrae el contenido, elige la versión canónica y la guarda. Desde ese momento, esa URL puede aparecer en resultados de búsqueda.

¿Indexación y posicionamiento son lo mismo?

No. La indexación es que Google registre tu página en su base de datos. El posicionamiento es que esa página aparezca arriba en los resultados para una búsqueda concreta. Puedes estar indexado y no aparecer para ninguna query relevante. La indexación es la primera puerta; el posicionamiento es la última.

¿Qué es el crawl budget y debería preocuparme?

El crawl budget es la cantidad de páginas que Google puede y quiere rastrear de tu web en un período determinado. Google dice que la mayoría de sitios no necesita preocuparse por él — solo importa si tienes más de 10.000 páginas con actualizaciones diarias o más de 1 millón de URLs.

¿Y tú qué opinas? ¡Déjanos aquí tus comentarios!

Suscríbete al Blog
Suscríbete por email y recibe además un pack de bienvenida con nuestros 5 mejores artículos