Problemas de indexación: detectar y corregir

¿Cómo ver qué páginas indexa Google y cuáles no?

La idea clave es no diagnosticar a ojo: necesitas comprobar qué URLs están realmente indexadas y cuáles quedan fuera por una causa concreta. Si tu web tiene 500 páginas y Search Console solo muestra una parte como indexada, el primer paso no es tocar robots.txt, sino exportar las URLs excluidas y cruzarlas con las páginas importantes. Yo empezaría por separar URLs transaccionales, contenidos informativos y páginas técnicas, porque cada grupo requiere una decisión distinta. Si además tu web directamente no aparece en los resultados, conviene revisar esta guía sobre Qué hacer cuando tu web no aparece en Google.

Comprobaciones rápidas antes de tocar la web

Una comprobación útil es buscar una URL concreta en Google con el operador site:, aunque no debe ser tu única referencia porque puede mostrar resultados incompletos o desordenados. También puedes usar la inspección de URLs de Google Search Console para ver si la página está indexada, cuál es la canonical seleccionada y cuándo fue rastreada por última vez. Cuando reviso un proyecto, no me quedo con una URL aislada: busco patrones por plantilla, directorio, tipo de contenido y profundidad de clic. Si todas las fichas de producto fallan, el problema suele estar en la plantilla o en la arquitectura.

El informe de Páginas de Search Console, explicado

El informe de indexación de Search Console es el mapa principal para detectar problemas de indexación, pero hay que leerlo con criterio. No basta con mirar el número total de páginas no indexadas, porque muchas exclusiones son intencionadas o irrelevantes. Si tu restaurante tiene páginas de filtros, parámetros de reserva o resultados internos, puede ser correcto que Google no las incluya. Yo revisaría primero los estados que afectan a URLs con intención de búsqueda: servicios, categorías, productos, artículos estratégicos y landings locales. Para profundizar, puedes apoyarte en esta guía sobre Cómo usar Google Search Console para encontrar lo que frena tu SEO.

Qué mirar dentro del informe

El informe agrupa las URLs por motivo de exclusión, y ahí está su valor. Una URL excluida por noindex no se arregla igual que una página rastreada sin indexar o una canonical alternativa. Si una sección completa aparece como “Duplicada: Google ha elegido una versión canónica diferente”, conviene revisar si la web está enviando señales contradictorias. Yo descargaría las muestras, ampliaría el análisis con un rastreador técnico y comprobaría si los patrones coinciden. La prioridad no es vaciar el informe, sino recuperar las páginas que deberían generar visibilidad, tráfico cualificado o soporte a la conversión.

URLs indexadas

Las URLs indexadas son las páginas que Google ha incorporado a su índice y puede mostrar en resultados, aunque eso no significa que estén posicionando bien. Una ficha de servicio puede estar indexada y, aun así, no recibir impresiones porque compite mal, tiene poco contenido o no responde a la intención de búsqueda. Yo usaría este grupo para validar qué tipos de página sí entran en el índice y qué señales tienen en común. Si las categorías principales se indexan y las subcategorías no, esa diferencia suele revelar un problema de enlazado, contenido o duplicidad.

URLs excluidas por una señal declarada

Cuando Search Console muestra exclusiones por noindex, robots.txt o redirección, suele haber una señal explícita que Google está respetando. Si una landing comercial tiene una etiqueta noindex heredada de un entorno de pruebas, Google puede rastrearla, pero no debería indexarla. Yo comprobaría el HTML renderizado, las cabeceras HTTP y las reglas del archivo robots.txt antes de cambiar nada. En estos casos, la corrección suele ser directa, pero debe validarse en todas las plantillas afectadas para evitar arreglar una página y dejar decenas con el mismo bloqueo.

URLs duplicadas o con canonical alternativa

Las URLs duplicadas aparecen cuando Google detecta contenido muy similar o señales canónicas que apuntan a otra página. Esto puede ocurrir con parámetros, versiones con barra final, filtros, paginaciones o páginas multiidioma mal configuradas. Si tu web trabaja varios idiomas o países, una configuración deficiente puede mezclar canonical y hreflang, por lo que conviene revisar también esta guía sobre Hreflang: cómo configurar una web en varios idiomas o países. Yo analizaría qué URL quieres posicionar y alinearía enlaces internos, sitemap, canonical y contenido hacia esa versión.

URLs descubiertas o rastreadas sin indexar

Los estados “detectada sin indexar” y “rastreada sin indexar” requieren más análisis porque no siempre se resuelven con una etiqueta. En el primer caso, Google conoce la URL, pero aún no la ha rastreado o no la considera prioritaria. En el segundo, ya la ha visitado y ha decidido no incorporarla al índice por el momento. Yo revisaría profundidad de clic, enlaces internos, calidad del contenido y similitud con otras páginas. Si muchas URLs valiosas caen en estos estados, el problema suele estar en la propuesta de valor o en cómo la web distribuye autoridad interna.

Causa: noindex y bloqueos en robots.txt

La causa más sencilla de entender es también una de las más frecuentes: la web envía una orden que impide la indexación o dificulta el rastreo. Si una página tiene noindex, Google puede interpretarla como una instrucción para no mostrarla en resultados. Si robots.txt bloquea una ruta crítica, Google puede tener problemas para acceder a recursos o confirmar señales. Yo revisaría estos bloqueos antes de entrar en debates de contenido, porque una etiqueta mal puesta puede inutilizar una página correcta. En una migración, por ejemplo, dejar reglas de preproducción activas puede afectar a directorios enteros.

Cómo detectar una etiqueta noindex

La etiqueta noindex puede aparecer en el HTML o en una cabecera HTTP, por lo que no basta con mirar visualmente la página. Puedes inspeccionar la URL en Search Console, revisar el código fuente y comprobar la respuesta del servidor. Si tu CMS permite marcar páginas como no indexables desde un plugin SEO, revisa también la configuración por tipo de contenido. Yo comprobaría una URL afectada y después rastrearía la plantilla completa, porque el error rara vez vive solo en una página. Cuando se retire el noindex, conviene reenviar la URL y esperar a que Google la procese.

Cómo revisar robots.txt sin bloquear lo importante

Robots.txt no elimina una página del índice por sí mismo, pero puede impedir que Google rastree URLs o recursos necesarios para interpretar la página. Si bloqueas una carpeta de productos, el buscador puede conocer esas URLs por enlaces externos o internos, pero no analizarlas correctamente. Yo revisaría las reglas Disallow, los patrones con comodines y las directivas heredadas de versiones antiguas. También comprobaría que el sitemap no incluya URLs que después se bloquean. Una configuración coherente ayuda a que Google dedique rastreo a páginas útiles y no pierda tiempo en rutas irrelevantes.

Causa: canónicas y contenido duplicado

Las etiquetas canonical sirven para indicar la versión preferida de una página, pero mal configuradas pueden sacar del índice URLs que sí deberían posicionar. Si una categoría apunta como canonical a otra muy parecida, Google puede excluirla aunque tenga valor comercial propio. Yo revisaría si la canonical es autorreferente en páginas estratégicas y si las variantes realmente deben consolidarse. En una tienda online, por ejemplo, los filtros pueden generar duplicados, pero una subcategoría con demanda de búsqueda necesita contenido propio y señales consistentes. La decisión no debe ser técnica solamente: depende de intención, demanda y arquitectura.

Canonical correcta frente a canonical contradictoria

Una canonical correcta refuerza una URL principal cuando existen versiones alternativas, como parámetros de ordenación o duplicados técnicos. Una canonical contradictoria aparece cuando el sitemap, los enlaces internos y la etiqueta canonical no apuntan a la misma versión. Si enlazas internamente a una URL, pero esa página declara como canonical otra distinta, estás enviando una señal confusa. Yo construiría una matriz con URL rastreable, URL en sitemap, canonical declarada y canonical seleccionada por Google. Cuando esas cuatro piezas coinciden, la indexación suele ser más limpia y las decisiones del buscador son más previsibles.

Contenido duplicado que sí merece consolidarse

No todo contenido parecido es un problema, pero las páginas casi idénticas diluyen señales y complican la selección de URLs. Si tienes varias landings locales con el mismo texto y solo cambia el nombre de la ciudad, Google puede considerar que no aportan suficiente diferencia. Yo decidiría si cada página merece existir por intención de búsqueda, contenido único y utilidad real. Cuando no la merece, consolidaría mediante canonical, redirección o mejora del enlazado hacia la versión principal. Cuando sí la merece, trabajaría pruebas de valor: información específica, preguntas locales, servicios diferenciados y datos que justifiquen su indexación.

Causa: 'rastreada/descubierta sin indexar' (problema de calidad)

Los estados “detectada sin indexar” y “rastreada sin indexar” suelen frustrar porque Google no siempre ofrece una causa exacta. La lectura práctica es clara: el buscador conoce la URL, pero todavía no la considera prioritaria o suficientemente valiosa para indexarla. Si publicas muchas páginas muy parecidas, con poco contenido o sin enlaces internos, es normal que algunas queden fuera. Yo no intentaría forzar la indexación una a una sin mejorar el patrón. Revisaría qué páginas merecen estar en el índice y cuáles solo consumen atención técnica sin aportar tráfico potencial.

Detectada sin indexar: Google conoce la URL, pero no la rastrea

“Detectada: actualmente sin indexar” indica que Google ha descubierto la URL, normalmente por sitemap o enlaces, pero todavía no la ha rastreado. Puede ocurrir en webs grandes, sitios con muchas URLs nuevas o arquitecturas donde las páginas importantes quedan demasiado profundas. Yo miraría si esas URLs reciben enlaces internos desde zonas relevantes y si aparecen en un sitemap limpio. También revisaría el Qué es el crawl budget y cuándo deberías preocuparte por él, especialmente cuando la web genera muchas rutas de bajo valor. La solución pasa por priorizar, no por multiplicar páginas.

Rastreada sin indexar: Google la visitó, pero no la eligió

“Rastreada: actualmente sin indexar” suele ser una señal más exigente, porque Google ya ha visto la página y ha decidido no incorporarla por ahora. Las causas habituales son contenido débil, duplicidad, falta de señales internas o baja utilidad frente a otras URLs similares. Si una guía tiene dos párrafos genéricos y compite con otras páginas mejor resueltas de tu propio sitio, puede quedarse fuera. Yo compararía las páginas afectadas con las indexadas del mismo tipo. Después reforzaría contenido, estructura, intención de búsqueda, enlaces internos y elementos diferenciales antes de solicitar una nueva indexación.

Plan paso a paso para recuperar páginas desindexadas

La recuperación de páginas desindexadas necesita método, porque actuar sin priorizar puede consumir tiempo en URLs que no deberían estar en Google. Si tu web muestra miles de páginas no indexadas, no empieces por el volumen total: empieza por las páginas con valor de negocio, demanda orgánica o papel estratégico en el embudo. Yo trabajaría en tres bloques: diagnóstico, corrección y validación. En proyectos donde el problema afecta a ingresos o captación, apoyarse en una agencia especializada en SEO puede acelerar el análisis técnico y reducir cambios innecesarios.

Metodología de recuperación

La metodología debe convertir un informe amplio en una lista de acciones verificables. Primero exporta los estados de Search Console y cruza las URLs con sitemap, rastreo interno, tráfico, impresiones y tipo de página. Después agrupa por causa: noindex, bloqueo, canonical, duplicado, descubierta sin indexar o rastreada sin indexar. Yo asignaría prioridad alta a páginas con intención comercial o potencial orgánico claro, prioridad media a contenidos de apoyo y prioridad baja a URLs técnicas. Así evitas medir el éxito por “más páginas indexadas” y lo centras en páginas que sí deberían estar visibles.

1. Audita las URLs que importan

Empieza creando un inventario de URLs relevantes y compáralo con el informe de Páginas. Incluye categorías, servicios, productos, artículos con búsquedas y páginas locales que formen parte de la estrategia. Si una URL crítica aparece excluida, inspecciónala individualmente y revisa la versión que Google considera canónica. Yo añadiría columnas para estado, causa probable, plantilla, profundidad, enlaces internos y acción recomendada. Esta tabla de trabajo permite detectar patrones rápidamente: por ejemplo, que todas las páginas de una familia heredan una canonical incorrecta o que las nuevas publicaciones quedan demasiado lejos de la home.

2. Corrige la causa, no solo el síntoma

Una vez detectado el estado, aplica la corrección que corresponde. Retira noindex solo cuando la página deba indexarse, ajusta robots.txt si bloquea rutas útiles, corrige canonical si apunta a una URL equivocada y mejora contenido cuando Google ya rastreó la página sin elegirla. Yo evitaría pedir indexación antes de arreglar el patrón, porque puedes conseguir una revisión sin resolver el problema real. Si varias páginas son débiles, quizá convenga fusionarlas, ampliarlas o eliminarlas del sitemap. La indexación sostenible depende de enviar señales coherentes y de ofrecer páginas que merezcan entrar en el índice.

3. Valida, solicita reindexación y mide

Después de corregir, valida la URL con la inspección de Search Console y solicita indexación en las páginas prioritarias. No esperes cambios inmediatos en todas las URLs, porque Google necesita rastrear, procesar y decidir. Yo mediría la evolución por grupos: páginas corregidas, páginas indexadas, impresiones recuperadas y estados que desaparecen del informe. También comprobaría que el sitemap solo incluya URLs indexables y que el enlazado interno refuerce las páginas trabajadas. Si el estado no cambia tras varios rastreos, volvería a revisar calidad, duplicidad y señales canónicas antes de insistir con nuevas solicitudes.

¿Cómo ver qué páginas indexa Google y cuáles no?

La idea clave es no diagnosticar a ojo: necesitas comprobar qué URLs están realmente indexadas y cuáles quedan fuera por una causa concreta. Si tu web tiene 500 páginas y Search Console solo muestra una parte como indexada, el primer paso no es tocar robots.txt, sino exportar las URLs excluidas y cruzarlas con las páginas importantes. Yo empezaría por separar URLs transaccionales, contenidos informativos y páginas técnicas, porque cada grupo requiere una decisión distinta. Si además tu web directamente no aparece en los resultados, conviene revisar esta guía sobre Qué hacer cuando tu web no aparece en Google.

Comprobaciones rápidas antes de tocar la web

Una comprobación útil es buscar una URL concreta en Google con el operador site:, aunque no debe ser tu única referencia porque puede mostrar resultados incompletos o desordenados. También puedes usar la inspección de URLs de Google Search Console para ver si la página está indexada, cuál es la canonical seleccionada y cuándo fue rastreada por última vez. Cuando reviso un proyecto, no me quedo con una URL aislada: busco patrones por plantilla, directorio, tipo de contenido y profundidad de clic. Si todas las fichas de producto fallan, el problema suele estar en la plantilla o en la arquitectura.

El informe de Páginas de Search Console, explicado

El informe de indexación de Search Console es el mapa principal para detectar problemas de indexación, pero hay que leerlo con criterio. No basta con mirar el número total de páginas no indexadas, porque muchas exclusiones son intencionadas o irrelevantes. Si tu restaurante tiene páginas de filtros, parámetros de reserva o resultados internos, puede ser correcto que Google no las incluya. Yo revisaría primero los estados que afectan a URLs con intención de búsqueda: servicios, categorías, productos, artículos estratégicos y landings locales. Para profundizar, puedes apoyarte en esta guía sobre Cómo usar Google Search Console para encontrar lo que frena tu SEO.

Qué mirar dentro del informe

El informe agrupa las URLs por motivo de exclusión, y ahí está su valor. Una URL excluida por noindex no se arregla igual que una página rastreada sin indexar o una canonical alternativa. Si una sección completa aparece como “Duplicada: Google ha elegido una versión canónica diferente”, conviene revisar si la web está enviando señales contradictorias. Yo descargaría las muestras, ampliaría el análisis con un rastreador técnico y comprobaría si los patrones coinciden. La prioridad no es vaciar el informe, sino recuperar las páginas que deberían generar visibilidad, tráfico cualificado o soporte a la conversión.

URLs indexadas

Las URLs indexadas son las páginas que Google ha incorporado a su índice y puede mostrar en resultados, aunque eso no significa que estén posicionando bien. Una ficha de servicio puede estar indexada y, aun así, no recibir impresiones porque compite mal, tiene poco contenido o no responde a la intención de búsqueda. Yo usaría este grupo para validar qué tipos de página sí entran en el índice y qué señales tienen en común. Si las categorías principales se indexan y las subcategorías no, esa diferencia suele revelar un problema de enlazado, contenido o duplicidad.

URLs excluidas por una señal declarada

Cuando Search Console muestra exclusiones por noindex, robots.txt o redirección, suele haber una señal explícita que Google está respetando. Si una landing comercial tiene una etiqueta noindex heredada de un entorno de pruebas, Google puede rastrearla, pero no debería indexarla. Yo comprobaría el HTML renderizado, las cabeceras HTTP y las reglas del archivo robots.txt antes de cambiar nada. En estos casos, la corrección suele ser directa, pero debe validarse en todas las plantillas afectadas para evitar arreglar una página y dejar decenas con el mismo bloqueo.

URLs duplicadas o con canonical alternativa

Las URLs duplicadas aparecen cuando Google detecta contenido muy similar o señales canónicas que apuntan a otra página. Esto puede ocurrir con parámetros, versiones con barra final, filtros, paginaciones o páginas multiidioma mal configuradas. Si tu web trabaja varios idiomas o países, una configuración deficiente puede mezclar canonical y hreflang, por lo que conviene revisar también esta guía sobre Hreflang: cómo configurar una web en varios idiomas o países. Yo analizaría qué URL quieres posicionar y alinearía enlaces internos, sitemap, canonical y contenido hacia esa versión.

URLs descubiertas o rastreadas sin indexar

Los estados “detectada sin indexar” y “rastreada sin indexar” requieren más análisis porque no siempre se resuelven con una etiqueta. En el primer caso, Google conoce la URL, pero aún no la ha rastreado o no la considera prioritaria. En el segundo, ya la ha visitado y ha decidido no incorporarla al índice por el momento. Yo revisaría profundidad de clic, enlaces internos, calidad del contenido y similitud con otras páginas. Si muchas URLs valiosas caen en estos estados, el problema suele estar en la propuesta de valor o en cómo la web distribuye autoridad interna.

Causa: noindex y bloqueos en robots.txt

La causa más sencilla de entender es también una de las más frecuentes: la web envía una orden que impide la indexación o dificulta el rastreo. Si una página tiene noindex, Google puede interpretarla como una instrucción para no mostrarla en resultados. Si robots.txt bloquea una ruta crítica, Google puede tener problemas para acceder a recursos o confirmar señales. Yo revisaría estos bloqueos antes de entrar en debates de contenido, porque una etiqueta mal puesta puede inutilizar una página correcta. En una migración, por ejemplo, dejar reglas de preproducción activas puede afectar a directorios enteros.

Cómo detectar una etiqueta noindex

La etiqueta noindex puede aparecer en el HTML o en una cabecera HTTP, por lo que no basta con mirar visualmente la página. Puedes inspeccionar la URL en Search Console, revisar el código fuente y comprobar la respuesta del servidor. Si tu CMS permite marcar páginas como no indexables desde un plugin SEO, revisa también la configuración por tipo de contenido. Yo comprobaría una URL afectada y después rastrearía la plantilla completa, porque el error rara vez vive solo en una página. Cuando se retire el noindex, conviene reenviar la URL y esperar a que Google la procese.

Cómo revisar robots.txt sin bloquear lo importante

Robots.txt no elimina una página del índice por sí mismo, pero puede impedir que Google rastree URLs o recursos necesarios para interpretar la página. Si bloqueas una carpeta de productos, el buscador puede conocer esas URLs por enlaces externos o internos, pero no analizarlas correctamente. Yo revisaría las reglas Disallow, los patrones con comodines y las directivas heredadas de versiones antiguas. También comprobaría que el sitemap no incluya URLs que después se bloquean. Una configuración coherente ayuda a que Google dedique rastreo a páginas útiles y no pierda tiempo en rutas irrelevantes.

Causa: canónicas y contenido duplicado

Las etiquetas canonical sirven para indicar la versión preferida de una página, pero mal configuradas pueden sacar del índice URLs que sí deberían posicionar. Si una categoría apunta como canonical a otra muy parecida, Google puede excluirla aunque tenga valor comercial propio. Yo revisaría si la canonical es autorreferente en páginas estratégicas y si las variantes realmente deben consolidarse. En una tienda online, por ejemplo, los filtros pueden generar duplicados, pero una subcategoría con demanda de búsqueda necesita contenido propio y señales consistentes. La decisión no debe ser técnica solamente: depende de intención, demanda y arquitectura.

Canonical correcta frente a canonical contradictoria

Una canonical correcta refuerza una URL principal cuando existen versiones alternativas, como parámetros de ordenación o duplicados técnicos. Una canonical contradictoria aparece cuando el sitemap, los enlaces internos y la etiqueta canonical no apuntan a la misma versión. Si enlazas internamente a una URL, pero esa página declara como canonical otra distinta, estás enviando una señal confusa. Yo construiría una matriz con URL rastreable, URL en sitemap, canonical declarada y canonical seleccionada por Google. Cuando esas cuatro piezas coinciden, la indexación suele ser más limpia y las decisiones del buscador son más previsibles.

Contenido duplicado que sí merece consolidarse

No todo contenido parecido es un problema, pero las páginas casi idénticas diluyen señales y complican la selección de URLs. Si tienes varias landings locales con el mismo texto y solo cambia el nombre de la ciudad, Google puede considerar que no aportan suficiente diferencia. Yo decidiría si cada página merece existir por intención de búsqueda, contenido único y utilidad real. Cuando no la merece, consolidaría mediante canonical, redirección o mejora del enlazado hacia la versión principal. Cuando sí la merece, trabajaría pruebas de valor: información específica, preguntas locales, servicios diferenciados y datos que justifiquen su indexación.

Causa: 'rastreada/descubierta sin indexar' (problema de calidad)

Los estados “detectada sin indexar” y “rastreada sin indexar” suelen frustrar porque Google no siempre ofrece una causa exacta. La lectura práctica es clara: el buscador conoce la URL, pero todavía no la considera prioritaria o suficientemente valiosa para indexarla. Si publicas muchas páginas muy parecidas, con poco contenido o sin enlaces internos, es normal que algunas queden fuera. Yo no intentaría forzar la indexación una a una sin mejorar el patrón. Revisaría qué páginas merecen estar en el índice y cuáles solo consumen atención técnica sin aportar tráfico potencial.

Detectada sin indexar: Google conoce la URL, pero no la rastrea

“Detectada: actualmente sin indexar” indica que Google ha descubierto la URL, normalmente por sitemap o enlaces, pero todavía no la ha rastreado. Puede ocurrir en webs grandes, sitios con muchas URLs nuevas o arquitecturas donde las páginas importantes quedan demasiado profundas. Yo miraría si esas URLs reciben enlaces internos desde zonas relevantes y si aparecen en un sitemap limpio. También revisaría el Qué es el crawl budget y cuándo deberías preocuparte por él, especialmente cuando la web genera muchas rutas de bajo valor. La solución pasa por priorizar, no por multiplicar páginas.

Rastreada sin indexar: Google la visitó, pero no la eligió

“Rastreada: actualmente sin indexar” suele ser una señal más exigente, porque Google ya ha visto la página y ha decidido no incorporarla por ahora. Las causas habituales son contenido débil, duplicidad, falta de señales internas o baja utilidad frente a otras URLs similares. Si una guía tiene dos párrafos genéricos y compite con otras páginas mejor resueltas de tu propio sitio, puede quedarse fuera. Yo compararía las páginas afectadas con las indexadas del mismo tipo. Después reforzaría contenido, estructura, intención de búsqueda, enlaces internos y elementos diferenciales antes de solicitar una nueva indexación.

Plan paso a paso para recuperar páginas desindexadas

La recuperación de páginas desindexadas necesita método, porque actuar sin priorizar puede consumir tiempo en URLs que no deberían estar en Google. Si tu web muestra miles de páginas no indexadas, no empieces por el volumen total: empieza por las páginas con valor de negocio, demanda orgánica o papel estratégico en el embudo. Yo trabajaría en tres bloques: diagnóstico, corrección y validación. En proyectos donde el problema afecta a ingresos o captación, apoyarse en una agencia especializada en SEO puede acelerar el análisis técnico y reducir cambios innecesarios.

Metodología de recuperación

La metodología debe convertir un informe amplio en una lista de acciones verificables. Primero exporta los estados de Search Console y cruza las URLs con sitemap, rastreo interno, tráfico, impresiones y tipo de página. Después agrupa por causa: noindex, bloqueo, canonical, duplicado, descubierta sin indexar o rastreada sin indexar. Yo asignaría prioridad alta a páginas con intención comercial o potencial orgánico claro, prioridad media a contenidos de apoyo y prioridad baja a URLs técnicas. Así evitas medir el éxito por “más páginas indexadas” y lo centras en páginas que sí deberían estar visibles.

1. Audita las URLs que importan

Empieza creando un inventario de URLs relevantes y compáralo con el informe de Páginas. Incluye categorías, servicios, productos, artículos con búsquedas y páginas locales que formen parte de la estrategia. Si una URL crítica aparece excluida, inspecciónala individualmente y revisa la versión que Google considera canónica. Yo añadiría columnas para estado, causa probable, plantilla, profundidad, enlaces internos y acción recomendada. Esta tabla de trabajo permite detectar patrones rápidamente: por ejemplo, que todas las páginas de una familia heredan una canonical incorrecta o que las nuevas publicaciones quedan demasiado lejos de la home.

2. Corrige la causa, no solo el síntoma

Una vez detectado el estado, aplica la corrección que corresponde. Retira noindex solo cuando la página deba indexarse, ajusta robots.txt si bloquea rutas útiles, corrige canonical si apunta a una URL equivocada y mejora contenido cuando Google ya rastreó la página sin elegirla. Yo evitaría pedir indexación antes de arreglar el patrón, porque puedes conseguir una revisión sin resolver el problema real. Si varias páginas son débiles, quizá convenga fusionarlas, ampliarlas o eliminarlas del sitemap. La indexación sostenible depende de enviar señales coherentes y de ofrecer páginas que merezcan entrar en el índice.

3. Valida, solicita reindexación y mide

Después de corregir, valida la URL con la inspección de Search Console y solicita indexación en las páginas prioritarias. No esperes cambios inmediatos en todas las URLs, porque Google necesita rastrear, procesar y decidir. Yo mediría la evolución por grupos: páginas corregidas, páginas indexadas, impresiones recuperadas y estados que desaparecen del informe. También comprobaría que el sitemap solo incluya URLs indexables y que el enlazado interno refuerce las páginas trabajadas. Si el estado no cambia tras varios rastreos, volvería a revisar calidad, duplicidad y señales canónicas antes de insistir con nuevas solicitudes.

Datos técnicos y señales que afectan al rastreo e indexación

Los estados de Google Search Console deben interpretarse como señales de diagnóstico, no como una lista automática de errores. Una página con noindex puede estar correctamente excluida, mientras que una página rastreada sin indexar puede necesitar mejoras de contenido, enlaces internos o diferenciación frente a duplicados. Yo usaría esta sección como checklist técnico: validar acceso, directivas, canonical, sitemap, calidad y prioridad de rastreo. Si una URL importante falla en más de una señal, corrige primero la contradicción más fuerte. Por ejemplo, no tiene sentido ampliar contenido si la propia página declara noindex o apunta como canonical a otra URL.

Los estados de Google Search Console deben interpretarse como señales de diagnóstico, no como una lista automática de errores. Una página con noindex puede estar correctamente excluida, mientras que una página rastreada sin indexar puede necesitar mejoras de contenido, enlaces internos o diferenciación frente a duplicados. Yo usaría esta sección como checklist técnico: validar acceso, directivas, canonical, sitemap, calidad y prioridad de rastreo. Si una URL importante falla en más de una señal, corrige primero la contradicción más fuerte. Por ejemplo, no tiene sentido ampliar contenido si la propia página declara noindex o apunta como canonical a otra URL.

Estado o señal	Qué significa	Qué revisaría primero
Noindex	Google recibe una instrucción para no incluir la página en el índice.	Meta robots, cabeceras HTTP y configuración del CMS.
Bloqueada por robots.txt	Google puede tener limitado el acceso al rastreo de una ruta o recurso.	Reglas Disallow, sitemap y rutas críticas afectadas.
Canonical alternativa	La página declara o Google elige otra URL como versión principal.	Canonical declarada, enlaces internos y URL incluida en sitemap.
Detectada sin indexar	Google conoce la URL, pero todavía no la ha rastreado o priorizado.	Enlazado interno, profundidad, sitemap y volumen de URLs nuevas.
Rastreada sin indexar	Google visitó la URL, pero decidió no incorporarla al índice por ahora.	Calidad, duplicidad, intención de búsqueda y señales internas.

¿Cómo ver qué páginas indexa Google y cuáles no?

La idea clave es no diagnosticar a ojo: necesitas comprobar qué URLs están realmente indexadas y cuáles quedan fuera por una causa concreta. Si tu web tiene 500 páginas y Search Console solo muestra una parte como indexada, el primer paso no es tocar robots.txt, sino exportar las URLs excluidas y cruzarlas con las páginas importantes. Yo empezaría por separar URLs transaccionales, contenidos informativos y páginas técnicas, porque cada grupo requiere una decisión distinta. Si además tu web directamente no aparece en los resultados, conviene revisar esta guía sobre Qué hacer cuando tu web no aparece en Google.

Comprobaciones rápidas antes de tocar la web

Una comprobación útil es buscar una URL concreta en Google con el operador site:, aunque no debe ser tu única referencia porque puede mostrar resultados incompletos o desordenados. También puedes usar la inspección de URLs de Google Search Console para ver si la página está indexada, cuál es la canonical seleccionada y cuándo fue rastreada por última vez. Cuando reviso un proyecto, no me quedo con una URL aislada: busco patrones por plantilla, directorio, tipo de contenido y profundidad de clic. Si todas las fichas de producto fallan, el problema suele estar en la plantilla o en la arquitectura.

El informe de Páginas de Search Console, explicado

El informe de indexación de Search Console es el mapa principal para detectar problemas de indexación, pero hay que leerlo con criterio. No basta con mirar el número total de páginas no indexadas, porque muchas exclusiones son intencionadas o irrelevantes. Si tu restaurante tiene páginas de filtros, parámetros de reserva o resultados internos, puede ser correcto que Google no las incluya. Yo revisaría primero los estados que afectan a URLs con intención de búsqueda: servicios, categorías, productos, artículos estratégicos y landings locales. Para profundizar, puedes apoyarte en esta guía sobre Cómo usar Google Search Console para encontrar lo que frena tu SEO.

Qué mirar dentro del informe

El informe agrupa las URLs por motivo de exclusión, y ahí está su valor. Una URL excluida por noindex no se arregla igual que una página rastreada sin indexar o una canonical alternativa. Si una sección completa aparece como “Duplicada: Google ha elegido una versión canónica diferente”, conviene revisar si la web está enviando señales contradictorias. Yo descargaría las muestras, ampliaría el análisis con un rastreador técnico y comprobaría si los patrones coinciden. La prioridad no es vaciar el informe, sino recuperar las páginas que deberían generar visibilidad, tráfico cualificado o soporte a la conversión.

URLs indexadas

Las URLs indexadas son las páginas que Google ha incorporado a su índice y puede mostrar en resultados, aunque eso no significa que estén posicionando bien. Una ficha de servicio puede estar indexada y, aun así, no recibir impresiones porque compite mal, tiene poco contenido o no responde a la intención de búsqueda. Yo usaría este grupo para validar qué tipos de página sí entran en el índice y qué señales tienen en común. Si las categorías principales se indexan y las subcategorías no, esa diferencia suele revelar un problema de enlazado, contenido o duplicidad.

URLs excluidas por una señal declarada

Cuando Search Console muestra exclusiones por noindex, robots.txt o redirección, suele haber una señal explícita que Google está respetando. Si una landing comercial tiene una etiqueta noindex heredada de un entorno de pruebas, Google puede rastrearla, pero no debería indexarla. Yo comprobaría el HTML renderizado, las cabeceras HTTP y las reglas del archivo robots.txt antes de cambiar nada. En estos casos, la corrección suele ser directa, pero debe validarse en todas las plantillas afectadas para evitar arreglar una página y dejar decenas con el mismo bloqueo.

URLs duplicadas o con canonical alternativa

Las URLs duplicadas aparecen cuando Google detecta contenido muy similar o señales canónicas que apuntan a otra página. Esto puede ocurrir con parámetros, versiones con barra final, filtros, paginaciones o páginas multiidioma mal configuradas. Si tu web trabaja varios idiomas o países, una configuración deficiente puede mezclar canonical y hreflang, por lo que conviene revisar también esta guía sobre Hreflang: cómo configurar una web en varios idiomas o países. Yo analizaría qué URL quieres posicionar y alinearía enlaces internos, sitemap, canonical y contenido hacia esa versión.

URLs descubiertas o rastreadas sin indexar

Los estados “detectada sin indexar” y “rastreada sin indexar” requieren más análisis porque no siempre se resuelven con una etiqueta. En el primer caso, Google conoce la URL, pero aún no la ha rastreado o no la considera prioritaria. En el segundo, ya la ha visitado y ha decidido no incorporarla al índice por el momento. Yo revisaría profundidad de clic, enlaces internos, calidad del contenido y similitud con otras páginas. Si muchas URLs valiosas caen en estos estados, el problema suele estar en la propuesta de valor o en cómo la web distribuye autoridad interna.

Causa: noindex y bloqueos en robots.txt

La causa más sencilla de entender es también una de las más frecuentes: la web envía una orden que impide la indexación o dificulta el rastreo. Si una página tiene noindex, Google puede interpretarla como una instrucción para no mostrarla en resultados. Si robots.txt bloquea una ruta crítica, Google puede tener problemas para acceder a recursos o confirmar señales. Yo revisaría estos bloqueos antes de entrar en debates de contenido, porque una etiqueta mal puesta puede inutilizar una página correcta. En una migración, por ejemplo, dejar reglas de preproducción activas puede afectar a directorios enteros.

Cómo detectar una etiqueta noindex

La etiqueta noindex puede aparecer en el HTML o en una cabecera HTTP, por lo que no basta con mirar visualmente la página. Puedes inspeccionar la URL en Search Console, revisar el código fuente y comprobar la respuesta del servidor. Si tu CMS permite marcar páginas como no indexables desde un plugin SEO, revisa también la configuración por tipo de contenido. Yo comprobaría una URL afectada y después rastrearía la plantilla completa, porque el error rara vez vive solo en una página. Cuando se retire el noindex, conviene reenviar la URL y esperar a que Google la procese.

Cómo revisar robots.txt sin bloquear lo importante

Robots.txt no elimina una página del índice por sí mismo, pero puede impedir que Google rastree URLs o recursos necesarios para interpretar la página. Si bloqueas una carpeta de productos, el buscador puede conocer esas URLs por enlaces externos o internos, pero no analizarlas correctamente. Yo revisaría las reglas Disallow, los patrones con comodines y las directivas heredadas de versiones antiguas. También comprobaría que el sitemap no incluya URLs que después se bloquean. Una configuración coherente ayuda a que Google dedique rastreo a páginas útiles y no pierda tiempo en rutas irrelevantes.

Causa: canónicas y contenido duplicado

Las etiquetas canonical sirven para indicar la versión preferida de una página, pero mal configuradas pueden sacar del índice URLs que sí deberían posicionar. Si una categoría apunta como canonical a otra muy parecida, Google puede excluirla aunque tenga valor comercial propio. Yo revisaría si la canonical es autorreferente en páginas estratégicas y si las variantes realmente deben consolidarse. En una tienda online, por ejemplo, los filtros pueden generar duplicados, pero una subcategoría con demanda de búsqueda necesita contenido propio y señales consistentes. La decisión no debe ser técnica solamente: depende de intención, demanda y arquitectura.

Canonical correcta frente a canonical contradictoria

Una canonical correcta refuerza una URL principal cuando existen versiones alternativas, como parámetros de ordenación o duplicados técnicos. Una canonical contradictoria aparece cuando el sitemap, los enlaces internos y la etiqueta canonical no apuntan a la misma versión. Si enlazas internamente a una URL, pero esa página declara como canonical otra distinta, estás enviando una señal confusa. Yo construiría una matriz con URL rastreable, URL en sitemap, canonical declarada y canonical seleccionada por Google. Cuando esas cuatro piezas coinciden, la indexación suele ser más limpia y las decisiones del buscador son más previsibles.

Contenido duplicado que sí merece consolidarse

No todo contenido parecido es un problema, pero las páginas casi idénticas diluyen señales y complican la selección de URLs. Si tienes varias landings locales con el mismo texto y solo cambia el nombre de la ciudad, Google puede considerar que no aportan suficiente diferencia. Yo decidiría si cada página merece existir por intención de búsqueda, contenido único y utilidad real. Cuando no la merece, consolidaría mediante canonical, redirección o mejora del enlazado hacia la versión principal. Cuando sí la merece, trabajaría pruebas de valor: información específica, preguntas locales, servicios diferenciados y datos que justifiquen su indexación.

Causa: 'rastreada/descubierta sin indexar' (problema de calidad)

Los estados “detectada sin indexar” y “rastreada sin indexar” suelen frustrar porque Google no siempre ofrece una causa exacta. La lectura práctica es clara: el buscador conoce la URL, pero todavía no la considera prioritaria o suficientemente valiosa para indexarla. Si publicas muchas páginas muy parecidas, con poco contenido o sin enlaces internos, es normal que algunas queden fuera. Yo no intentaría forzar la indexación una a una sin mejorar el patrón. Revisaría qué páginas merecen estar en el índice y cuáles solo consumen atención técnica sin aportar tráfico potencial.

Detectada sin indexar: Google conoce la URL, pero no la rastrea

“Detectada: actualmente sin indexar” indica que Google ha descubierto la URL, normalmente por sitemap o enlaces, pero todavía no la ha rastreado. Puede ocurrir en webs grandes, sitios con muchas URLs nuevas o arquitecturas donde las páginas importantes quedan demasiado profundas. Yo miraría si esas URLs reciben enlaces internos desde zonas relevantes y si aparecen en un sitemap limpio. También revisaría el Qué es el crawl budget y cuándo deberías preocuparte por él, especialmente cuando la web genera muchas rutas de bajo valor. La solución pasa por priorizar, no por multiplicar páginas.

Rastreada sin indexar: Google la visitó, pero no la eligió

“Rastreada: actualmente sin indexar” suele ser una señal más exigente, porque Google ya ha visto la página y ha decidido no incorporarla por ahora. Las causas habituales son contenido débil, duplicidad, falta de señales internas o baja utilidad frente a otras URLs similares. Si una guía tiene dos párrafos genéricos y compite con otras páginas mejor resueltas de tu propio sitio, puede quedarse fuera. Yo compararía las páginas afectadas con las indexadas del mismo tipo. Después reforzaría contenido, estructura, intención de búsqueda, enlaces internos y elementos diferenciales antes de solicitar una nueva indexación.

Plan paso a paso para recuperar páginas desindexadas

La recuperación de páginas desindexadas necesita método, porque actuar sin priorizar puede consumir tiempo en URLs que no deberían estar en Google. Si tu web muestra miles de páginas no indexadas, no empieces por el volumen total: empieza por las páginas con valor de negocio, demanda orgánica o papel estratégico en el embudo. Yo trabajaría en tres bloques: diagnóstico, corrección y validación. En proyectos donde el problema afecta a ingresos o captación, apoyarse en una agencia especializada en SEO puede acelerar el análisis técnico y reducir cambios innecesarios.

Metodología de recuperación

La metodología debe convertir un informe amplio en una lista de acciones verificables. Primero exporta los estados de Search Console y cruza las URLs con sitemap, rastreo interno, tráfico, impresiones y tipo de página. Después agrupa por causa: noindex, bloqueo, canonical, duplicado, descubierta sin indexar o rastreada sin indexar. Yo asignaría prioridad alta a páginas con intención comercial o potencial orgánico claro, prioridad media a contenidos de apoyo y prioridad baja a URLs técnicas. Así evitas medir el éxito por “más páginas indexadas” y lo centras en páginas que sí deberían estar visibles.

1. Audita las URLs que importan

Empieza creando un inventario de URLs relevantes y compáralo con el informe de Páginas. Incluye categorías, servicios, productos, artículos con búsquedas y páginas locales que formen parte de la estrategia. Si una URL crítica aparece excluida, inspecciónala individualmente y revisa la versión que Google considera canónica. Yo añadiría columnas para estado, causa probable, plantilla, profundidad, enlaces internos y acción recomendada. Esta tabla de trabajo permite detectar patrones rápidamente: por ejemplo, que todas las páginas de una familia heredan una canonical incorrecta o que las nuevas publicaciones quedan demasiado lejos de la home.

2. Corrige la causa, no solo el síntoma

Una vez detectado el estado, aplica la corrección que corresponde. Retira noindex solo cuando la página deba indexarse, ajusta robots.txt si bloquea rutas útiles, corrige canonical si apunta a una URL equivocada y mejora contenido cuando Google ya rastreó la página sin elegirla. Yo evitaría pedir indexación antes de arreglar el patrón, porque puedes conseguir una revisión sin resolver el problema real. Si varias páginas son débiles, quizá convenga fusionarlas, ampliarlas o eliminarlas del sitemap. La indexación sostenible depende de enviar señales coherentes y de ofrecer páginas que merezcan entrar en el índice.

3. Valida, solicita reindexación y mide

Después de corregir, valida la URL con la inspección de Search Console y solicita indexación en las páginas prioritarias. No esperes cambios inmediatos en todas las URLs, porque Google necesita rastrear, procesar y decidir. Yo mediría la evolución por grupos: páginas corregidas, páginas indexadas, impresiones recuperadas y estados que desaparecen del informe. También comprobaría que el sitemap solo incluya URLs indexables y que el enlazado interno refuerce las páginas trabajadas. Si el estado no cambia tras varios rastreos, volvería a revisar calidad, duplicidad y señales canónicas antes de insistir con nuevas solicitudes.

Conclusión

Preguntas frecuentes sobre problemas de indexación: detectar y corregir

¿Qué significa 'Detectada: actualmente sin indexar' en Search Console?

Significa que Google conoce la URL, normalmente porque aparece en un sitemap o porque la ha encontrado mediante enlaces, pero todavía no la ha rastreado o no la ha priorizado. No implica necesariamente un error grave, aunque sí conviene revisarlo si afecta a páginas importantes. Comprueba si la URL está bien enlazada internamente, si aparece en un sitemap limpio y si no forma parte de un conjunto masivo de páginas poco útiles. Si la página tiene valor, mejora sus señales internas y solicita inspección cuando esté lista.

¿Por qué Google indexa unas páginas y otras no?

Google decide qué páginas incorpora a su índice en función de acceso, señales técnicas, duplicidad, calidad y relevancia. Puede indexar una categoría principal y dejar fuera variantes muy parecidas, páginas con poco contenido o URLs mal enlazadas. También puede excluir páginas con noindex, canonical hacia otra URL o bloqueos de rastreo. Lo importante es analizar el estado concreto en Search Console y no asumir que todas las páginas deben indexarse. Una web sana suele tener páginas excluidas de forma intencionada y páginas prioritarias correctamente indexadas.

¿El contenido duplicado interno frena la indexación?

Sí, puede frenarla cuando varias URLs ofrecen contenido muy similar y Google no ve una razón clara para indexarlas todas. En ese caso, el buscador puede elegir una versión canónica distinta, excluir variantes o dejar páginas rastreadas sin indexar. Ocurre a menudo con filtros, parámetros, landings repetidas, paginaciones o fichas muy parecidas. La solución depende del caso: consolidar con canonical, redirigir, mejorar el contenido diferencial o retirar URLs del sitemap. La clave es que cada página indexable tenga una intención clara y valor propio.

¿Cuánto tarda Google en reindexar tras un arreglo?

No hay un plazo fijo, porque depende de la frecuencia de rastreo de la web, la importancia de la URL, el enlazado interno y la claridad de la corrección. Una página muy enlazada puede revisarse antes que una URL profunda o aislada. Tras corregir noindex, canonical, robots.txt o contenido, conviene validar la URL en Search Console y solicitar indexación en las páginas prioritarias. Después hay que monitorizar el informe de Páginas y comprobar si cambia el estado. Si no cambia, revisa de nuevo calidad, duplicidad y señales internas.

Problemas de indexación: detectar y corregir

Problemas de indexación: detectar y corregir

¿Cómo ver qué páginas indexa Google y cuáles no?

Comprobaciones rápidas antes de tocar la web

El informe de Páginas de Search Console, explicado

Qué mirar dentro del informe

URLs indexadas

URLs excluidas por una señal declarada

URLs duplicadas o con canonical alternativa

URLs descubiertas o rastreadas sin indexar

Causa: noindex y bloqueos en robots.txt

Cómo detectar una etiqueta noindex

Cómo revisar robots.txt sin bloquear lo importante

Causa: canónicas y contenido duplicado

Canonical correcta frente a canonical contradictoria

Contenido duplicado que sí merece consolidarse

Causa: 'rastreada/descubierta sin indexar' (problema de calidad)

Detectada sin indexar: Google conoce la URL, pero no la rastrea

Rastreada sin indexar: Google la visitó, pero no la eligió

Plan paso a paso para recuperar páginas desindexadas

Metodología de recuperación

1. Audita las URLs que importan

2. Corrige la causa, no solo el síntoma

3. Valida, solicita reindexación y mide

¿Cómo ver qué páginas indexa Google y cuáles no?

Comprobaciones rápidas antes de tocar la web

El informe de Páginas de Search Console, explicado

Qué mirar dentro del informe

URLs indexadas

URLs excluidas por una señal declarada

URLs duplicadas o con canonical alternativa

URLs descubiertas o rastreadas sin indexar

Causa: noindex y bloqueos en robots.txt

Cómo detectar una etiqueta noindex

Cómo revisar robots.txt sin bloquear lo importante

Causa: canónicas y contenido duplicado

Canonical correcta frente a canonical contradictoria

Contenido duplicado que sí merece consolidarse

Causa: 'rastreada/descubierta sin indexar' (problema de calidad)

Detectada sin indexar: Google conoce la URL, pero no la rastrea

Rastreada sin indexar: Google la visitó, pero no la eligió

Plan paso a paso para recuperar páginas desindexadas

Metodología de recuperación

1. Audita las URLs que importan

2. Corrige la causa, no solo el síntoma

3. Valida, solicita reindexación y mide

Datos técnicos y señales que afectan al rastreo e indexación

Datos técnicos y señales que afectan al rastreo e indexación

¿Cómo ver qué páginas indexa Google y cuáles no?

Comprobaciones rápidas antes de tocar la web

El informe de Páginas de Search Console, explicado

Qué mirar dentro del informe

URLs indexadas

URLs excluidas por una señal declarada

URLs duplicadas o con canonical alternativa

URLs descubiertas o rastreadas sin indexar

Causa: noindex y bloqueos en robots.txt

Cómo detectar una etiqueta noindex

Cómo revisar robots.txt sin bloquear lo importante

Causa: canónicas y contenido duplicado

Canonical correcta frente a canonical contradictoria

Contenido duplicado que sí merece consolidarse

Causa: 'rastreada/descubierta sin indexar' (problema de calidad)

Detectada sin indexar: Google conoce la URL, pero no la rastrea

Rastreada sin indexar: Google la visitó, pero no la eligió

Plan paso a paso para recuperar páginas desindexadas

Metodología de recuperación

1. Audita las URLs que importan

2. Corrige la causa, no solo el síntoma

3. Valida, solicita reindexación y mide

Conclusión

Conclusión

Preguntas frecuentes sobre problemas de indexación: detectar y corregir

Preguntas frecuentes sobre problemas de indexación: detectar y corregir

¿Qué significa 'Detectada: actualmente sin indexar' en Search Console?

¿Por qué Google indexa unas páginas y otras no?

¿El contenido duplicado interno frena la indexación?

¿Cuánto tarda Google en reindexar tras un arreglo?

Listo para tu proximo proyecto

LLamada de 15 minutos