¿Cómo funciona el motor de búsqueda de Google: rastreo, indexación y clasificación?

Aprende cómo funciona el motor de búsqueda de Google. Cómo encuentra, rastrea y clasifica las mil millones de páginas web que existen para ofrecerle los resultados que ve cuando busca en Google.

Aunque los detalles del proceso son bastante complejos, conocer los conceptos básicos (no técnicos) de rastreo, indexación y clasificación puede ayudarle a comprender mejor los métodos que hay detrás de una estrategia de optimización SEO para los motores de búsqueda.

Una tarea compleja

Google dice conocer más de 130 mil millones de páginas en la web. En realidad, es probablemente mucho más que ese número. Hay muchas páginas que Google mantiene fuera del proceso de rastreo, indexación y clasificación por varios motivos.

Para mantener los resultados más relevantes para los usuarios, el motor de búsqueda de Google tiene un proceso bien definido que identifica cuales son las mejores páginas web para cada tipo búsqueda.

Este proceso va evolucionando, ya que trabaja para mejorar aún más los resultados de búsqueda.

¿Cómo funcionan los resultados de búsqueda de Google?

Este proceso implica los siguientes pasos:

  1. Rastreo web: seguir los enlaces para descubrir las páginas más importantes de la web.
  2. Indexación web: almacenar la información de todas las páginas recuperadas para su posterior recuperación.
  3. Clasificación web: determinar de qué trata cada página y cómo debe clasificarse para las consultas relevantes.

indexacion web

Rastrear webs

Los motores de búsqueda tienen rastreadores que «rastrean» la World Wide Web para descubrir las páginas que existen, con el fin de ayudar a identificar cuales son las mejores páginas web para evaluar en caso de consulta.

Los rastreadores webs se desplazan a través de los enlaces a sitios web que encuentran.

Estos enlaces de sitios web unen las páginas de un mismo sitio web y de toda la web, creando un camino para que los rastreadores lleguen a las mil millones de páginas web interconectadas que existen.

Cada vez que los rastreadores miran una página web, lo hacen a través del «Modelo de Objetos del Documento» (o «DOM») de la página para ver lo que hay en ella.

El DOM es la representación del código HTML y Javascript de la página que los rastreadores buscan para encontrar enlaces a otras páginas. Esto permite que el motor de búsqueda descubra nuevas páginas en la web y que cada uno de los nuevos enlaces que encuentren se agreguen a una cola que el rastreador visitará más adelante.

Rastrear una web entera todos los días sería demasiado trabajo. Por esta razón, lo que Google hace normalmente es extender su rastreo durante varias semanas. Además, el motor de búsqueda de Google no rastrea todas y cada una de las páginas web que existen.

Los rastreadores de webs comienzan por sitios web que sean seguros y que servirán de referencia a la hora de comparar los demás sitios web. Los rastreadores expanden su rastreo a través de la web al seguir los enlaces que encuentran en las páginas que visitan.

Indexar una web en Google

La indexación es el acto de agregar información sobre una página web al índice de un motor de búsqueda. El índice es una colección de páginas web, una base de datos, que incluye información de las páginas rastreadas por los motores de búsqueda.

indexar una web en google

El índice cataloga y organiza, entre otros:

  • Datos detallados sobre la naturaleza del contenido y la relevancia de cada página web.
  • Un mapa de todas las páginas a las que se vincula cada página.
  • El hipervínculo (enlaces ancla) de cualquier enlace.
  • Otra información sobre los enlaces: si son o no anuncios, dónde se encuentran en la página, aspectos del contexto del enlace y lo que eso implica sobre la página que recibe el enlace.

El índice de contenido es la base de datos con la que los motores de búsqueda como Google almacenan y recuperan datos cuando un usuario consulta en el motor de búsqueda.

Antes de decidir qué páginas web mostrar del índice y en qué orden, los motores de búsqueda aplican algoritmos para ayudar a clasificar esas páginas web.

Clasificación de los resultados

Con el fin de proporcionar resultados al usuario del motor de búsqueda, estos deben llevar a cabo tres pasos esenciales:

  1. Interpretar la intención de la consulta del usuario.
  2. Identificar las páginas web en el índice relacionado con la consulta.
  3. Clasificar y devolver esas páginas web por orden de relevancia e importancia.

Esta es una de las áreas principales en las que interviene la optimización de motores de búsqueda.

El posicionamiento SEO efectivo ayuda a determinar la relevancia e importancia de esas páginas web para consultas que estén relacionadas.

Entonces, ¿qué significa relevancia e importancia?

Relevancia: grado en que el contenido de una página web coincide con la intención del buscador (la intención es lo que los buscadores intentan conseguir con esa búsqueda, lo que supone una tarea compleja a resolver para los motores de búsqueda o los SEO).

– Importancia: las páginas web se consideran más importantes cuanto más se citan en otro lugar. Tradicionalmente, aparecen en forma de enlaces de otros sitios web a esa página web.

Para conseguir la tarea de asignar relevancia e importancia, los motores de búsqueda tienen algoritmos complejos diseñados para tener en cuenta cientos de señales que ayudan a determinar la relevancia e importancia de cualquier página web.

Estos algoritmos a menudo cambian porque los motores de búsqueda trabajan para mejorar sus métodos y dar mejores resultados a los usuarios. Aunque se modifiquen constantemente, algunos de los fundamentos de lo que buscan los motores de búsqueda son bastante conocidos.

Aunque probablemente nunca se conozca la lista completa de señales que los motores de búsqueda utilizan en sus algoritmos, los motores de búsqueda han revelado algunos básicos a través del intercambio de conocimientos con la comunidad de publicación web. Se ese conocimiento para crear estrategias de SEO duraderas.

¿Cómo evalúan los motores de búsqueda el contenido?

Como parte del proceso de clasificación, un motor de búsqueda debe comprender la naturaleza del contenido de cada página web que rastrea. De hecho, Google da importancia al contenido de una página web para su clasificación.

En 2016, Google confirmó que el contenido se encuentra entre los 3 principales factores de clasificación para las páginas web.

Para entender de qué trata la página, los motores de búsqueda analizan las palabras y frases que aparecen en ella, y luego construyen un mapa de esos datos, conocido como «mapa conceptual». Este mapa conceptual ayuda a definir la relación entre los conceptos en una web página.

Lo que los motores de búsqueda pueden «ver» en una página web

como funcionan los motores de busqueda

Para evaluar el contenido, los motores de búsqueda analizan los datos que se encuentran en una página web para darle sentido. Dado que los motores de búsqueda son programas de software, «ven» páginas web de manera muy diferente a como lo hacemos nosotros

Los rastreadores de motores de búsqueda ven páginas web en forma de DOM. Como humano, si estás tratando de ver lo que ven los motores de búsqueda, una cosa que puedes hacer es mirar el código fuente de la página.

Para ello, puede comenzar haciendo clic derecho en la página web de su navegador y pinchar en «ver código fuente de la página». La vista normal de la vista de la página web para humanos podría verse así:

Esto le mostrará el código fuente de la página web:

La diferencia entre esto y el DOM es que no vemos el efecto de la ejecución del Javascript, pero podemos usarlo para aprender mucho sobre el contenido de la página. El contenido del cuerpo en una página web a menudo se puede encontrar en el código fuente. A continuación, un ejemplo del contenido único que vemos en la página web.

Además del contenido único en la página, hay otros elementos en una página web que los rastreadores de motores de búsqueda encuentran que ayudan a los motores de búsqueda a comprender de qué trata la página.

Esto incluye cosas como:

– Los metadatos de la página web, incluida la etiqueta del título y la etiqueta de la descripción meta, que se encuentran en el código HTML. Aunque no se pueden ver fácilmente en la página web que los humanos ven, estas etiquetas sirven como título y descripción de la página web en los resultados de búsqueda, y deben ser mantenidas por los propietarios de los sitios web.

– Los atributos alt para las imágenes en una página web. Estas son descripciones que los propietarios de sitios web deben mantener para describir de qué trata la imagen. Dado que los motores de búsqueda no pueden “ver” imágenes, esto les ayuda a comprender mejor el contenido de la página y también desempeña un papel importante para las personas con discapacidades que usan programas de lectura de pantalla para describir el contenido en una página web. Obtenga más información sobre la accesibilidad web y atributos Alt de imágenes.

Lo que los motores de búsqueda no pueden «ver» en una página web

Es importante comprender los elementos de una página web que los motores de búsqueda no pueden ver. De este modo, podrá ayudar a adaptar el contenido de su sitio web para que los rastreadores lo entiendan mejor.

Los elementos que los motores de búsqueda no pueden ver incluyen:

Archivos de Flash: Google puede extraer cierta información de los archivos de Adobe Flash, pero es difícil porque Flash es software diseñado para crear animaciones.

Cuando los diseñadores de páginas web usan Flash, generalmente no insertan texto que ayude a explicar lo que aparece en los archivos. Muchos diseñadores optan por HTML5 como una alternativa a Adobe Flash porque es compatible con los motores de búsqueda.

Audio y vídeo: al igual que las imágenes, es difícil para los motores de búsqueda entender de qué trata el audio o el vídeo sin contexto.

Hay algunas excepciones en las que los motores de búsqueda pueden extraer datos limitados en las etiquetas de identificación ID3 como por ejemplo, en los archivos Mp3. Esta es una de las razones por las que muchos editores han añadido transcripciones a los audios y vídeos en una página web. Estas transcripciones ayudan a que los motores de búsqueda tengan más contexto.

Contenido dentro de un programa: esto incluye AJAX y otras formas de métodos de JavaScript que cargan de manera dinámica el contenido en una página web.

Google puede leer Javascript, a pesar de tener aún limitaciones. Podría decirse que Google ejecuta la mayoría de los Javascript, pero hay casos en los que aún pueden surgir problemas a partir de la manera en la que se ejecute

Iframes: una etiqueta de iframe se usa normalmente para añadir contenido de otra parte de su propio sitio web en la página web actual, o para añadir contenido de otro sitio en su página web.

Es posible que Google no trate este contenido como si fuera parte de su página, especialmente si se obtiene de un sitio web de terceros. Históricamente, Google ha ignorado el contenido dentro de un iframe, pero puede haber excepciones a esa regla general.

Resumen

Los motores de búsqueda parecen muy simples: «escriba una consulta en el cuadro de búsqueda» y aparecen los resultados. Sin embargo, estos resultados instantáneos se basan en un complejo conjunto de procesos que ayudan a identificar los datos más relevantes para el usuario, para que pueda hacer cosas como encontrar una receta, buscar un producto u obtener una respuesta a una pregunta.

¿Por qué debería importarte?

Conocer los principios fundamentales de rastreo, indexación web y clasificación ayuda a los propietarios de sitios a adaptarlos para facilitar la lectura y comprensión de los motores de búsqueda y orientarlos mejor hacia los resultados de búsqueda correctos y posicionamiento en Google y otros buscadores.

Si te ha gustado comenta y comparte este enlace. Suscribirte a nuestras newsletter, y nos vemos en el siguiente post.

Si te ha parecido interesante esta entrada de cómo funciona el motor de búsqueda de Google, tu opinión y aportación compartiéndola nos ayudará mucho. Gracias por tu atención.

No dudes en dejar tus preguntas o comentarios sobre este artículo en la sección de comentarios a continuación.Entre todos seguiremos ayudándonos a crecer.

Share This