SEMrush

¿Qué es una Araña Web?

Cómo funcionan y cómo podemos sacarle provecho los SEO

Aprende como encontrar Keywords con SEMrush

Encontrar las palabras clave adecuadas nunca ha sido tan fácil. Aprende como hacerlo paso a paso con la herramienta de Palabras Mágicas de SEMrush.

Comenzar Ahora

Una araña web (conocida en inglés como web crawler o web spider) es un programa informático automatizado que se encarga de analizar e inspeccionar las URL’s de todos los sitios web del mundo.

Por lo general los buscadores tienen su propia araña, por ejemplo Google posee la propia nombrada “Googlebot“, de igual forma Bing, DuckDuckGo, Yandex y otras grandes empresas tienen uno.

¿Cómo funcionan los spiders?

Casi el 100% de las arañas web que existen en la actualidad son bots automatizados, esto gracias al avance en la tecnología.

Ellos se encargan de inspeccionar la calidad de todos los sitios web que permiten su lectura, de esta manera los buscadores podrán clasificarlos y posicionarlos en sus resultados de búsqueda, en este post hablaremos específicamente del spider de Google.

El web crawler de Google (también conocido como Google bot, la araña de Google o simplemente como “el spider“), comienza visitando una lista de URL’s que los mismos servidores de Google suelen recopilar, luego se encarga de identificar todos los enlaces o hipervínculos que existen en dicha URL y los añade a una lista propia en las que se incluyen todas las mejores, a estas URL’s se les dará preferencia y Googlebot las va a visitar de manera más frecuente, todo esto siguiendo un conjunto de reglas ya programadas dentro del algoritmo de Google.

El spider va copiar todas las URL’s de los sitios web que sean indexables, para esto deberán indicar con una etiqueta index que desean ser clasificados, además tendrán que cumplir con los requisitos de indexación de Google.

Todas estas URL se añaden a una gran lista que contiene cientos de millones de ellas, cada vez que se visita una nueva se van añadiendo todas las que esta tenga enlazadas, luego se visitan esas URLs que estaban enlazadas y se añaden a la lista todas las nuevas URLs que también estén enlazadas desde esas y así sucesivamente.

Los SEO por esto solemos crear backlinks, ya que mientras mejores backlinks tengamos más veces pasará el spider por nuestro sitio web.

El spider de Google no rankea las URLs, esto lo hacen solamente los algoritmos, la única función de la araña web es la de visitar todas las URLs indexables y organizarlas en una lista para que posteriormente los algoritmos las clasifiquen.

Frecuencia de visita

Mientras mejor sea un sitio web, más veces será visitado, de igual forma se visitará más a los sitios web que obtengan mejores enlaces de referencia (backlinks).

Por ejemplo, Googlebot visitará más frecuentemente el sitio web Amazon.com que la webdepepito.com, esto debido a que Amazon tiene un mejor sitio web, más grande, con más visitas y mejores enlaces de referencia.

Presupuesto de rastreo

Dependiendo del tamaño y la importancia de un sitio web, Google asignará una cantidad de tiempo estimada para leer todas las URLs que le sean posibles.

Por ejemplo, Googlebot puede considerar a Amazon como un sitio web muy grande e importante, por lo cual le podrá asignar unos 45 minutos de rastreo para leer todas las URLs que les sea posible, mientras que al Blog de Pepito solo le asignará 20 segundos, ya que es muy pequeño y no tiene tanta importancia dentro del internet.

Recordemos que sería imposible para los servidores de Google estar leyendo todas las URLs de un sitio web, puesto que existen más de 2 billones de sitios web y se crean 300,000 URL’s nuevas cada segundo, por eso el robot le asigna una cantidad de tiempo estimada a cada sitio web, todo lo que pueda leer es lo que clasificará, lo que no pueda leer lo ignorará, de igual forma si se le acaba el tiempo abandonará la web sin importarle que no haya terminado de clasificar todas las URL’s de los contenidos.

Los sitios SEO optimizados suelen tener un presupuesto de rastreo del 70% de todas sus URLs indexables, mientras que los demás suelen estar por debajo de un 20%, por este motivo uno de los trabajos más importantes para un SEO es mejorar el presupuesto de rastreo de su web.

Para lograr tener más tiempo al spider dentro de nuestra web podemos brindarle cierto tipo de “facilidades”, de esta manera le haremos más sencillo su trabajo y mejoraremos nuestro presupuesto y frecuencia de rastreo, las optimizaciones que deberías hacer son las siguientes:

  1. Sitemap XML
  2. Sitemap HTML
  3. Enlazado interno
  4. Enlazado externo
  5. Robots.txt
  6. Etiquetas Noindex
  7. Bloquear las URLs basura que no necesitamos que el spider lea.

Recomendaciones

  • Verifica que estás permitiendo la lectura de tu sitio web a todos los spiders de los buscadores.
  • Mejora tu crawl budget y aumentará tu presupuesto y frecuencia de rastreo.
  • Revisa frecuentemente cuál es tu presupuesto de rastreo, cuanto tiempo te visita el spider y cada cuanto lo hace, todo esto puedes saberlo haciendo seguimientos de Log en tu servidor.

 

SEMrush

José Chirinos

Mi nombre es José Ángel, soy consultor SEO y editor web, el marketing digital se ha convertido en mi pasión, me enojo mucho cuando una de mis palabras clave no llega a la página 1 y soy especialista en recuperar sitios webs luego de una penalización de Google. Cuando no estoy practicando SEO estoy escribiendo sobre esto. La disciplina y la constancia son la base del éxito.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Publicaciones relacionadas

Botón volver arriba
Cerrar
Cerrar