sábado, 23 de marzo de 2013

FUNCIONAMIENTO DE UN BUSCADOR POR PAGERANK


Ahora que ya hemos aprendido el manejo básico de un buscador podemos entrar a ver cómo funciona internamente. Sólo veremos los conceptos básicos ya que es un tema complejo y los buscadores tampoco dan mucha información al respecto para no dar pistas a la competencia.
Para comprender mejor la tarea de un buscador pensemos primero qué hay en Internet, como está organizada la información. A continuación hablaremos de la propia estructura del buscador para adaptarse a la estructura de los datos de Internet.

bola Estructura de datos en Internet.
Ya vimos en la unidad 1 que cualquiera puede introducir información en Internet. Simplemente tiene que disponer de un servidor donde alojarla. Cada nueva página que se crea en Internet tiene una dirección única. Por ejemplo, http://www.aulaclic.es/internet/t_4_7.htm. Cuando alguien decide crear un sitio web elige el nombre que le parece apropiado, y también da el nombre que quiere a las carpetas y páginas que va creando. De forma que los millones de páginas que existen en Internet no tienen porque tener una estructura común ni una relación prefijada entre ellas.
Si comparamos Internet a una gigantesca biblioteca, donde cada libro representa un servidor, no habría manera de colocar los libros en las estanterías de forma que respondiesen a un orden lógico según su contenido. Tampoco habría una forma estándar de ordenar las páginas dentro de cada libro.
Puesto que un servidor puede contener páginas de diferentes temas, y que dentro de un tema las páginas están agrupadas de distinta forma. Si tomamos una página cualquiera de Internet pueden darse diferentes situaciones, desde que sea una página aislada, que esté relacionada con una anterior y una siguiente, o que esté relacionada con millones de páginas.
Así como cuando se cataloga un libro existe una clasificación de materias aceptada universalmente dentro de la cual se puede ubicar un libro según su tema, en Internet no existe esto. Lo más parecido son las categorías del proyecto DMOZ, algunos directorios especializados como los de Universia y de buscadores como Google, pero incluir una página en estos buscadores es algo voluntario por lo que no todas las páginas de Internet están incluidas en ellos.

Las páginas de Internet no están escritas en forma de texto normal sino en lenguaje HTML. Este lenguaje consta de texto y de código, el código dice en qué forma se presentará el texto, de que tamaño, color, posición, etc.
Otro factor a tener en cuenta es que las páginas son dinámicas, es decir, pueden modificarse, crearse y destruirse sin previo aviso. Además, están en diferentes idiomas.
Y para acabarlo de poner difícil la naturaleza del contenido de las páginas es muy variada, pueden contener texto, gráficos, imágenes, sonido, vídeo, programas, etc.
Dado este aparente caos, es fácil suponer que pronto surgieran herramientas que intentasen poner un poco de orden y facilitar la localización de la información. También es fácil deducir que estas herramientas se hayan convertido en algo imprescindible.
Hoy nadie puede imaginarse Internet sin los buscadores. Actualmente los buscadores hacen su tarea de forma increíblemente eficaz. Pueden buscar cualquier cosa que se te ocurra en muy poco tiempo y de forma precisa.
Sin embargo tienen limitaciones. Por ejemplo, no pueden buscar entre la información que requiere de una identificación previa para el acceso. Obviamente esto es precisamente lo que persiguen las páginas protegidas o restringidas. De hecho, si nosotros mismos fuésemos quienes tuviésemos que buscar la información en la red, nos toparíamos con la misma limitación, con la salvedad de que nosotros podríamos interactuar con la página o registrarnos en ella para acceder a la información que nos interesa.
De todas formas, en general, podemos decir que la mayor parte de la información disponible en Internet está accesible a través de los buscadores de forma rápida y fácil. Así que no hay problema, Internet puede seguir creciendo en la forma como lo ha hecho hasta ahora y nosotros seguiremos encontrando lo que buscamos. Un buscador tarda menos de un segundo en buscar entre miles de millones de páginas. La pregunta es ¿Cómo diablos lo hacen?

No hay comentarios:

Publicar un comentario