Para comprender mejor la
tarea de un buscador pensemos primero qué hay en Internet, como está organizada
la información. A continuación hablaremos de la propia estructura del buscador
para adaptarse a la estructura de los datos de Internet.
![bola](file:///C:\DOCUME~1\ADMIN\CONFIG~1\Temp\msohtmlclip1\01\clip_image001.gif)
Ya vimos en la unidad 1 que
cualquiera puede introducir información en Internet. Simplemente tiene que
disponer de un servidor donde alojarla. Cada nueva página que se crea en
Internet tiene una dirección única. Por ejemplo, http://www.aulaclic.es/internet/t_4_7.htm.
Cuando alguien decide crear un sitio web elige el nombre que le parece
apropiado, y también da el nombre que quiere a las carpetas y páginas que va
creando. De forma que los millones de páginas que existen en Internet no
tienen porque tener una estructura común ni una relación prefijada entre ellas.
Si comparamos Internet a una
gigantesca biblioteca, donde cada libro representa un servidor, no habría
manera de colocar los libros en las estanterías de forma que respondiesen a un
orden lógico según su contenido. Tampoco habría una forma estándar de ordenar
las páginas dentro de cada libro.
Puesto que un servidor puede
contener páginas de diferentes temas, y que dentro de un tema las páginas están
agrupadas de distinta forma. Si tomamos una página cualquiera de Internet
pueden darse diferentes situaciones, desde que sea una página aislada, que esté
relacionada con una anterior y una siguiente, o que esté relacionada con
millones de páginas.
Así como cuando se cataloga
un libro existe una clasificación de materias aceptada universalmente dentro de
la cual se puede ubicar un libro según su tema, en Internet no existe esto. Lo
más parecido son las categorías del proyecto DMOZ, algunos directorios especializados como los de Universia y
de buscadores como Google, pero incluir una página en estos buscadores es algo
voluntario por lo que no todas las páginas de Internet están incluidas en
ellos.
Las páginas de Internet no
están escritas en forma de texto normal sino en lenguaje HTML. Este lenguaje
consta de texto y de código, el código dice en qué forma se presentará el
texto, de que tamaño, color, posición, etc.
Otro factor a tener en
cuenta es que las páginas son dinámicas, es decir, pueden modificarse,
crearse y destruirse sin previo aviso. Además, están en diferentes idiomas.
Y para acabarlo de poner
difícil la naturaleza del contenido de las páginas es muy variada, pueden
contener texto, gráficos, imágenes, sonido, vídeo, programas, etc.
Dado este aparente caos, es
fácil suponer que pronto surgieran herramientas que intentasen poner un poco de
orden y facilitar la localización de la información. También es fácil deducir
que estas herramientas se hayan convertido en algo imprescindible.
Hoy nadie puede imaginarse
Internet sin los buscadores. Actualmente los buscadores hacen su tarea de
forma increíblemente eficaz. Pueden buscar cualquier cosa que se te ocurra en
muy poco tiempo y de forma precisa.
Sin embargo tienen
limitaciones. Por ejemplo, no pueden buscar entre la información que requiere
de una identificación previa para el acceso. Obviamente esto es precisamente lo
que persiguen las páginas protegidas o restringidas. De hecho, si nosotros
mismos fuésemos quienes tuviésemos que buscar la información en la red, nos
toparíamos con la misma limitación, con la salvedad de que nosotros podríamos
interactuar con la página o registrarnos en ella para acceder a la información
que nos interesa.
De todas formas, en general,
podemos decir que la mayor parte de la información disponible en Internet está
accesible a través de los buscadores de forma rápida y fácil. Así que no hay
problema, Internet puede seguir creciendo en la forma como lo ha hecho hasta
ahora y nosotros seguiremos encontrando lo que buscamos. Un buscador tarda
menos de un segundo en buscar entre miles de millones de páginas. La pregunta
es ¿Cómo diablos lo hacen?
No hay comentarios:
Publicar un comentario