Deep Web ~ ..:Birimbondo Cavalo:..

Deep Web (também chamada de Deepnet, Web Invisível, Undernet ou Web oculta) se refere ao conteúdo da World Wide Web que não faz parte da Surface Web, a qual é indexada pelos mecanismos de busca padrão.

Não deve ser confundida com a Dark Internet, que está relacionada à porção da Internet que não pode ser acessada ou que se tornou inacessível por meios convencionais. Também não se confunde com a Darknet, que não é uma simples rede de compartilhamento de arquivos, mas uma rede subjacente ou em camadas, onde existem grandes esforços no sentido de se manterem anônimos os dados de seus utilizadores.

Qual o seu tamanho???

Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 20013 especularam que a Deep Web possui 7.500 terabytes de informação. Estimativas feitas por He et al.5 , em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte russa da Web em 2006.6 Em 2008, a web chamada “Deep Web”, não referenciada pelos motores de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas.

Nomenclatura:

Para referir-se aos websites que não estavam registrados em nenhum mecanismo de busca3 , Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes:7

"Seriam sites projetados propositalmente, mas que não se teve o interesse de registrá-lo em nenhum mecanismo de busca. Então, ninguém pode encontrá-los! Estão escondidos. Eu os chamo de Web Invisível."

Outro uso antigo do termo Web Invisível foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep Web "@1", na edição de dezembro de 1996.8

O primeiro uso do termo específico deep Web, agora reconhecido, ocorreu no estudo de 2001 de Bergman, mencionado anteriormente.3

Classificação:

O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:

Conteúdo dinâmico: páginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário.

Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.

Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).

Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositadamente.

Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).

Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.

Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivo específicos que não são manipulados pelos motores de busca.

Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.9