Como Pesquisar na Internet

Métodos, Técnicas e Procedimentos Gerais

por Jorge Alberto S. Machado
Professor-doutor do Escola de Artes Ciências e Humanidades da Universidade de S. Paulo (USP), Brasil
Website pessoal: www.uspleste.usp.br/machado e-mail: machado sociologia.de

Resumo: Esse texto visa introduzir docentes, alunos e leigos sobre métodos, técnicas e procedimentos gerais para a realização de pesquisas on-line, com enfoque especial para as bases de dados abertas. Indicamos também as melhores e mais completas bases de textos, material multimedia (como áudio, fotos, vídeo, software, etc.) e arquivos diversos. Incluímos exemplos de formas de citação de documentos digitais, procedimentos de segurança na navegação, além de uma breve exposição sobre a importância das bases de livre acesso.

Palavras-chave: pesquisa, internet, método, técnicas, estratégias, metodologias informacionais, acesso aberto,"open access".

Machado, Jorge A.(2004) "Como Pesquisar na Internet - Métodos, Técnicas e Procedimentos Gerais". [online]
<http://www.forum-global.de/curso/textos/pesquisar_na_internet.htm>

Atualizado em 12/08/2005 (Versão 1.08)

A impressão, distribuição, leitura, reprodução, cópias, apresentação e links com esse texto são LIVRES desde que citada a fonte e mantidos os mesmos princípios em sua difusão. Qualquer tipo de uso comercial significa violação dos direitos concedidos pelo autor.

 


 

Índice:

1. Introdução

2. Estratégias de pesquisa

3. Pesquisando em Sites de busca e Portais

3. 1 Pesquisa em Sites de Busca

3.1.1 Exemplo de mecanismo de busca: Google
3.1.2 Os melhores mecanismos de busca
3.1.3 Outros mecanismos de busca

3.2 Pesquisa em Portais acadêmicos

3.2.1 Portais e Sites de livre acesso
3.2.2 Portais e Sites de acesso restrito ou mediante pagamento

3.3 Pesquisa em Diretórios

3.4 Pesquisa de Softwares

3.5 Pesquisa de Mapas

3.6 Outras buscas

4. Como citar material encontrado da web -Normalização Bibliográfica

5. Problemas na citação de textos

6. Acesso livre a publicações científicas:
uma breve explicação sobre as questões éticas e políticas do problema

7. Pesquisa com segurança

8. Bibliografia

9. Notas

 


1. Introdução

A Internet se configura atualmente como o maior repositório de informação do mundo, recebendo entre 10-20 milhões de novos documentos diariamente. Segundo Hal & Lyman (2000), contabilizadas todas as informações acessíveis de alguma forma pela rede, como os banco de dados conectados pela web, páginas dinâmicas, sites intranet e o que coletivamente é conhecido por "deep Web" (web profunda), no ano 2000 havia cerca de 550 bilhões de documentos conectados na rede, com tamanho médio de 14 Kbytes. Cerca de 95% dessa informação seria publicamente acessível. Em meados de dezembro de 2003, pesquisadores da Universidade da Califórnia calcularam que a rede havia superado a marca de mais 1 trilhão de documentos, com um crescimento de cerca de 10 milhões de páginas Web por dia.

Considerando as projeções acima, a quantidade de informação na rede deverá ter ultrapassado, em fins de 2004, 30 terabytes de informação. Um outro parâmetro do volume de informação disponível pode ser dado pelo o número de hosts (servidores ligados à rede) na Internet. Em janeiro de 2004, eram mais de 233 milhões.

Segundo McKinley (1998: 3 e 4), em meados da década de noventa, 5,46 bilhões de documentos eram produzidos todos os anos e 59% deles eram acessados manualmente. No armazenamento por papel ou microfilmagem, além dos usuários ter que compreender o esquema de indexação, os arquivos precisam ser devolvidos na forma apropriada do gabinete. Ademais da necessidade de deslocamento físico ao local onde estão os arquivos, o fato da procura ser manual, um documento erroneamente colocado pode ser considerado como "desaparecido" . Estima-se que 7,5% dos documentos em papel se perdem totalmente.

A expansão da rede e a difusão das tecnologias digitais, facilitaram muito o trabalho de indexação e de busca de documentos. Apesar das resistências culturais, a maior parte dos documentos são hoje produzidos digitalmente, fazendo dos suportes digitais o padrão de arquivamento de dados, sejam eles em forma de vídeo, áudio ou texto.

Os suportes fixos tornam-se também cada vez mais antiquados no armazenamento de grandes volumes de dados. Para efeitos de comparação, um CD com cerca de 650 Mb armazena 340 mil páginas de 2000 caracteres cada uma, ou cerca de 170.000 páginas de espaço único, frente e verso. Se essas páginas fossem impressas em papel de 20 gramas (tamanho A4), a pilha de papel com toda essa informação pesaria 770kg (McKinley, 1998: 6).

Os novos CDs da Bayer e da Imation, permitem o armazenamento de até 1 terabyte de informação. Nele poderiam ser armazenadas, em tese, quase todas as bibliotecas da Unicamp ou 261 milhões a 40 bilhões de páginas, ou entre 1 a 200 milhões de livros - dependendo do formato - ou entre 300 a 60.000 toneladas de papel. Vale dizer que a biblioteca do IFCH/Unicamp possui cerca de 120 mil exemplares, entre livros e teses.

O que torna mais interessante o uso das tecnologias digitais é o acesso instantâneo a grandes volumes de informação. A forma com que se pode chegar a uma palavra ou frase é incomparável com as abas dos livros ou os índices remissivos. É possível captar idéias específicas em meio a um oceano de informação, muito além daquilo que está incluído no índice convencional dos livros e revistas. Os mecanismos de busca em documentos digitais também permitem indexar e localizar informações que não foram consideradas relevântes no momento da classificação ou arquivamento. Com os mecanismos de buscas modernos, qualquer documento digital pode ser desenterrado e explorado em seus detalhes (McKinley, 1998).

Os programas inteligentes de busca foram desenvolvidos para oferecer ao usuário um robot que fornecesse a informação adequada e em grande velocidade, de modo que usuário não precise se preocupar com a execução da tarefa, senão que apenas se concentrar nas idéias para a busca.

Conceitos básicos

Descrevemos abaixo como funciona o sistema de localização de documentos na web. Se você já tem um conhecimento básico sobre isso, vá direto ao item seguinte.

O lugar onde está armazenada a informação que você acessa na web, chama-se URL (Uniform Resource Locator). É o endereco que aparece no box do alto de seu navegador. As letras "http://" significam documento hipertexto, que é como são designados os documentos usados na Internet. WWW significa World Wide Web ou "rede de alcance mundial". não é necessário digitar "http://" se o endereço começar por "www". Vale dizer que, por questões técnicas, em alguns servidores não é necessário digitar"www" depois do "http://.

O nome que segue o "www." é chamado de domínio. Exemplo "unesco.org". Portanto, "http://www.unesco.org" é exemplo de URL. A extensão do domínio significa, em geral, o tipo ou fim da organização, empresa ou indivíduo que o utiliza, conforme abaixo:

org. organização não-governamental
gov: governamental
mil: militar
com: comercial
edu: educação
tur: turismo

A extensão pode também indicar a localização geográfica (país) da organização, ex: "com.br" (Brasil), "org.ar" (Argentina), "uk" (United Kingdom), "de" (Deutschland /Alemanha), etc.

 



2. Estratégias de pesquisa

Considerando que o usuário dispõe de conhecimentos básicos para navegar, para realizar uma busca com bons resultados na rede é preciso:

1) Ter em mente as palavras-chaves e sua melhor combinação para encontrar os resultados mais relevantes com respeito ao objeto pesquisado;
2) Conhecer o funcionamento dos mecanismos de busca, suas ferramentas avançadas e as opções que facilitam, otimizam e focalizam a busca nas bases de dados; no caso dos portais, deve-se conhecer seus sistemas de acesso, de indexação e de arquivamento.

Mostraremos aqui os procedimentos básicos utilizados pelos mecanismos de busca. Vale dizer que o processo de pesquisa é muito pessoal e recursivo. A pesquisa sobre um tema depende do nível de conhecimento e do interesse do usuário acerca do tema. Se o pesquisador não tem muita familiaridade com o objeto pesquisado, é recomendável que escolha um tópico mais geral ligado ao mesmo. A partir daí, deve-se fazer um levantamento sobre as temáticas, autores ou a bibliografia que se associam de forma mais relevante a ele. Só depois de ter uma idéia mais clara sobre o objeto que se pretende estudar é que se deve buscar tópicos mais detalhados.

As pesquisas na web podem ser feitas, principalmente, de duas formas:
a) através dos próprios sites que hospedam os documentos procurados; ou
b) através dos index dos sites de busca.

A escolha por um ou outro vai depender da informação que você já dispõe sobre seu objeto de busca. Por exemplo, se a busca é sobre uma pesquisa realizada na América Latina pelo CEPAL, é melhor visitar o próprio site dessa organização que procurar através de um mecanismo de busca. Indo no próprio site, você possivelmente encontrará, além do que você procura, outras pesquisas. Poderá haver um série histórica ou documentos e relatórios produzidos que não estão indexados e que poderão ser de interesse de sua pesquisa.

No entanto, se você estiver procurando, por exemplo, o "Tratado de não-proliferação de armas nucleares", é mais fácil buscar em um engenho de busca do que vasculhar no site da ONU ou da OTAN. A economia de tempo poderá ser considerável. A inteligência e a perspicácia do usuário desempenham papéis importantes para a obtenção de bons resultados na Internet.

Suponhamos que o tema que deva ser procurado na pesquisa seja, por exemplo, "Sindicato e Reformas Econômicas nos anos 90". Primeiramente, deve-se buscar informações mais gerais sobre o tema. Pode-se fazer isso escolhendo palavras-chave que possam levar a páginas mais abrangentes, como "sindicato", "crise", "anos 90". Pode-se incluir a palavra "Brasil" caso não queira receber muitas respostas em castelhano ou referentes a outros países. A busca inicial deveria mostrar documentos produzidos pelos próprios sindicatos, por pesquisadores, pela imprensa e por congressos e eventos ligados ao tema. Nessa etapa inicial, deve-se fazer um primeiro mapeamento da questão, visitando um número de páginas suficiente para se ter uma idéia sobre os principais autores, fontes bibliográficas, os temas associados e as questões prementes.

No caso dado, a lista produzida pelo mecanismo de busca deverá ser enorme. Então digamos que o pesquisador, já sabendo o que quer, "feche" mais o objeto, focando para, por exemplo,"o Caso dos bancários de São Paulo".

Nesta altura, consultados muitos textos, o usuário já estará em condições de elaborar uma lista de palavras-chave e frases que irá produzir resultados mais precisos. Além disso, o pesquisador poderá fazer buscas diretas no sites de organizações que se associam diretamente ao tema ou o objeto - sindicato, central sindical, revistas e jornais com enfoque específico, estatísticas, base de dados diversas.

Iniciada a pesquisa com os termos selecionados da lista, o usuário pode cuidadosamente, em função dos resultados, acrescentar ou excluir palavras. Com um pouco de dedicação e atenção, o usuário poderá colher, sem sair de casa, uma quantidade significativa de informações sobre o tema "Sindicato e Reformas Econômicas nos anos 90: o Caso dos bancários de são Paulo".

Para explorar melhor as técnicas utilizadas pelos mecanismos de busca e conseguir assim melhores resultados, é importante que o usuário saiba como esses mecanismos funcionam.


3. Pesquisando em Sites de busca e Portais


3. 1 Pesquisa em Sites de Busca

Se o usuário deseja informações sobre "reforma da previdência pública", é melhor especificar a busca como frase, entre aspas (""). Caso contrário, o resultado será dado com base nas palavras "reforma", "previdência" e "pública" constantes em um texto, independente da relação entre elas. Os engenhos de busca Google, AltaVista, Infoseek, Excite e Yahoo! possibilitam a especificação de frases e nomes próprios com o uso de aspas.

O usuário pode incluir um sinal de mais (+) - sem parêntesis - ou menos (-) para na frente do termo, para adicionar ou excluir palavras. Exemplo, para pesquisar "reforma da previdência pública" e não cair em sites ligados a Portugal, adicionar "-portugal" antes do termo pesquisado, no campo "busca". O sinal (+) condiciona as respostas ao aparecimento do termo no corpo do texto. Exemplo: "+Brasil". A inclusão e a exclusão de termos pode ser usada na mesma busca. Por exemplo: +Brasil "reforma da previdência pública"-portugal-angola.

Vale dizer que os engenhos de busca, em sua grande maioria, ignoram letras maiúsculas e minúsculas e as acentuações da língua portuguesa (´), (`), ("), (ˆ), (˜) e interpretam o "ç" como c. O mesmo acontece também quando a palavra inclui caracteres como "ñ", "ü", "ë", "ö". "ï". Isso permite que os usuários não tenham problemas ao usar outros teclados. Vale dizer quer, antes de fazer uma busca de palavra em outra língua, o usuário deve se certificar de como caracteres específicos de uma língua costumam ser escritos no alfabeto "básico". Por exemplo o "ä", "ü" e "ö" do alemão costumam ser adaptadas como "ae", "ue" e "oe". Portanto, para busca de palavras como "über", escrever "ueber".




Outro recurso de busca é o uso da lógica boleana (AND, OR, NOT, NEAR). Vários engenhos de busca, como o AltaVista Advanced Search e o Excite, usam operações boleanas ou de proximidade ao mesmo tempo que os sinais "+" e "-". O emprego da lógica boleana pode dar mais especificidade à busca.

Exemplos de operações boleanas básicas:

Quando o usuário insere "AND previdência AND pública" serão mostradas todas as páginas que contenham ambos os termos "previdência" e "pública".
"OR previdência OR pública" mostrará todas as páginas contendo apenas uma das palavras.
"AND previdência AND NOT pública" resultará em páginas que contém previdência e excluem "pública".
NEAR previdência NEAR pública resultará em páginas que contém essas palavras próximas uma da outra - dez caracteres de distância.
Outros engenhos usam parênteses para buscas mais complexas:
(previdência OR pública) AND reforma encontrará páginas que contém "previdência" ou "pública" em combinação com a palavra "reforma"
"("previdência pública" NEAR reforma) AND Brasil" mostrará páginas que contém a expressão "previdência pública" com dez caracteres de distância da palavra "reforma".

Outras formas de busca aceitas pelas maiorias dos mecanismos:

Ação Exemplo
Busca dentro de um site (domínio restrito):

Faz a busca de uma palavra dentro de um site especificado. Exemplo: para buscar a palavra "previdência" dentro do site do DIEESE, digite
previdência site:www.dieese.org.br

Assim é possível buscar palavras dentro de um blog. Por exemplo, se deseja buscar a palavra "metodologia" em um blog do serviço Blogspot, digite

(Google)
url: "(palavra)"

Busca URL que tem a palavra selecionada no título.
Exemplo: para buscará páginas com o "sociologia" na URL (como "http://www.unicamp.br/ifch/depsociologia.htm"), digite

(Google)

 

link: (www.domínio.dot)

Busca páginas que tenham link com o site ou página especificada.
Exemplo: para buscar as páginas linkadas com "www.maxweber.de", digite

(Google)
title: (PALAVRA ou TERMO)

Busca páginas que tenham como título (é o que aparece no alta da barra de ser navegador, definido por quem fez a página) a palavra ou termo especificado.
Exemplo: para buscar páginas que tenham "Max Weber" no título, digite

(Google)

 

busca truncada (*)

Busca a palavras que começam pelo termo especificado, usano o sinal (*) no meio de palavras.
Exemplo: para buscar trabalho, trabalhadores, trabalhadora, trabalhismo, etc., digite "trabalh*"

O Google não aceita asteriscos, mas é possível usá-los entre termos completos. Exemplo:

(Google)

O resultado será algo como "reforma universitária no brasil", "reforma política no brasil" e assim por diante.
Pesquisa através de e-mail

Outra forma de conseguir resultados é mandar e-mail com o conteúdo da busca escrito no campo "assunto". Alguns mecanismos de buscas aceitam esse tipo de requisição e respondem automaticamente enviando os resultados da busca para o endereço do remetente. Apenas alguns mecanismos de busca oferecem essa possibilidade. Um exemplo é o Google. Basta mandar um e-mail com a palavra ou termo buscado no campo "assunto" (ou "subject") para google@capeclear.com.

Caso ainda o usuário não tenha um idéia clara sobre o tema que investiga, outra forma de iniciar uma pesquisar é através dos diretórios dos sites de busca (ver item 3.1.4, abaixo). Nos diretórios, as páginas estão agrupadas por assuntos. Em geral, na primeira página do site de busca há uma link para seu diretório - caso o possua.



3.1.1 Exemplo de mecanismo de busca: Google

Atualmente, o engenho de busca com maior abrangência e eficiência é o Google (www.google.com). O Google surgiu de um trabalho de faculdade feito pelos estudantes Sergey Brin e Lawrence Page. O enorme sucesso fez com que a empresa atingisse o valor de mercado de cerca de 50 bilhões de dólares, com cerca de 2000 computadores em operação.O segredo do Google é logaritimo que utiliza para apresentar resultados de maior relevância. No início do ano passado, essa empresa anunciou ter visitado mais de 20 bilhões de páginas web, tendo uma coleção detalhada de mais de 4,3 bilhões de páginas. Ao contrário de outros mecanismos de busca o Google dá prioridade aos resultados de acordo com a proximidade dos termos pesquisados, eliminando resultados menos relevantes.

O índice do Google é tão completo e rápido que, freqüentemente, é mais rápido e fácil chegar a um documento pesquisado utilizando esse mecanismo de busca do que visitar a própria página da empresa que gerou e/ou hospeda o documento.



 

O mecanismo de busca do Google permite:


Como funciona

O Google (Google Guide, 2004) consiste em três partes, cada uma delas funcionando como uma rede distribuída de milhares de computadores de baixo custo que podem realizar um rápido processamento paralelo - método de computação em que muitos cálculos podem ser feitos paralelamente ou ao mesmo tempo, aumentando significativamente o processamento dos dados.


Para evitar os spammers, Google rejeita as URLs que empregam táticas como incluir textos ocultos, palavras irrelevantes de forma repetitiva, redirecionamentos, com muitos links numa página ou ligadas com má vizinhança (outros spammers).

Quando Googlebot - o web crawler do Google - captura uma página, ele visita as páginas linkadas a esse site. Isso permite que pequenos spammers sejam encontrados, pois a maioria dos sites autorais tende a construir seus links com sites de alta qualidade. Ao coletar os links de cada página que encontra, o Googlebot pode rapidamente construir uma lista de links com cobertura de boa parte da web. Com essa indexação profunda, o mecanismo de busca pode explorar também sites individuais, alcançando assim uma escala maciça de informação sobre cada site. Pelo tamanho da web, esse tipo de exploração pode fazer com que algumas páginas demorem um mês para serem exploradas e indexadas. O mecanismo empregado pelo Google indexa o texto todo da página encontrada, armazenando-a em sua base de dados (Google Guide, 2004). As páginas são também freqüentemente reindexadas, mantendo atualizado em taxas proporcionais a sua atualização. Isso garante que sites e jornais e revistas tenham seu índice atualizado.

Para processar a requisição e mostrar os documentos mais relevantes, o mecanismo considera mais de cem diferentes fatores, que incluem posição, relevância, tamanho e proximidade das palavras. A empresa também afirma que emprega técnicas de aprendizagem automáticas ("machine-learning") para melhorar sua performance. A vantagem do Google sobre os demais mecanismos de busca deve-se especialmente as suas técnicas de processamento de informação, guardadas a sete chaves.


A graphic of a user's computer.
3. O resultado retorna ao usuário em uma fração de segundos..     1. O servidor da web manda a requisição para servidor onde está o index. O índice de conteúdo é como o índice de um livro --ele mostra que páginas contém as palavras do termo buscado.
2. A requisição vai até o documento do servidor que acessa a informação. É gerada então uma página para descrever um resultado para a busca.

Fonte: Google Guide, 2004. Tradução de Jorge Machado


Google não mostra apenas páginas web, como também possui um banco de dados que inclui um enorme acervo de imagens da rede, notícias, discussões e mensagens de fóruns, usenet newsgroups e informações sobre todo tipo de produtos. Também disponibiliza em seu "cachê", cópias de sites inexistentes e versões antigas de sites atuais e fora da rede, além de dicionários, mapas de ruas, números de telefones entre outros serviços ( Sullivan: 2004).


3.1.2 Os melhores mecanismos de busca

Há muitas opções de mecanismos de busca. A escolha dependen do propósito. Se o objeto de pesquisa está relacionado com uma região geográfica ou um tipo de assunto específico, pode-se, por exemplo, consultar o diretório de busca do Yahoo! (www.yahoo.com). O Yahoo é o mais velho dos diretórios da web, com dez anos de operação. Ofererece um excelente diretório, com informações agregadas por temas, países, cidades, áreas de conhecimento, etc. A vantagem dos diretórios é que os sites listados foram checados e aprovados por "humanos". Sendo assim, a busca for feita através dos diretórios pode apresentar resultados bem diferentes da feita por mecanismos de busca (crawler)

O Alta Vista (www.altavista.com), também oferece uma grande base de dados indexados. Ademais, disponibiliza ferramentas de tradução de páginas, mapas, gerenciamento pessoal de pesquisas, etc. Através do Altavista é possível fazer buscas específicas de arquivos de audio, imagens e vídeo. No caso dos arquivos multimediais, é possível definir inclusive formatos específicos dos mesmos.

Para busca multimídia há o All the Web (www.alltheweb.com). Compartilhando banco de dados do Altavista e do Inktome - adquirido pelo Yahoo, assim como a Overture, proprietária do All the Web, esse site está focado para a busca de arquivos de midia. Possui uma interface muito leve e é mais costumizável que seus sites-parceiros. O site alega ter centenas de milhões de arquivos multimídias em seu banco de dados. Os resultados das buscas são muito parecidos com os do Altavista.

Já o Dogpile (www.dogpile.com) é um site de "metabusca" que alega vasculhar "quase 600 mecanismos de busca". A vantagem de usar esse sistema é a de poder consultar, ao mesmo tempo, as bases de dados de outros engenhos como Google, Yahoo, Ask Jeeves, Teoma, About e LookSmart. Os responsáveis pelo site afirmam que o sistema metabusca consegue cobrir 50% ou mais que qualquer outro mecanismo de busca. Como outros engenhos, oferece busca boleana, por frases, língua, data de atualização do arquivo, dentro ou fora de domínios específicos, etc. O ponto negativo é que os resultados apresentados limitam-se à páginas de maior relevância de cada engenho (primeira página, com 10 ou 20 links), não permitindo acessar as páginas seguintes. Por outro lado, o Dogpile mostra em uma barra lateral, outras associações do termo ou objeto buscado, o que dá novas pistas para o refinamento da pesquisa. Veja o exemplo abaixo:



Há também o Ask Jeeves (www.askjeeves.com), outro site de servicos de busca. No site, seus responsáveis afirmam que seu mecanismo incorpora as propriedades dos "velhos" engenhos Excite (www.excite.com), InfoSpace (www.infospace.com) e HotBot (www.hotbot.com) e Taoma (www.taoma.com), todos adquiridos pela mesma empresa. O sistema analisa e interpreta a web em termos das comunidades específicas conectadas por assunto. Com uma estrutura parecida das redes sociais, a Internet é caracterizada pela existência de comunidades locais e temáticas que se enredam em torno de termos e interesses. A arquitetura do Asjeeves identifica essas comunidades que se formam naturalmente na web, construindo uma espécie de imagem 3D delas. Aplicando uma técnica chamada "popularidade de sujeito-específico", seu software analisa o relacionamento dos sites no interior dessas comunidades, estabelecendo seu ranking através de referenciamento com base nas paginas do mesmo tema. Dessa forma a indexação é feita de forma transversal nos documentos de hipertexto. Isso dá outro tipo relevância aos resultados da busca, que considera a validação do website ou link pela própria comunidade ligada o tema referido.

O interessante é que esse sistema de relevância - utilizado, ainda que de diferentes formas pela maioria dos melhores engenhos - obedece à própria organização aparentemente "anárquica" da rede. Como a navegação na rede através das conexões dos documentos hipertexto obedece a uma lógica de auto-organização dos usuários, que lhe dão seus conteúdos e lhe proporcionam as conexões, esse tipo de mecanismo de busca tende a mostrar ao usuário uma espécie de mapa dinâmico da web. Vale dizer que a relevância do sites com relação a um tema ou termo é constantemente alterada, variando conforme os links que a comunidade lhe atribui. Na realidade, o sistema não é tão simples assim. Isso porque muitos webmasters procuram, por meio de artimanhas, aumentar a relevância de seus sites. Acontece que os logaritmos utilizados pelas novas versões dos mecanismos de busca fazem complexas combinações e análises de sites, evitando cada vez mais - inclusive através sistemas inteligentes - que seus softwares possam levar a resultados insatisfatórios.


3.1.3 Outros mecanismos de busca

Há outros bons sites de busca, mas limitarei a citar apenas brevemente aqui. Isso porque:
a) ou foram adquiridos/incorporados pelos acima descritos, ou
b) apresentam resultados comparativamente bem inferiores aos dos engenhos já citados.

Com relação aos primeiros, é o caso do Ask Jeeves, que mostra os mesmos resultados do Taoma, e do declinante HotBot - adquirido, como parte da Wired Digital, pela Lycos (que, por sua vez foi adquirido pela Terra, empresa do grupo Telefónica e depois vendido mais uma vez). O declinante Altavista mostra os mesmos resultados do Yahoo. O Altavista foi parar nas mãos da Compaq (antes de ser adquirida pela HP), em 1998, quando esta adquiriu a Digital Inc., sua proprietária. Desde então, seu mecanismo se mostrou ultrapassado e pouco efetivo frente a seus concorrentes. Depois, uma outra empresa do conglomerado mediático CMGI adquiriu o site, mais tarde vendido a Overture, até esta última ser adquirida pela Yahoo.

Já no segundo grupo acima citado, podem ser detacados os mecanismos do MSN Search (www.search.msn.com) da Microsoft, Gigablast (www.gigablast.com), Lycos (www.lycos.com), Looksmart (www.looksmart.com) e o Netscape Search (www.search.netscape.com).

O MSN Search apresenta bons resultados, e seu mecanismo está em constante desenvolvimento. No entanto, é uma opção nitidamente inferior ao Google, ao Yahoo e ao Teoma/Ask Jeeves. Ademais, seus resultados não muito confiáveis - ou isentos - devido a relação que a Microsoft tem com o governo norte-americano e sua agências no que concerne ao tratamento da informação. O Looksmart é dividido entre páginas amarelas, pagas por anunciantes, e a parte compilada por editores humanos (chamada de "Zeal") em categorias não-comerciais. Seu ponto fraco está no fato de ser focado quase que exclusivamente à comunidade anglófona. O Gigablast, apesar de seu dinamismo, tem uma base de dados bastante inferior aos maiores sites de busca.

Um dos mais antigos da web, de 1994, o Lycos, entrou em franca decadência após a aquisição pela Terra em 2000. Num dos piores negócios na história da "nova economia", a Terra "enterrou" mais de 10 bilhões de dólares, comprando-o por 12 bi o que meses depois passaria a valer, com a explosão da bolha das empresas "ponto.com", menos de 10% disso - valor aproximado que uma empresa sul-coreana pagou para a Terra recentemente. O Lycos atualmente tem uma aliança com a LookSmart que permite acessar o banco de dados de seus diretórios compilados por humanos. Ademais, paga para ter acesso à parte do banco de dados do Yahoo.

Quanto ao Netscape Search, este foi comprado pela AOL. A AOL também tem seu mecanismo de busca (www.aolsearch.com). Trata-se de uma empresa conhecida por censurar sumariamente o acesso a determinados sites, fechar contas de e-mails que tenham palavras, por exemplo, contra os interesses norte-americanos ou de Israel. Também é suspeita de passar informações sigilosas de seus usuários aos organismos de inteligência do governo dos EUA (ver Machado, 2003). não seria nem necessário dizer mais, já que tais suspeitas já desqualificam o site e seus adquiridos como fonte fiável de pesquisa.


 

3.2 Pesquisa em Portais acadêmicos

Os portais acadêmicos podem ser divididos em dois grandes tipos:

1) os de livre acesso;

2) os de acesso restrito ou mediante pagamento (comerciais).


 

3.2.1 Portais e Sites de livre acesso

A cultura da internet, desde os seus primórdios (ARPANET), é caracterizada pelo compartilhamento do conhecimento. É essa a filosofia que norteia a maioria das comunidades virtuais de usuários até os dias de hoje. No entanto, o fortalecimento dessa filosofia esbarra em interesses comerciais de grandes empresas e em práticas culturais muito enraizadas por parte de setores acadêmicos de alfabetização digital tardia - cujas razões são explicadas mais adiante.

Abaixo, são listados alguns nos mais conhecidos portais de livre acesso. Vale destacar que a maioria dos periódicos oferecidos também têm uma versão impressa.

ICAAP.org - Consórcio Internacional para o Avanço das Publicações Acadêmicas (www.icaap.org). Portal que defende o acesso livre a publicações acadêmicas. Oferece uma ampla lista de publicações "livres". Dispõe também, sem custos, espaço e serviço de hospedagem para as publicações acadêmicas que queiram aderir.


Directory of Open Access Journals
(www.doaj.org). Tem como objetivo "incrementar a visibilidade e a facilidade de uso das publicações acadêmicas e científicas através da promoção de sua difusão e impacto". Surgiu a partir da First Nordic Conference on Scholarly Communication, realizada em 2002.


The Public Library of Science
- PLoS (www.plos.org). É uma iniciativa sem objetivo de lucro que visa prover a comunidade científica de acesso livre e integral a publicações científicas de alta qualidade, sem restrições de uso e distribuição.

Citeseer. (http://citeseer.org/) Disponibiliza papers e artigos, principalmente da área de computação e matemática. Tem estatística de acesso e aceita comentários e avaliações sobre os textos.

ArXiv (http://www.arxiv.org/) Repositório de papers das áreas Física, matemática, ciência da computação e biologia quantitativa.

Red de Revistas Científicas de América Latina y el Caribe (Red ALyC) - (http://redalyc.uaemex.mx/). Projeto de acadêmicos da UNAM (México) que visa constituir um portal de livre e irrestrito acesso a revistas científicas latino-americanas.

DiVA - Digital Scientific Archive ou Digitala Vetenskapliga Arkivet no sueco (www.diva-portal.se). Desenvolvido na Universidade de Uppsala, com adesões de outras universidades. É um repositório de documentos científicos de livre acesso. Em operação plena desde 2003.

SciELO - Scientific Eletronic Library Online (www.scielo.br). Base de Dados Nacional da Área da Saúde. Possui versões em inglês e espanhol. O acesso é livre, mas não faz parte do movimento internacional Open Access. não há garantias que o acesso permanecerá livre.

Projeto Gutenberg (www.promo.net/pg). Amplo projeto que disponibiliza livros de domínio público.

Atena - Antigo diretório que reúne textos sobre filosofia, clássicos, historia, economia e literatura em geral. http://un2sg1.unige.ch/www/athena/html/athome.html

Information Access (www.informationaccess.org). Oferece acesso a publicações diversas, principalmente na área de medicina e tecnologia.

Open Archives Initiative (www.openarchives.org) Disponibiliza documentos Desenvolve e promove standards de inter-operatividade com objetivo de facilitar e eficiencia da disseminação de conteúdo. A iniciativa The Open Archives tem suas raízes no esforço de promover o acesso a arquivos digitais para aumentar a disponibilidade de comunicação acadêmica.

Public Library of Science (Biblioteca Pública de Ciência) http://www.publiclibraryofscience.org/

 



 

3.2.2 Portais e sites de acesso restrito ou mediante pagamento

São portais cujo acesso ao texto integral só é permitido através terminais ou usuários autorizados - assinantes individuais ou institucionais. Contrariando a lógica e a cultura da Internet, cobram pela simples visualização de um arquivo. O valor é, em geral, entre 10 a 30 dólares. Se você não paga diretamente, paga indiretamente - já que sua instituição ou governo terá de bancar. Reúnem publicações acadêmicas ligadas, em sua maioria, a grandes editoras privadas européias e norte-americanas.

 

 

Portal de Periódicos do Capes (www.periodicos.capes.br) - portal pago pelo contribuinte brasileiro que reúne publicações pertencentes a editoras comerciais européias e norte-americanas. Seu acesso é restrito apenas à alguns computadores de universidades de um "pool" de instituições. Reúne publicações da
Science Diret Online (Elsevier) - centenas de periódicos de todas as áreas; Kluwer; Springer Verlag - física, química, ciência da computação e matemática; Blackwell Publisher - ciências sociais aplicadas e humanas; Sage - ênfase na área de humanas, Ebsco - ciências sociais aplicadas e ciências humanas; Swets - várias áreas do conhecimento; e Gale Group - ciências humanas e tecnológicas.

 


Portais de acesso restrito que reúnem bases de dados:

Isi Web of Knowledge: Web of Science, Journal Citation Reports
Portal da Pesquisa - DotLib: Eletronic Reference Library - ERL (+ de 30 bases de dados das diversas áreas do conhecimento )
Cambridge Scientific Abstracts: Technology Collection, Engineering Collection, Eletronics Collection, Social Sciences Collections (Sociological Abstracts e outros)


 

3.2.3 Catálogos da Unicamp, USP e UNESP (alguns com acesso apenas a partir das bibliotecas)

- Base Acervus (livros e teses)
- Base de Periódicos (coleção impressa de revistas)
- Catálogo Unificado: UNICAMP/USP/UNESP Unibibliweb(Cruesp Biblioteca)
- Catálogo Coletivo Nacional de Publicações Periódicas - IBICT
- Catálogos de Teses e Dissertações:
- Banco de Teses - CAPES
- Biblioteca Digital de Teses e Dissertações - IBICT
- Biblioteca Digital de Teses e Dissertações - UNICAMP/USP/UNESP
- Catálogo da British Library


 

3.3 Pesquisa em Diretórios

DMOZ (Open Directory)

No que se refere a busca em diretórios, além dos citados Yahoo e Looksmart, há o Open Directory (www.dmoz.org). Como o próprio nome diz, um diretório aberto constituído pelo trabalho de editores voluntários espalhados pelo mundo. A busca deve ser feita através de tópicos.

 

 

O Open Directory foi fundado dentro do espírito do Open Source movement (movimento do Código Aberto), constituindo "o maior diretório 100% livre" (cf. DMOZ, 2004). A concepção do DMOZ é de que os próprios cidadãos ("netcitzens") podem organizar pequenas porções da rede e oferecer esse seu trabalho à população, selecionando o melhor do que há na web em diferentes áreas temáticas e línguas.

Muitos mecanismos de busca, como Netscape Search, Google, Lycos, HotBot, DirectHit e muitos outros, usam sua base de dados. Ou seja, o usuário tem a opção de fazer a busca no diretório do DMOZ através dos mecanismos de busca dos sites acima citados.

 

MusicMoz - Diretório de música

Baseado no modelo de edição do Open Directory, o MusicMoz (www.MusicMoz.org) tem o objetivo de ser um diretório aberto de música, construído por voluntários ao redor do mundo.

Outra opção para pesquisa de áudio e música é Audiofind (http://audiofind.com).


 

3.4 Pesquisa de Softwares

Para pesquisa e busca de softwares, há boas opções como o Ubbi (www.ubbi.com) e o Download.com (www.download.com) que possuem ótimas ferramentas e banco de dados. Ambos oferecem também avaliações e dicas sobre os programas. Os softwares baixados são seguros. O usuário deve apenas ter cuidado de não baixar pequenos utilitários que tenham spywares escondidos - programas que mandam informações privadas ou informações sobre a navegação do usuário do usuário para outro computador remoto. Neste caso vale visitar sites que apresentam lista desses programas, como Tom Cat (www.tom-cat.com/spybase/spylist.html).

 

Para conseguir números de série para os programas baixados usar sem limites, há os sites chamados "warez", como o www.serials.ws/index.php. No entanto, não recomendamos isso, pois o usuário poderá estar violando leis de propriedade intelectual. Além disso, muitos desses sites contém códigos maliciosos em suas máquinas, o que pode fazer com que um trojan (ou troiano - programa que permite que outro usuário vasculhe seu computador) seja instalado em sua máquina.




3.5 Pesquisa de Mapas

É possível encontrar mapas de todo tipo na web, especialmente mapas políticos e dos centros urbanos. Alguns são bastante detalhados e com escalas bem reduzidas. A maioria pode ser visualizada e copiada nos formatos GIF e JPEG.

Infelizmente há poucos sites que oferecem mapas de cidades, regiões e países latino-americanos. Mesmo nas instituições públicas e governamentais do continente há muito atraso nesse campo. Resta a opção de buscar nos sites norte-americanos e europeus que possuem bancos de dados de mapas de muitos países do mundo. Um bom início de navegação é através do Multimap (www.multimap.com).

Ainda que não seja freqüente, algumas prefeituras e governos oferecem em seus sites mapas digitais em escalas variáveis de suas cidades. Por fim, não se deve esquecer que uma opção é garimpar nos mecanismos de busca.

Abaixo, listamos alguns sites úteis para busca de mapas:

Map Link (http://maplink.uol.com.br/). Serviço de mapas de ruas brasileiro (cerca de 50 cidades).

Apontador (www.apontador.com.br). Serviço de mapas de ruas brasileiro: são 5500 cidades com mapas disponíveis em três níveis

Maps.com (www.maps.com). Atlas on-line com mapas do mundo todo

Map Quest (www.mapquest.com). Mapas detalhados das ruas dos EUA e mapas das principais cidades do mundo

National Geographic (www.nationalgeographic.com). Possui ótimos mapas.


 

3.6 Outras buscas

Imagens e fotos

Open Photo - Fotos com licença para uso comum (www.openphoto.net).

FreeMedia - Fotos e arquivos de mídia licenciados para uso livre para fins educacionais (University of North Texas). (http://web2.unt.edu/weblibrary/freemedi/gallery/index.php)

Opsound
Aúdios disponíveis sob licença Creative Commons. Você pode também mandar seus arquivos.(http://www.opsound.org)

SoundClick
Comunidade de serviço de hospedagem de música. Oferece milhares de arquivos de música licenciada. (http://www.soundclick.com)


Texto

Eldritch Press
Textos completos de livros com domínio público (http://www.ibiblio.org/eldritch)

Educacional / cursos

MIT OpenCourseWare
Cursos do MIT com contéudo aberto. (http://ocw.mit.edu)

Connexions Repository
Reposiório de cursos da Rice University's disponível para distribuição e reuso. (http://cnx.rice.edu/content)

Berklee Shares
Aulas de música de uma instituição de primeira linha sobre música onctemporânea. (http://www.berkleeshares.com)

Connexions - para busca de cursos diversos (http://cnx.rice.edu/content/)

 

Enciclopédia

Wikipedia (pronuncioa-se "uiquipídia") - Gigantesca enciclopédia de livre acesso formada pela contribuicao de milhares de cidadaos. Um dos mais notáveis projetos da Internet. http://www.wikipedia.org ou http://pt.wikipedia.org/wiki/main_page (português).

Subáreas da Wikipedia:

# Wikicionário - dicionário multilíngüe
# Wikilivros - coleção de livros de conteúdo livre
# Wikiquote - coletânea de citações
# Wikisource - repositório de documentos originais
# Wikimedia Commons - banco de imagens, sons e vídeos
# Wikinews - notícias de conteúdo livre
# Wikiespecies - diretório de espécies

 

Para arquivos de vídeo:

Internet Archives.org - Projeto que visa disponibilizar arquivos de filmes, textos e áudio (http://www.archive.org/movies/movies.php).

Prelinger Archives
Mais de mil filmes governamentais e de propaganda de domínio público(http://www.archive.org/movies/prelinger.php)

 

Para arquivos de páginas de web antigas

The Internet Archive. Reúne uma colecao de páginas históricas, preservando como eram no passado (http://www.archive.org)

 

Para referências sobre filmes e vídeo

IMDB - Internet Movie database. O mais completo arquivo sobre cinema e vídeo da Internet. Tem uma enorme base de dados, de fácil navegação e livre acesso. (http://www.imdb.com)

 

Para conversão de medidas

On line Conversion (www.onlineconversion.com)


 

4. Como citar material encontrado da web -Normalização Bibliográfica

Com o uso cada vez mais freqüente dos recursos eletrônicos ou digitalmente disponíveis através da web, foram estabelecidas normas para que esses documentos pudessem ser mais tarde identificados e recuperados. A norma ISO 690-2 trata de estabelecer referências comuns para a citação bibliográfica de documentos em formato eletrônico.

Abaixo, listamos as formas de referência, segundo o tipo de documento, um asterisco (*) assinala os elementos opcionais e dois (**), os obrigatórios.


Textos eletrônicos monográficos

Para textos eletrônicos monográficos - ou seja, publicados em um número limitado de lugares -, bases de dados e programas, tanto os acessíveis on-line como em suporte informático tais como disquete ou CDs:

Responsável principal. Título [tipo de suporte]. Edição. Lugar de publicação: editor, data de publicação, data de atualização/revisão. Descrição física*. (Coleção)*. Notas*. Disponibilidade e aceso** [Data de consulta]**. Número normalizado (ISSN)*.

Exemplo:

Holz, Paul. Guide of Research on Social Sciences. [on-line]. [Washington, DC: Library of Congress], 15 June 1999. <http://www.lc.edu/guides/socialsscience> [Consultado em: 5 maio 2003].


Contribuições em textos eletrônicos, bases de dados e programas.

São consideradas contribuições partes de documentos que tenham conteúdo unitário e independente das outras partes do documento que as contém.

Responsável principal. "Título (da contribuição)" [tipo de suporte]. (In:) Responsável principal (do documento fonte). Título (do documento fonte). Edição. Lugar da publicação: editor, data de publicação, data de atualização/revisão. Numeração e/ou localização da contribuição no documento fonte. Notas*. Disponibilidade e acesso**. [Data de consulta]**. Número normalizado*.

Exemplo:

Silva, José [cd-rom]. In: Guia Multímedia de Pesquisa. (Curitiba): Nova Bandeira, DL 1999. Vol. 1. ISBN 84- 395-6023-0.

Paz, Maria. "Análise de Redes Sociais" [on-line]. In: Anais do II Congresso Mundial de Pesquisa (2002: Belém). II Congresso Mundial de Pesquisa: 12-15 de abril de 2002. Belém, PA: CMP, 2002. <http://www.cmo.org.br/papers/grupo2/paz.htm> [Consulta: 27 abril 2003].


Artigos e outras contribuições em publicações seriadas eletrônicas

Aplicada àquelas que tem um conteúdo unitário e independente do conteúdo das outras partes do documento fonte (site)

Responsável (s). "Título" [tipo de suporte]. Título (da publicação seriada). Edição. Localização. Notas*. Disponibilidade e acesso** [Data de consulta]**. Número normalizado*.

Exemplos:

Paz, Maria. "Os Italianos em Belém" [online]. Jornal Gazeta de Belém. 7 maio 2002, n§ 1171. <http://www.gazetadebelem.com.br/07052002/cultura/italianos> [Consulta: 9 maio 2002].

Silva, José. "A Arte Barroca em Campinas" [online]: Revista de Estudos Campineiros. Vol. 3, no. 2 (1998). <http://www.rec.com.br/v3/n2/silvaj.htm> [Consulta: 27 abr. 1999].


Boletins de noticias, listas de discussão e mensagens

Título [tipo de suporte]. Responsável*. Lugar de publicação: editor, data de publicação. Notas*. Disponibilidade e acesso**. [Data de consulta]**.

Exemplos:

Reforma Trabalhista [online]: Grupo de Discussão. Rio de Janeiro, R.J., 2001. Lista de discussão <REFTRAB@LISTSERV.UFRJ.BR> no servidor <LISTSERV@LISTSERV.UFRJ.BR> [Consulta: 12 out 2002].


Sobre mensagens eletrônicas, a ISO 690-2 indica para descrever o endereço dos e-mails referentes à mesma. Mas isso é completamente fora da realidade, pois além da mensagem ser privada, as contas de e-mails podem estar sujeitas a uma avalanche de spams se divulgadas na Internet.

Assim é o que indica a norma (não recomendável, portanto):

Silva, José<josépintodasilva@yahoo.com>. "Nova versão do artigo" [online]. In: ANPOCS. 14 abr. 1997. Lista de discusão<soctextsl@listsev.bol.com.br> no servidor <listserv@listserv.rediris.es>. Mensagem arquivada em: <http://jose.rediris.es/archives/iwetel.html> [Consulta: 5 maio 1997].

SILVA, J. "Reforma na Previdência" [online] Mensagem pessoal enviada para o autor. 20 de maio de 1996.: <http://www.ufrj.br/reftrab.htm/> (Dispensa data de consulta)

Forma geral:
AUTOR. Título da obra. [online]. [Data: local] <URL: endereço do computador e caminho>. Data.

 

Citação de sites com senha de acesso

O modelo de Berners-Lee (o criador da web) propõe anotar a senha de acesso junto à URL, conforme o exemplo abaixo:

<http://www.unicamp.br/bibliot/usuário://socio12@olivo.csic.es>
isso corresponde a <protocolo://login:senha@servidor/path>. É dispensado o uso da senha, já que a mesma está embutida na URL.

Por desconhecimento, o mais usado é:

<htto:://urg.jupiter.es>, senha de acesso: 'aluno13'.

 

Forma simples e direta

A forma mais adequada e mais utilizada é a que não obedece às normas (ou será que as normas que não a obedecem?).

Martins, José (2002) "Normas mal pensadas". In: Silva, Paulo (org.) Acadêmicos e Internet. <http://www.e-books/2002/silvap.pdf>


 

5. Problemas na citação de textos

A maior parte dos problemas ocorrem devido à falta de compreensão do funcionamento da Internet. O erro é justamente o de querer transpor as características e qualidades do suporte papel para o plano digital. A princípio, para citações na web, basta simplesmente escrever a URL corretamente, de modo que, apenas com um clique, localize-se o documento desejado. No entanto, vejamos os problemas:

Problema Resposta
Como definir local? Não há como definir. A não ser que a página web indique. (O próprio domínio não diz nada, pois pode-se hospedar, por exemplo, um domínio com extensão ".br" ou ".de" em um servidor localizado na Eslovênia)
Como definir data? Não há como definir. Os autores estão colocando cada vez mais a data no próprio documento. É isso que vale.
Como citar uma passagem do texto (número da página)? Não há como definir. A não ser se o documento esteja em formato PDF, Word ou RTF ou o autor/editor tenha decidido introduzir uma numeração. Como opção, para outros tipos de documentos, pode-se numerar os parágrafos.
Como definir versão? Vale o que está indicado na página pelo autor ou editor. A data de consulta, indicada pela ISO 690-2 significa, na prática, muito pouco. Se a data for a referência, possivelmente teríamos que comparar o texto salvado em dias diferentes...
Como citar de forma compreensível?

A URL é o mais importante. Qualquer internauta entende. É absolutamente desnecessário escrever " [online]", "Internet", "documento eletrônico" ou "URL" se o que segue é a própria URL.
O ideal é copiar (teclas Ctrl + C) e colar (teclas Ctrl + V) o endereço completo da barra de navegação.


Para consultar/buscar uma citação específica em um documento sem páginas numeradas, basta usar a opção "localizar" do navegador (atalho: Ctrl + F), digitando o termo especificado no campo de busca.


 

6. Acesso livre a publicações científicas:
uma breve explicação sobre as questões políticas e éticas do problema

Informação e Poder na Academia

A disseminação das publicações digitais esbarra na falta de informação e no conservadorismo do mundo acadêmico - em especial nas ciências humanas. Na realidade, o problema é ainda mais complexo e profundo, pois o controle sobre a informação também significa poder. Decidir o que deve e o que não deve ser publicado ou lido sempre conferiu grande poder a membros de conselhos editoriais, núcleos diretivos de entidades acadêmicas e editoras, criando-lhes condições muito favoráveis de barganha em suas áreas de atuação.

No caso das editoras comerciais, é evidente que seus interesses se ancoram nos paradigmas editoriais do passado, caracterizado pelas qualidades e limites intrínsecos do suporte-papel. Esse tipo de suporte demanda altos custos materiais, uma eficiente rede de distribuição, além de capital para investimento e uma eficiente logística. Em países com poucos leitores e principalmente devido à pouca atratividade da produção acadêmica ao mercado, a necessidade de se conseguir financiadores eleva ainda mais o poder das editoras. Isso dá a elas condições privilegiadas para negociar com associações profissionais e organizações acadêmicas, adquirir os direitos de publicação - que deixam assim de pertencer aos seus autores - e ter acesso a fundos públicos - em troca da difusão do material científico.

Por outro lado, o controle dessas publicações por parte dos acadêmicos - como membros de conselhos editoriais - além de significar acesso privilegiado aos meios de difusão, significa garantia de manutenção de poder e status em seu meio. Isso se traduz em situações de rejeições de trabalhos por razões nem sempre claras, por trás de alegados critérios científicos. Não raro, são excluídas idéias inovadoras; áreas consideradas "marginais"; ou advindas de pesquisadores desconhecidos; ou de profissionais ligados a instituições de menor porte; de pessoas sem "bons contatos"; ou ligados grupos acadêmicos rivais.

Encastelados em suas posições de poder, tais setores usam os mais variados argumentos contra as publicações digitais. Alegações tão simplistas e pouco sustentáveis são freqüentemente utilizadas para rejeitar suportes digitais concorrentes. As principais se referem à "baixa qualidade" do que se encontra na Internet pela facilidade com que se pode publicar; à "baixa credibilidade", pelas mesmas razões anteriores, agravado pela falta de controle de pareceristas; ou ainda pela facilidade da cópia e do plágio. A resposta a tais argumentos poderia ser longa, mas como esse nao é o propósito desse texto, basta dizer que i) as publicações digitais também podem ter pareceristas, mas, mais que isso, estão expostas a comentários de numerosas comunidades de experts que, graças à Internet, podem acessar - aos milhares - seus conteúdos a partir de qualquer ponto da rede , ii) a cópia de documentos pode ser feita também de papéis impressos (que fazem as copiadoras?). Cabe ainda dizer que é muito mais fácil identificar plágios em documentos digitais, através da comparação de trechos - há até softwares que facilitam isso.

Trata-se de uma discussão longa. É um diálogo difícil, em que um lado não se deixa convencer apenas pelos argumentos baseados no potencial democrático. Tal oposição encontra eco em setores de alfabetização digital tardia - que não entendem a rede -, ainda predominantes nas universidades, especialmente nas áreas do conhecimento em que menos se faziam necessários os computadores pessoais há pouco mais que dez anos. Por trás desse discurso há uma interpretação muito peculiar de como se faz ciência. Seu fundamento é a legitimidade a uma pequena elite, que teria alcançado tais posições por mérito. Isto é seria o suficiente - o poder - para defesa e manutenção de velhos paradigmas. Essa elite, não seria apenas capaz, mas também a detentora dos meios para validar ou não um certo saber científico.

A restrição de canais para exposição de seus trabalhos sempre fez daqueles grupos que controlavam os mesmos, os verdadeiros senhores a quem se deveria pedir "por favor" para se publicar, e que decidia o que deve ou não deve ser lido. Não apenas a qualidade dependia deles, mas também a inovação, a crítica e mesmo a difusão, tão cara à ciência. Basta lembrar como era antes, sem a rede.

Por trás do chamado "rigor acadêmico", da "análise por pares", era comum ver a imposição de certas formas de pensar ou ver o mundo, de certas regras que, em parte, eram constituídas por representações e visões específicas de indivíduos em posições privilegiadas. Nas ciências humanas é possível ver como alguns paradigmas demoram para ser superados e como podem ser reproduzidos através de "escolas" em que a luta no campo das idéias é prejudicada por redes de interesses e lealdades cruzadas.

A ética da sociedade do conhecimento

A ética da sociedade do conhecimento - ou da informação -, percebida com propriedade por Peka Himanen (2001), está ancorada nos avanços tecnológicos nas áreas de comunicação, produção de informação e seu processamento. Impulsionada por uma "sede de saber", pela criatividade, a "ética hacker"(1) supera os limites impostos pela propriedade da informação (vale dizer que o hacker nao é quem rouba ou destrói dados, esse é o cracker). Sob está "ética", não há "juizes" do saber, senão que liberdade, experimentação e compartilhamento do conhecimento. Indivíduos constroem suas próprias comunidades em torno de interesses comuns em espaços dispersos na web, onde tecem suas redes de saber. É um jogo sem juízes em que a regra fundamental e o mais importante princípio é o compartilhamento e distribuição do saber adquirido. Senhas, censuras e controles de qualquer espécie significam violação desse princípio porque impõem limites.

Num sistema de redes, atores privilegiados, hierarquias rígidas e bloqueios são entendidos como "anomalias" que necessitam ser contornadas. Em meio às modernas tecnologias de informação, o espírito dessa ética hacker não aceita assimetrias no acesso à informação, ou que alguns poucos atores possam definir se aquilo deve ou não ser lido ou aceito pelos demais, se deve visto ou ouvido ou se é bom ou ruim. Questiona-se a "formação" e os requisitos tradicionais para se estabelecer e se obter autoridade. Qualquer mérito só pode advir do reconhecimento natural da comunidade. E isso depende também de outros fatores, tais como inovação, criatividade, cooperação e compartilhamento da informação. Assim a informação, o saber, o conhecimento especializado, longe de ser patrimônio de poucos, deve ser coletivizado, distribuído, "aberto", exposto e explorado. A legitimação do saber, ao invés de depender de um jogo sanções de poucos atores individuais, depende, portanto, do reconhecimento natural das comunidades livremente organizadas em torno de tais saberes.

Trata-se de uma busca do conhecimento com base na coletivização, distribuição e transformação da informação. Essas transformações sociais se chocam, desde a sua essência, com velhas práticas que obram, até por inércia, no sentido contrário - pela concentração do saber, hierarquização, pelo poder auto-legitimado e auto-concedido. Trata-se assim, de matrizes ideológicas e comportamentais bastante distintas e altamente conflitivas.

A emergente ética hacker que produziu uma imensa leva de jovens desobedientes e criadores - vale lembrar que muitas tecnologias de hardware, de softwares diversos, linguagens. sistema de distribuição da informação - foram desenvolvidas por jovens sem "mérito", "sem formação", "sem diplomas", sem as validações, legitimações e sem passar pelos rituais exigidos pelos sistemas de educação e de pesquisa oficiais. Assim como a ética protestante teve importância fundamental para o desenvolvimento do capitalismo, conforme Weber teve a perspicácia de mostrar, o espírito da ética hacker é do "open access" (acesso aberto) à produção intelectual, o código aberto dos softwares, do acesso livre a conteúdos multimidiais diversos ligados à arte, à música e ao entretenimento e da livre manifestação política e ideológica no ciberespaço.

No âmbito acadêmico a idéia de mérito científico ocupa um lugar fundamental - e assim continuará sendo. No entanto, é possível discordar de como se pode atribuir tal mérito. Na "sociedade informacional" ou "do conhecimento" que se configura, o compartilhamento da informação ocupa um papel fundamental, conforme já dito. Nela, a validação de um saber não se dá através de pequenos grupos - permeados de interesses bastante específicos e limitados de alguma forma, seja por geração, localização, ideologia ou sistema de valores - e nem através de difusão restrita. Pelo contrário, é uma comunidade muito mais ampla que gera, distribui, acessa e utiliza essa informação para gerar novos conhecimentos.

Iniciativas

Em apoio ao acesso aberto, avolumam-se as iniciativas políticas de setores mais progressistas da sociedade civil. Elas se materializam em documentos oficiais e iniciativas para promover o uso das tecnologias informacionais para a difusão ampla e democrática do conhecimento. Somam-se a isso, projetos de inclusão digital, de educação, de formação profissional e de promoção de infra-estrutura.

Entre as organizações, destacamos o movimento Open Access, que defende o direito do livre acesso à informação científica através da web. Para facilitar o acesso das publicações acadêmicas às formas de publicação digital, foi criada o Directory of Open Access Journals (DOAJ)e o ICAAP, anteriormente citados. Segundo o DOAJ, "jornais abertos" podem ser definidos como jornais que usam um modelo que não cobra o acesso aos seus leitores e nem instituições. "Open access" significa que são livres os direitos do "usuário para ler, baixar, copiar, distribuir, imprimir, buscar, linkar os textos completos desses artigos" assim como obrigação do jornal que para ser incluído nesse diretório (DOAJ 2004).

Com esse espírito, em 2003, acadêmicos, bibliotecários e editores lançaram o documento "Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities" - datado de 22 de outubro de 2003 - (http://www.zim.mpg.de/openaccess-berlin). Outras iniciativas de oficiais de apoio foram o "UN World Summit on the Information Society Declaration of Principles and Plan of Action", de dezembro de 2003 (documentação em http://www.itu.int); a "Declaration on Access to Research Data From Public Funding", da OCDE (Organização para a Cooperação Econômica e Desenvolvimento), de 30 de janeiro de 2004 (Documentação em http://www.oecd.org) e "IFLA Statement on Open Access to Scholarly Literature and Research Documentation", da The International Federation of Library Associations and Institutions (IFLA), de 24 de fevereiro de 2004. (documentação em http://www.ifla.org). Uma série de iniciativas locais e regionais também tem se somado a esses esforços para convencimento (2).

Também há a SPARC - Scholarly Publishing and Academic Resources Coalition (www.arl.org/sparc/). Trata-se de uma organização que reúne 300 universidades, centros de pesquisa e organizações da América, Ásia e Europa. A SPARC foi organizada para fazer frente a "disfunções do mercado", que dificultam a disseminação das bibliotecas acadêmicas e a comunicação cientifica. SPARC visa ser "uma catalizadora de ações, ajudando a criar sistemas que expandam a disseminação da informação e uso do ambiente de redes digitais para responder as necessidades da academia" (SPARC, 2004).

Como parte desse espírito, criou-se um tipo de licença, chamada "Licença de Criatividade Comum" (Commom Creative License) que é aplicável para obras de todo tipo (vídeo, áudio, textos, música). Ela permite copiar, distribuir, mostrar, realizar um trabalho, fazer cópias derivadas e até uso comercial desse trabalho, desde que seja dado o crédito ao autor original e seu resultado seja compartilhável. No caso de alteração, transformação ou obtenção de algo novo a partir desse trabalho, sua distribuição só é permitida sob as mesmas condições da licença. O mesmo vale para qualquer re-uso ou distribuição. O usuário deve deixar claro aos outros os termos da licença do trabalho, de forma que ela nunca deixe de ser acessível à "criatividade comum".

 

Restrição ao Acesso à informação: quem é prejudicado

No Brasil, em especial nas ciências humanas, o movimento Open Access ainda está em seus primeiros passos. Nas universidades, a discussão ainda é bastante limitada devido à alfabetização digital tardia de parte da comunidade docente, o que impede que a discussão avance a passos mais rápidos. A própria estrutura elitista e fechada da comunidade acadêmica dificulta ainda mais o debate, pois qualquer proposta é vista como ameaça à posições na estrutura do poder - em certos sentidos, pode realmente ser. Isso faz com que as batalhas mais encarniçadas na luta contra a democratização do acesso ao conhecimento ocorram, contraditoriamente, no interior das universidades, contra setores conservadores, identificados com a propriedade da informação e apoiados pela incompreensão predominante de setores de alfabetização digital tardia (e incompleta) que ocupam postos-chave nessas organizações.

Quem sofre mais com esse atraso são os alunos e docentes das universidades e faculdades menores, os centros de pesquisa com menos recursos, a população que vive fora dos grandes centros urbanos, os indivíduos que vivem em regiões mais pobres ou sem boas bibliotecas, a população mais carente em geral e todos aqueles que não fazem parte desses círculos privilegiados.

Vale dizer que a própria gestão da Internet no Brasil é um mal exemplo. Existe um precário controle social sobre ela. Não há prestação de contas de nenhuma espécie por parte do Comitê Gestor, inclusive com respeito aos recursos arrecadados. No que se refere à aspectos financeiros, isso tem levantado suspeitas há muito tempo. Ademais, o sistema de atribuição de domínios é um dos piores do mundo: restritivo, caro e burocrático, exigindo reconhecimento de firmas, registros profissionais, cópias autenticadas e outros trâmites cartoriais.

Nesse contexto, são fundamentais as ações articuladas por parte das organizações estudantis, comunidades de usuários, movimentos sociais e cidadões engajados para que as poderosas ferramentas proporcionadas pelas tecnologias digitais possam ser empregadas em favor da promoção do acesso democrático, livre e irrestrito ao conhecimento.


7. Pesquisa com segurança

Por fim, para uma pesquisa segura, vale algumas recomendações:

O Astalavista Group Security, dá as seguintes recomendacoes de segurança aos usuários domésticos:

01. Configure uma senha de BIOS e instale um protetor de tela que tenha proteção com senha.
02. Mantenha o programa antivírus atualizado pelo menos duas vezes por semana e analise todo programa baixado antes de executá-lo.
03. Sempre use a última versão dos seus programas, visite o site dos desenvolvedores regularmente e confira as novas atualizações, que frequentemente são lançadas por motivos de segurança.
04. Instale um bom firewall e aprenda sobre seu funcionamento para obter o máximo desempenho do mesmo. Lembre-se de que os firewalls não são soluções completas para manter a segurança, mas são muito úteis. Navegue neste site (http://www.firewallguide.com/software.htm) e escolha aquele que melhor se encaixe em suas necessidades.
05. Quando você estiver longe do computador e usa serviços que usam a internet, você deve desconectar seu modem do computador fisicamente.
06. Faça backups do seus dados pessoais, pois em caso de um problema de segurança aparecer e de alguma forma danificar seus dados, você ainda poderá recuperar tudo depois de limpar o sistema e reinstalá-lo.
07. Encripte seus e-mail e seus dados mais importantes, assim, em caso de uma invasão, o atacante não consiguirá se aproveitar dessas informações. Para isto, pode usar o programa PGP (site http://www.pgpi.org/).
08. Preste atenção extra quando algum programa de bate-papo está rodando. Frequentemente este tipo de aplicação é a porta de entrada de códigos maliciosos
virus/trojans/worms) e infecções.
09. Sempre use as opções de SSL (secure log in) do seu e-mail, tire vantagem disto e limite as chances de que alguém rastreie os dados importantes da sua conta, como login e senha.
10. Quando estiver lendo e-mails, desative o ActiveX, o Java etc... Uma boa idéia é ficar off-line enquanto lê as menssagens, pois assim os códigos maliciosos não poderão agir nem ser iniciados.
Leituras específicas sobre o material citado pode ser encontrada nestes links:
http://www.cert.org/tech_tips/home_networks.html e http://www.computeractive.co.uk/Features/1138957

Para testar a segurança do seu computador, há boas opçoes, como os sites Hacker Whacker (www.hackerwhacker.com), Sigatech http://scan.sygatetech.com/ e
http://grc.com/default.htm .


 

8. Bibliografia

Castells (2001) La Era de la Información. Vol. 1 La Sociedad en Red. Madrid: Alianza.

DOAJ (2004) "About DOAJ" <http://www.doaj.org/articles/about>

DMOZ (2004) "About DMOZ". <http://www.dmoz.org/about.html>

Estivill, Assumpcióy; Urbano, Cristóbal (1997) Cómo citar recursos electrónicos. <http://www.ub.es/biblio/citae-e.htm>

IDS (2004) Internet Domain Survey <http://www.isc.org/index.pl?/ops/ds/> .

ISO - International Standard Organization (1996). ISO International Standard 690-2. <http://www.nicbnc.ca/iso/tc46sc9/standard/690-2e.htm#7.12.1>. 1996.

Google Guide (2004) Google Guide: How Google Works. <http://www.googleguide.com/google_works.html>

Hal, Varian; Lyman, Peter (2000) How Much Information? URL: <http://www.sims.berkeley.edu/research/projects/how-much-info/>

Himanen, Pekka (2001) A Ética dos Hackers e o Espiríto da Era da Informação. Rio de Janeiro: Campus.

Machado, Jorge A. S. (2002) “O Ciberespaço como Arquitetura da Liberdade – Tentativas de Territorialização e Controle na Rede”, in Alves, Giovanni e Martinez, Vinício (orgs.) Dialética do Ciberespaço - Trabalho, Tecnologia e Política no Capitalismo Global. Bauru: Práxis. Online: <http://www.forum-global.de/bm/articles/ciberespaco_territorializacao_jorgemachado.htm>

McKinley, Tony (1998) Do Papel até a Web. S. Paulo: Quark Books.

Mustaro, Pollyana N. (2003) "A Ética dos Hackers na Sociedade em Rede", in Machado, J. (Org.); Trabalho, Economia e Tecnologia: Novas Perspectivas para a Sociedade Global. S. Paulo: Tendenz, Bauru: Ed. Praxis. Internet: <http://www.forum-global.de/tendenz/downloads/tecno1.htm>

Sergey, Brin; Page, Lawrence (1998) "The Anatomy of a Large-Scale Hypertextual Web Search Engine". Internet: <http://www-db.stanford.edu/~backrub/google.html>

SPARC (2004) "About Sparc" <http://www.arl.org/sparc/core/index.asp?page=a0>

Sullivan, D. (2004) "Major Search Engines and Directories" <http://searchenginewatch.com/links/article.php/2156221>.



9. Notas

(1) Ao contrário do que se difunde, o termo hacker surgiu no final dos anos 50 do século passado, para denominar cientistas do MIT peritos em informática.

(2) Para informações de como ajudar a campanha pelo "Acesso Aberto": (http://www.soros.org/openaccess/help.shtml)

 

 

Para sugestões, correções e comentários, escrever para:
machado sociologia.de
Página do autor: www.sociologia.de/jm

Viste também a página do movimento Open Access Brasil (Acesso Aberto):
http://www.forum-global.de/acessoaberto