O futuro da Web: perspectivas e os motores de busca

Jonas Willian R. Aureliano

Faculdade de Tecnologia – Centro Paula Souza (FATEC-GT)
Caixa Postal 12.517 - 475 – Guaratinguetá – SP – Brasil

Abstract. The aim of this paper is to present a clear and practical way the basic concepts of the Semantic Web and the focus given to the search engines that have crucial importance in the work of organization and adaptation of the next generation web. Will discuss the emerging solutions that corporations are constantly researching to reap results, as a pioneer in the new web. Finally, we will conclude with an overview of the continuous struggle for dominance in the web and the use of artificial intelligence as an alternative way to improve the results brought by the search engines of the future.

Resumo. O objetivo desse artigo é apresentar de uma maneira clara e prática os conceitos básicos da Web Semântica e o foco dado aos motores de busca que terão crucial importância no trabalho de organização e adaptação a próxima geração da web. Serão abordadas as soluções emergentes que corporações vêm constantemente pesquisando a fim de colher resultados de forma pioneira na nova web. Por fim, concluiremos com uma visão geral sobre a disputa constante pelo domínio da web e o uso de inteligência artificial como caminho alternativo para a melhora dos resultados trazidos pelos motores de busca do futuro.

1. Introdução

A web, quando do seu surgimento, trouxe a perspectiva de uma grande plataforma onde fosse possível combinar cultura, negócios e entretenimento. Começa então o período referenciado como ‘Web Estática’. Usuários não acadêmicos foram então participando da web em vários pontos do globo. Grandes portais da rede também se consolidaram nessa época como bons centros de informações variadas. A web então não fornecia grandes possibilidades de interação entre usuário-plataforma, senão apenas o consumo de conteúdo gerado quase que exclusivamente por empresas especializadas que possuíam estrutura organizacional para tal feito. Recursos como códigos, ferramentas e browsers também eram limitados. A mudança viria alguns anos depois, por volta do ano 2000, com o surgimento de ferramentas para interação, participação e colaboração mútua entre os já inúmeros usuários da rede. Esse período ficaria marcado como a ‘Web Social’ justificada pelo alto número de páginas direcionadas ao inter-relacionamento entre pessoas. Tim Berners-lee (inventor da web e diretor do W3C, órgão que supervisiona sua criação) afirmou em entrevista de 2009 que a Web Social era frustrante por conceder poderes demais aos usuários. Segundo Lee, várias pessoas escrevendo e opinando sobre diversos assuntos gera um conteúdo maçante que na prática inviabiliza o uso aproveitável das informações. De fato, o crescimento da web acelerou desordenadamente após a popularização da Web Social, impulsionando aplicações onde usuários adotava uma mudança de comportamento, passando a produzir conteúdo e não mais consumir apenas (exemplos de blogs e wikis). Aplicações baseadas em construção de conhecimento colaborativo/participativo e redes sociais com focos diversos também se espalharam pela rede com conteúdos, quase exclusivamente, publicado por usuários comuns. Berners-lee tem defendido desde então a construção de uma ‘web inteligente’ onde todo o conteúdo pudesse ser organizado de modo estruturado, com fácil acesso.

Motores de busca, atualmente gerando resultados de modo sintático, passariam a analisar semanticamente as requisições do usuário e processar resultados mais precisos, sendo então essenciais para o aproveitamento efetivo do conteúdo da web. Tim Berners-lee nomeia o projeto para a próxima evolução da web de ‘Web Semântica.

2. Web Semântica

A próxima evolução da web é, na verdade, uma extensão da web atual. Trata-se de um conjunto de tecnologias, algumas já usadas, para melhorar a estrutura atual das páginas web, bem como o armazenamento e acesso a bases de informações na web. Uma das ideias centrais é a introdução de máquinas no gerenciamento, análise e processamento do conteúdo da web. Na atual conjuntura, não é possível imaginar um robô/máquina navegando pela rede, pois o conteúdo está apenas legível para humanos. Em paradoxo, algumas ações (compulsoriamente feito de modo manual no cenário atual) causam ambiguidade, lentidão na análise e resultados fracos no aspecto semântico em razão do conteúdo desorganizado da web. A proposta da nova web é então marcar semanticamente o código-fonte das páginas e relacionar o conteúdo entre as páginas, criando uma conexão, antes inexistente, entre elas. O resultado seria uma gigantesca rede semântica de dados interconectados através de marcações em comuns [Breitman 2005]. Com os dados organizados e ligados de alguma forma, motores de busca com algoritmos específicos terão capacidade de analisar a relevância dos resultados através de abordagem semântica do termo pesquisado. Um dos grandes benefícios esperados da Web Semântica é o processamento em linguagem natural. Atualmente o conteúdo é abordado de modo sintático e os motores de busca, ao receberem a requisição, analisam apenas quais páginas contém o termo pesquisado. Com uma abordagem semântica, será possível, por exemplo, aos motores de busca processar perguntas, cálculos, etc.

2.1. Estrutura

A estrutura de camadas da Web Semântica foi proposta em 2001 e atualizada em 2005. Foram propostos novos padrões de formato para que as linhas de código fossem inteligíveis por máquina, assim como o armazenamento de dados também ocorreria de modo organizado logicamente [Pollock 2010]. Além de novos padrões de formato, a Web Semântica aproveita-se de tecnologias já disponíveis como o XML (eXtensible Markup Language) que permite estruturar páginas através de tags personalizadas, conferindo identificadores a cada seção do código. O RDF (Resource Description Framework) é a linguagem de descrição de recursos, que fornece identificadores como nome do recurso, data, autor, formato, idioma, entre outros, para relatar descrições de qualquer coisa que possa ser representada na forma de endereço dentro da rede, seja pessoa, equipamento, página, etc.

As relações RDF são representadas na forma de grafo, chamado triplas, composto por três elementos: sujeito, predicado e objeto. O sujeito e o objeto são relacionados através do predicado (ou propriedade).

A camada SPARQL (Simple Protocol and RDF Query Language) compõe um formato padrão para consultas de dados armazenados e descritos com RDF. Sua estrutura de código é bastante semelhante ao SQL (Structure Query Language) com cláusulas comuns (Select, From, Where) e específicas (Base, Limit, Filter). O SPARQL não fazia parte da pilha de padrões original mas passou a ser recomendação da W3C na revisão dos padrões apesar de nem todos os mecanismos de busca e bases de dados aceitarem ainda suas especificações. A Oracle, maior empresa de software corporativo do mundo, tem em sua nova versão de base de dados um suporte nativo a RDF e aceita perfeitamente consultas em SPARQL [Pollock].

As camadas de Lógica, Prova e Confiança ainda estão em fase de pesquisa para sua estruturação. A camada de lógica permite a escrita de regras, enquanto a camada de prova executa estas regras e as avalia juntamente com o mecanismo de confiança, o qual assegura ou não a prova dada.

3. Ontologias

Para compreender as ontologias e a camada de OWL (Web Ontology Language) é preciso introduzir o conceito de metadados. Vários autores definem metadados de diferentes formas, mas em uma visão geral, metadados é tratado como ‘dados sobre dados’, isto é, dados que se referem ou possuam uma ligação com outros dados. Um humano olhando um conjunto de números numa página web pode determinar facilmente se trata-se ou não de um telefone ou número de cartão de crédito por exemplo. Para uma máquina esse trabalho só é possível com marcações de dados adequadas ou metadados associados àquele número. Uma rede formada por metadados é possível, partindo do pressuposto que não há limites para associar dados, apesar da estrutura proposta da Web Semântica exige implicitamente um limite para evitar a complexidade no agrupamento de dados [Breitman 2005].

Após a marcação e estruturação dos dados com XML e descrição dos recursos com RDF e metadados, a aplicação de ontologias irá reunir seres descritos em um cenário (chamado de domínio) e realizar inferências sobre as relações desses seres dentro do universo abordado. As ontologias podem ser específicas para um determinado universo ou algo em particular, sendo nesses casos classificadas em 3 tipos.

3.1. Ontologias de domínio

As ontologias de domínio fornecem vocabulário para relacionar termos dentro de um domínio particular específico (medicina, mecânica, biologia). A Figura 4 refere-se a uma representação em grafo de uma ontologia sobre o reino animal. Ontologias de domínio também podem ser usadas para aprendizagem cooperativa, que envolve pessoas, formando uma comunidade de aprendizagem, e atividades. Pessoas, grupos, documentos, coleções, temas e atividades podem ser unicamente identificados por seus nomes.

3.2. Ontologias de tarefas

Uma ontologia de tarefa tem o objetivo de fornecer vocabulário e relações para automatizar uma tarefa específica, geralmente, na resolução de problemas, independente do domínio em que ocorram. Essa tarefa ou atividade pode estar em domínios distintos, sendo sempre ela genérica, por exemplo, o acesso à informação ou compras.

3.3. Ontologias de aplicação

Procura solucionar um problema específico de um domínio ou uma esfera particular dentro de um domínio genérico, como identificar doenças do coração a partir de uma ontologia de domínio de cardiologia ou aplicações tributaristas dentro de um domínio de direito.

4. Motores de busca e a perspectiva para o futuro

Na imensidão de documentos que compõe a web atualmente, os motores de busca tem importância decisiva. O constante desenvolvimento de novos algoritmos que tragam resultados mais relevantes e precisos torna acirrada a competitividade pela preferencia de usuários. A Google, com o Google Search tem domínio do mercado há alguns anos, mas seu engenho é fraco no aspecto semântico, o que pode tornar-se uma ameaça com a advinda dos novos padrões de formato para estruturação das páginas web. A Microsoft, empresa líder em sistemas operacionais para usuário final, comprou no ano de 2008 o engenho de busca semântica Powerset numa clara aposta na tecnologia semântica. No ano seguinte, a empresa surpreendeu ao lançar seu próprio buscador, denominado Bing, com algoritmos remanescentes do Powerset e uma exibição de resultados interessantemente diversa. Mas o Bing não alcançou o resultado esperado, deixando novamente espaço para continuação no desenvolvimento de motores de busca mais precisos. Alguns projetos estão disponíveis há alguns anos, outros ainda estão em fase de testes.

5.1. Hakia

Um dos primeiros projetos que foram desenvolvidos por completo e disponibilizados para testes, o buscador hakia foi apresentado no ano de 2007 e continua disponível até então. Seu engenho utiliza alguns algoritmos que suportam processamento em linguagem natural, isto significa que o hakia pode ser capaz de processar perguntas e retornar links ou vídeo com a resposta mais próxima possível [Bibliotech 2008]. A qualidade nos resultados, definida por vários fatores como fonte de referencia confiável, data da informação e, principalmente, a relevância dos dados é um ponto constantemente em evolução e tem objetivo principal, eliminar a ambiguidade presente em buscadores comuns.

5.2. ZoomInfo

Um dos mais recentes exemplos de buscadores que utilizam tecnologias da Web Semântica em seus algoritmos de busca. Trata-se de um localizador que rastreia a internet constantemente a procura de dados sobre pessoas e negócios. A partir de informações analisadas de modo semântico, a página do ZoomInfo utiliza algoritmos de Inteligência Artificial para extrair os dados mais relevantes de páginas rastreadas e elaborar ou atualizar um perfil com base nessas informações [Pollock 2010]. O mecanismo de pesquisa semântica do ZoomInfo é capaz de analisar as sentenças e deduzir se um parágrafo específico é a descrição de uma pessoa/empresa ou que uma sequência de algarismos representa um número de telefone. Posteriormente a extração de dados, a lógica de integração da informação permite que o ZoomInfo separe e organize os dados, inclusive determinando quais estão atualizados e quais não estão. Alguns resultados são espantosos, pela quantidade e precisão, principalmente de pessoas cuja biografia está, em grande parte, documentada na internet.

5.3. Wolfram Alpha

Lançado no ano de 2009, é uma das aplicações mais simbólicas entre os buscadores inteligentes. Foi desenvolvido por Stephen Wolfram (mesmo criador de outra aplicação bem sucedida, o Mathematica) e apresentado na universidade de Harvard, despertou interesse geral ao levantar uma nova possibilidade aos motores de busca, o uso de Inteligência Artificial para gerar resultados [The Independent 2009]. Essa nova adoção permitiu que o engenho de busca respondesse perguntas com precisão, além de fazer cálculos, reconhecer cores e trazer dados estatísticos diversos relacionados ao termo pesquisado. Não se trata propriamente de algoritmos com a tecnologia da Web Semântica, mas sim fontes de dados diversas compondo a ‘base de conhecimento’ do Wolfram Alpha, exatamente como na maioria dos buscadores. A inovação está no tratamento de tais bases de conhecimento, onde não há indexação de páginas e, consequentemente geração de documentos como resultados; o sistema Wolfram Alpha armazena de modo particular os dados, analisa as sentenças da busca e gera uma resposta precisa ou dados estatísticos pertinentes.

A capacidade de realizar cálculos, lidar com fórmulas, e resolver equações também impressiona, com grande parte desse ‘aprendizado’ do sistema derivando do Mathematica, adicionado ainda ao recurso de plotar gráficos, função também oriunda do Mathematica. Apesar de ter uma proposta claramente diferente dos buscadores usuais, o Wolfram Alpha demonstra baixa eficácia quando os termos de pesquisa referem-se a assuntos triviais (como cultura pop, entre outros) e isso o afasta de engenhos tradicionais como Google, Bing ou Yahoo! Search. Por outro lado, a despeito de seu banco de dados menor, fornece informações mais pertinentes sobre vários tópicos e tem quase ausência de dúvidas quanto a sua precisão, colocando-se como o mais bem construído software com sabedoria computacional nas áreas de ciência, matemática, linguística e história.

6. Referências

BREITMAN, KARIN, Web Semântica, A Internet do Futuro. LTC, 2005. 212 páginas

POLLOCK, JEFFREY T., Web Semântica para Leigos. Alta Books, 2010. 402 páginas

SOCIAL BEAT, Matt Marshall (2008) – “Microsoft to buy semantic search engine Powerset for $100M plus”, http://venturebeat.com/2008/06/26/microsoft-to-buy-semantic-search-engine-powerset-for-100m-plus/, Outubro, 31. 2011

INOVAÇÃO E NEGÓCIOS, “Bing, novo buscador da Microsoft, foi lançado”, http://www.inovacaoenegocios.com/2009/06/bing-novo-buscador-da-microsoft-foi.html, Outubro, 31. 2011

BIBLIOTECH (2008), “Web Semântica e o novo buscador Hakia?”, http://bibliotech7.blogspot.com/2008/08/web-semantica-e-os-novo-buscador-hakia.html, Novembro, 01. 2011

GOOGLE DISCOVERY (2009), “Wolfram Alpha: nova ferramenta que promete desbancar Google”, http://googlediscovery.com/2009/03/09/wolfram-alpha-nova-ferramenta-que-promete-desbancar-google/, Novembro, 01. 2011

NUMEROFILIA (2011), “Conheçam o Wolfram Alpha”, http://www.numerofilia.com.br/2011/05/conheca-o-wolfram-alpha.html, Novembro, 02. 2011

THE INDEPENDENT, Andrew Johnson (2009), “An invention that could change the Internet for ever”, http://www.independent.co.uk/life-style/gadgets-and-tech/news/an-invention-that-could-change-the-internet-for-ever-1678109.html, Novembro, 02. 2011

HYPE SCIENCE, Sérgio Souza (2009), “Novo site de busca desafia o Google, e é muito interessante”, http://hypescience.com/novo-site-de-busca-desafia-o-google/, Novembro, 02. 2011

W3C (2001), “Web Semantic”, http://www.w3c.org/2001/12/semWebfin/w3csw, Novembro, 02. 2011