Tópicos em Bancos de Dados: Sistemas de Informação Inteligentes 1997/2

Introdução

A TREC (Text REtrieval Conference) é um conjunto de documentos SGML de diversas fontes e versando sobre diferentes assuntos, organizados como uma coleção de dados para fins de experimentos em Information Retrieval. O volume de dados contido na TREC é muito grande, de forma que foram criados diferentes estruturas para facilitar seu acesso.

O objetivo deste trabalho é construir uma ferramenta que forneça uma interface de acesso à TREC mais flexível que o acesso tradicional de arquivos. Desta forma, os programas de classificação (ranking) que se utilizarem da TREC estarão livres de lidar com os arquivos físicos diretamente. O servidor TREC vai permitir também o acesso remoto de clientes pela rede.

O sistema proposto é baseado na arquitetura tradicional cliente/servidor onde os clientes serão os diferentes programas de classificação. A Figura 1 abaixo ilustra a arquitetura do sistema. As setas pontilhadas indicam o fluxo de controle de execução dos programas.

Figura1. Arquitetura das aplicações

Usamos a arquitetura de chamada de procedimento remoto (RPC Remote Procedure Call) do próprio sistema Unix para implementar o sistema. Dentre outras vantagens, esta arquitetura permite que o processo cliente chame uma procedimento remoto de forma bastante transparente, como se este fosse um procedimento interno ao programa como os outros. Esta abordagem simplifica sobremaneira a implementação da aplicação cliente.