Introdução e Objetivo
O avanço da tecnologia faz com que um grande número de usuários de sistemas informatizados gere milhões de dados que são armazenados em bancos de dados, os quais tem uma grande influência nas tomadas de decisões de uma corporação, quando transformados em informações. No entanto, muitas vezes estes dados ficam por anos sendo subutilizados, esquecidos ou ainda utilizados por um pequeno período de tempo.
Para usufruir desta possibilidade de tomada de decisão sobre dados do passado, surgiu o Data Warehouse (DW), um grande banco de dados contendo dados históricos resumidos em diversos níveis de detalhamento.
O objetivo deste estudo é apresentar as principais características de um DW, assim como identificar as diferenças entre a modelagem relacional utilizada em banco de dados que armazenam dados de sistemas transacionais e a modelagem dimensional utilizada nos bancos de dados de DW. Além disso, comparar os modelos Snowflake (floco de neve) e Star Schema (esquema estrela).
Metodologia
A metodologia utilizada foi a pesquisa bibliográfica em que se buscou levantar os autores que já abordaram o tema, por meio de uma revisão geral da literatura. Para tanto, foram estudados os conceitos de banco de dados, de sistemas de apoio a decisão e Data Warehouse, modelagem relacional e dimensional de dados.
Quanto a modelagem dimensional foram analisados os modelos Snowflake (floco de neve) e Star Schema (esquema estrela), a fim de encontrar as suas principais vantagens de utilização.
Além disso, para realizar a comparação das duas modelagens foram feitos testes de inserção e recuperação de dados nos dois modelos citados, utilizando máquinas virtuais com sistema operacional Windows 7 home Premium x64, o banco de dados ORACLE 11g Enterprise Edition Release 11.2.0.1.0. e a linguagem PL/SQL.
Resultados
Com a revisão bibliográfica foi possível constatar que o DW permite a integração de dados de diferentes fontes, tais como do banco transacional dos sistemas utilizados dentro da empresa, de planilhas de Excel, da Internet, dentre outros aplicativos. Com essa fonte única e centralizada de dados, otimiza-se o tempo e facilita o trabalho do usuário final.
A modelagem relacional é atualmente o principal modelo de dados para aplicações comercias de processamento de dados, utilizados para bancos de dados transacionais. Enquanto a modelagem dimensional utilizada na modelagem de data warehouse, é a mais utilizada, pois trata-se de um modelo simples e de fácil entendimento. Entretanto, a grande vantagem em ter um modelo dimensional é pela sua simplicidade, pois permite ao usuário gerar com facilidade suas próprias consultas.
Observou-se que a principal diferença entre o modelo Estrela e o modelo Floco de Neve está nas ligações entre as dimensões, pois no modelo floco de neve não ocorrem ligações entre as dimensões e estas são apenas de dimensões para fatos e nunca de dimensões para dimensões.
Nesse cenário, o modelo snowflake obteve melhor desempenho nos testes realizados em comparação ao modelo star schema, pois demonstrou ser mais ágil no momento de inserção e de recuperação dos dados. Enquanto, na dimensão tempo apresentou pouco vantagem nas pequenas quantidades de registros, ficando apenas poucos segundos na frente do modelo star schema. No entanto, quando se comparou um número maior de dados, a dimensão tempo apresentou uma maior diferença principalmente na inserção dos dados.
Embora os testes efetuados demonstrem uma boa vantagem do modelo Snowflake, não se pode afirmar que seja o melhor modelo para ser implementado, é importante ressaltar que ambos os modelos apresentam as suas vantagens. Portanto, deve ser analisado antes de se implementar qualquer um deles, pois os testes apenas demonstram que com essa quantidade de registros, o modelo snowflake obteve vantagem em relação ao modelo star.
Pode-se perceber também que o modelo snowflake evita redundância de informações, porém esta mesma vantagem pode se tornar uma desvantagem, já que desta forma o modelo se torna mais complexo e de difícil entendimento para pessoas com menor conhecimento na modelagem dimensional. Em se tratando do mesmo quesito, já o modelo estrela leva vantagem, pois sua modelagem é de fácil entendimento para qualquer pessoa.
Considerações Finais
Com esse estudo pode-se afirmar que o uso de uma modelagem deve ser escolhido conforme as necessidades específicas de cada organização, já que os modelos apresentam particularidades. Entende-se que a modelagem dimensional para DW foi desenvolvida para atender justamente essa demanda.
Também foi possível observar que a saída de informações (consultas) é uma das características importantes do DW, uma vez que a informação gerada dentro do DW poderá determinar o sucesso ou o fracasso de um negócio.