Ferramenta para Documentação de BI

Com as evoluções tecnológicas o volume de dados e suas análises vem aumentando como uma consequência e necessidade de exploração dos achados que podem estar inclusos nos dados. O Business Intelligence (BI) que não é uma estratégia de análise de dados tão nova, também vem crescendo nesse contexto. Uma tomada de decisão em nível mais inicial minimamente vem sendo cada vez mais orientada a dados e o BI rapidamente fornece insights para tais esse perfil de decisões.

Recentemente venho pesquisando sobre documentação para BI, a partir de fonte em português para entender como está a produção nacional. Acredito que não seria muita novidade dizer que ainda tem espaço para a produção de títulos nacionais nesta linha. Não temos muitos títulos falando da parte de pré-produção de um BI, principalmente no que tange ao planejamento e documentação para uma implantação.

Para fins de compreensão do propósito desse texto, ele se trata de um registro de investigação que pode ser considerado como um ensaio de um artigo de proposição de ferramenta, a partir de um relato de experiência.

Retomando aos achados da pesquisa sobre documentação para BI, dentre os títulos que identifiquei posso destacar o livro BI Como Deve Ser: O Guia Definitivo de Diego Elias e Grimaldo Oliveira. Este livro apresenta a abordagem inicial a construção de um BI que lida com a identificação das necessidades do cliente, definição de medidas e dimensões e posteriormente identificação das origens dos dados a serem extraídos para o ambiente do BI. De forma complementar ao livro existem cursos por vídeo aulas que orientam a execução desse levantamento de requisitos e preparação do BI, disponibilizando ainda planilhas estruturadas para a realização deste trabalho.

Antecipadamente, destaco que o uso de ferramentas de ETL com interface visuais e modelos de dados favorecem muita a visualização estruturada dos dados, mas esta pesquisa tem um viés de entender conceitualmente uma estrutura de documentação para BI, sem a utilização ou dependências dessas ferramentas.

A apresentação dos fundamentos e planilha de suporte são recursos bastante estruturantes para a consolidação de conhecimentos sobre a preparação de um BI. Contudo, diante do mercado e da velocidade exigida tomei a liberdade de implementar algumas otimizações na estrutura proposta. Foram disponibilizadas duas planilhas, a primeira contendo uma matriz de necessidade, na qual eram identificados quais dados fundamentariam a construção das medidas do BI. Se tratava realmente de uma matriz, pois, bem a esquerda, nas linhas eram registradas as referências dos dados (numéricos ou categóricos) como nomes, tipos e valores ainda podendo criar em uma linha superior as demais uma marcação que separar os grupos de dados, caracterizando as dimensões. Enquanto na parte superior, organizadas pelas colunas eram representadas as tabelas fatos e logo abaixo eram adicionados os nomes das medidas. Uma marcação como um check entre as linhas e colunas como uma batalha naval apontada a relações entre os dados que compunham determinada métrica.

A segunda planilha era relativa ao trabalho mais técnicos de identificação dos dados propriamente ditos, com ênfase na identificação das tabelas e colunas correspondentes aos dados em um determinado banco de dados. Esta planilha não perdia de vista a organização da primeira. Também preservava as referências aos dados de dimensões e fatos, mas neste caso, reunindo informações sobre colunas de banco de dados, posições de arquivos entre outras origens de dados necessários para as medidas requeridas. Esta planilha se separava em duas abas, uma para as dimensões e outra para as tabelas fatos e as medidas. Nas linhas se mantinham os conceitos e em coluna se identificavam as origens dos dados como tabelas ou visões do banco de dados, os respectivos campos ou colunas e possíveis relações

Após a avaliação das planilhas a hipótese levantada foi verificar se era possível estruturar os dados de forma a evitar o uso de duas planilhas, porém mantendo a estruturação dos dados de forma consistente, informação com propósitos diferentes, mas convergentes seriam mantidos em uma mesma aba de uma nova planilha. Avaliando a estrutura dos arquivos foi possível notar que ambos preservavam a estrutura de dispor em linhas as informações conceituais sobre os dados (exemplo: nome para a dimensão profissional) ou as referências aos atributos para as dimensões ou métricas para as tabelas fatos e em coluna dispõe a composição entre as relações dos dados (valor e categórica) que compões uma métrica) ou origens físicas dos dados (tabela e visões, campos e relacionamentos entre os dados).

A partir da compreensão estrutural das planilhas foi possível traçar uma estratégia para elaborar um artefato para validar a hipótese que era possível dispor todos os dados em uma só aba e planilha. Para tanto a estratégia estabelecidas foi separar os conjuntos de ações percebidas conforme o livro e vídeo aulas que se mostraram necessárias para documentar uma estrutura de BI. O resultado da planilha consolidada de documentação do BI pode ser vista na Figura 1, a mesma foi estruturada a partir das seguintes ações: Semântica definindo características pertencentes aos dados de negócios fundamentais para a construção do BI, (1.1) a definição das medidas e modelagem conceitual (textual) das tabelas do BI, esta ação tem ainda um (1.2) conjunto de legendas para estabelecer as interações entre os dados, (2) o mapeamento da carga dos dados, e por fim (3) a definição dos gráficos. Essa foi a ordem de construção do template de documentação, mas não significa que seja única ordem possível de execução. Ao final do texto serão explicadas algumas alternativas para a forma de uso do documento.

A Figura 1 apresenta um exemplo de uso da planilha com dados já inseridos de forma a apoiar a explicação. O contexto do exemplo se trata de uma empresa de varejo, onde são identificados as vendas, os vendedores, uma classificação de regiões dos clientes que compraram, estabelecida na cidade sede da empresa, as categorias e o custo dos produtos vendidos, além de um olhar dessas métricas ao longo dos meses e anos. Este é um exemplo hipotético e para fins didáticos de explicação da planilha resultante, assim é possível que algumas nomenclaturas dos dados, relações ou modelo sejam questionáveis, mas a intenção não é modelar um cenário real de BI e sim explicar a concepção e uso da planilha.  

A explicação da planilha levando em conta a sua construção inicia com a coluna destacada no canto inferior esquerdo da Figura 1 que faz referência a “Semântica”. Esta coluna tem como objetivo definir um conceito não técnico, mais voltado para o negócio e que consiga explicar um determinado dado a ser reconhecido para o BI. Por exemplo, na segunda linha de cima para baixo dessa coluna pode ser visto o texto conceitual “identificação da venda”, este conceito pode ser aplicado para diferentes origens de dados físicos como uma coluna de uma tabela de um banco de dados ou de um arquivo, um retorno de API, entre outros, do qual ainda não sabemos o nome na fase de levantamento dos requisitos do BI. Em termos de negócio essa identificação poderia ser referente ao número da nota fiscal, um valor de registro de um sistema interno de vendas ou qualquer outra semântica de mesmo significado.

A coluna “Semântica” tem duas aplicações. Ela faz referência tanto para a modelagem conceitual (textual) identificada na Figura 1 pelo item 1.1, como para a parte de Carga no item 2 que identifica as origens dos dados e possível carregamento dos dados. A modelagem conceitual (textual) do item 1.1 como pode ser vista na Figura 2 tem como título superior das colunas o nome “Medidas” e todas as demais colunas abaixo devem representar as medidas propriamente ditas. Todas estas células também têm preenchimento em cor verde e podem ser inseridas ou removidas colunas conforme a quantidade de medidas necessárias ao BI. Neste conjunto também existe a última coluna que caracteriza as tabelas de Dimensão ou Fato.

Aprofundando as características em relação as Medidas quanto composição que estas colunas possuem e relação às Semânticas definidas para o BI se faz necessário se voltar ao item 1.2 da Figura 1. Neste item foi estabelecida um conjunto de legendas que explicam algumas das relações possíveis entre dados. O caractere entre parêntese deve ser digitado nas células que relaciona a medida e o item semântico que se quer atribuir da interação correspondente (funcionado com uma coordenada coluna (x) e linha (y)). Nesta parta da planilha é utilizada a fonte Wendings, assim, ao digitar o caractere indicado dentro do parêntese na posição adequada será reproduzido visualmente um ícone ao invés dos caracteres padrão. Os ícones são correspondentes aos da legenda do item 1.2. Continuando a explicação da legenda, logo após o fechamento do parêntese, existe o termo que sugere a interação esperada para certo dado que será utilizado no BI (Medida, Dimensão, Relacionamento, Ordenação etc.). De forma a melhor explicar essa legenda abaixo serão apresentados todos os itens da legenda, onde entre parênteses terão os caracteres que precisam ser digitados para gerar o ícone visual da legenda nas células do arquivo entre os itens Semânticos e as Medidas, em seguida o termo da legente e após traço segue a explicação objetivo para o termo da legenda:

(a) Medida – caracteriza um valor ou dado categórico que irá compor o cálculo da medida;

(N) Dimensão – sinaliza uma coluna de uma dimensão que precisa esta presenta na composição da medida;

(i) Label|Agrupamento|Distinto|Filtro – faz referência a colunas que classificam os dados das tabelas fatos e serão usados na parte visual das medidas para rotular os dados;

(`) Relacionamento – representa um dado fará relacionamento com dado de uma outra fonte;

(4) Ordenação – indica um dado que dá suporte a ordenação dos demais dados;

(1) Faz parte da Primeira Medida – para medidas com mais de um valor aplicar essa marcação junto com o representativo de Medida para indicar o primeiro valor que faz parte de medida em questão;

(2) Faz parte da Segunda medida– para medidas com mais de um valor aplicar essa marcação junto com o representativo de Medida para indicar o segundo valor que faz parte de medida em questão;

Logo abaixo das legendas ainda é possível definir algumas características levando em conta que os dados trabalhados são de um Dashboard específico. Assim é possível definir o objetivo, as fontes de dados e a frequência de atualização para o Dashboard.

Em relação a aplicabilidade das legendas pode ser verificada na Figura 2. Esta Figura também evidência os recursos do Excel aplicados na planilha. Este resultado dando ênfase apenas as colunas e linhas necessárias foi conseguido com o congelamento da primeira coluna, assim é possível mover as células horizontalmente e conseguir essa visualização contemplando a coluna Semântica de forma fixa e aproximar dela as células respectivas as Medidas. Desta forma assim com verificado no modelo de referência pode ser feita a relação entre as medidas e os dados semânticos. Cabe adicionar que quanto a coluna Dimensão | Fato tem como finalizada indicar os agrupamentos dos dados conforme será disposta a estrutura do BI. Neste contexto, se faz necessários conhecimentos prévios de modelagem de BI que não serão tratados neste artigo.

Com base na Figura 2 serão verificados como exemplos as medidas Total de Lucro e Vendas por Região. A medida Total de Lucro possui a semântica Data da venda, que foi atribuída a tabela fato FT_VENDAS e é uma coluna necessária para realizar um relacionamento com a semântica Dia atribuída a tabela dimensão DM_CALENDARIO. Essa compreensão explica o uso da legenda de relacionamento para esse item semântico e com este relacionamento é possível alcançar uma visão mensal do Total do Lucro utilizando a semântica Mês que vem da DM_CALENDARIO, assim a legenda de visualização foi aplicada a semântica Mês. Como o mês é apenas uma estrutura textual e quando ordenado alfabeticamente não reflete a realidade das ordens dos meses do ano no Brasil, foi atribuída a semântica Mês Ano com a legenda de ordenação, uma vez que esta é um numeral no formato “ano mês” como neste exemplo para o ano de 2023 no mês de outubro representado com o formato a seguir “202310”. Em relação ao cálculo dessa medida, ela é feita para cada venda, assim é necessário usar a Identificação da venda (FT_VENDAS), então a mesma foi legendada como “medida”. Para a medida de lucro existe a convenção é preciso deduzir do Valor da venda (FT_VENDAS) o Valor de custo (dimensão DM_PRODUTO). Assim, o Valor da venda foi legendado como “Faz parte da Primeira Medida” o Valor de custo foi legendado como “Faz parte da Segunda Medida”. Com esse conjunto de legendas além de identificar os elementos semânticos que compõe a medida é possível gera uma explicação de utilidade dos mesmos nesta composição.

Em relação a medida Vendas por Região foi definida a semântica Valor da venda (FT_VENDAS) com a legenda de “Medida”, a Rua do comprador recebeu a legenda de “Relacionamento” entre a dimensão DM_CLIENTE e a dimensão DM_REGIAO e a semântica Região de endereço recebeu a legenda que pode corresponder a “Label|Agrupamento|Distinto|Filtro”, uma vez que o valor das vendas será segregado conforme as regiões identificadas. Neste caso, a medida responderá as propriedades de um cubo de BI e se segmenta como um comportamento comum desta estrutura a partir de um atributo de uma dimensão.

O modelo apresentado preza pelo reuso de medidas, desta forma considera a criação de medidas mais simples e por composição a geração de medidas mais complexas, assim na legenda só foram necessários adicionar marcadores para “Faz Parte da Primeira Medida” e “Faz Parte da Segunda Medida”. Estas duas legendas já representam razoavelmente as operações básicas da matemática que em geral se utilizam de dois termos, como multiplicando e multiplicador, divisor e dividendo, base e potência, entre outros.

Como já foi citado anteriormente o uso da coluna “Semântica” também se aplica ao item 2 da Figura 1. Este item representa a “Carga” de dados, cujo preenchimento da coluna está em cor cinza, seguida de colunas abaixo com preenchimento em azul. Estas colunas são fixas e serão explicadas a seguir junto com exemplos de uso baseado na Figura 3:

  1. a) Origem: representa as fontes de origem dos dados que pode ser uma tabela de um banco de dados ou de um arquivo, retorno de API, entre outras fontes.
  2. b) Coluna/Atributo – indica a coluna ou atributo em que o valor da semântico pode ser obtido.
  3. c) Detalhes – caso exista alguma particularidade para a Coluna/Atributo que representa o elemento Semântico. Como exemplo pode ser visto na Figura 3 para o item semântico “Categoria do produto” a instrução para “Desconsidera a categoria “validacao”.
  4. d) Relacionamentos/Dependências – indica possíveis interações entre os dados. Conforme a Figura 3 temos o exemplo para o item Semântico “Rua do comprador” ao qual é indicado a necessidade de aplica uma relação n:1 (“n” para “1”) entre campo endereco da tabela Cliente e o campo rua” da tabela Regiao.
  5. e) Destino – indica onde o dado deve ser carregado uma vez que a sua origem, coluna/atributo, detalhe e relacionamento/dependência já foram identificados. Este recurso apoia a relação entre extração e carregamento do dado, mas ao mesmo tempo flexibiliza cenários onde não há uma rigidez na padronização do modelo de dados (tabelas) do BI. Os assuntos referentes a rigidez, consistência ou padronização de modelos de dados no BI não será discutida neste artigo, dado que em alguns momentos, práticas de self-service BI não levam em conta o carregamento de dados em uma base específica para consumo posterior dos dados.

Além dos elementos relativos ao levantamento de necessidade e mapeamento das origens dos dados foi elaborada a definições entre as medidas e os respectivos gráficos a serem publicados na apresentação dos dados do BI. Nesta representação cada linha de primeira coluna tem uma finalidade a ser alcançada a partir dos valores inseridos nas colunas a seguir que fazem correspondência com as respectivas medidas. A leitura desta estrutura pode ser feita no sentido de baixo para cima partindo da medida já reconhecida até a linha superior que aponta o gráfico em que a medida será utilizada. Também é possível fazer a leitura no sentido de cima para baixo partindo do título do gráfico até as medidas. Um mesmo gráfico pode ocupar mais coluna de acordo a quantidade de medidas necessárias para compor a sua visualização, nestes casos será repetido o título do gráfico em todas as colunas necessárias. Adicionalmente como pode ser visto na Figura 4 também foram atribuídas cores específicas de preenchimento nos títulos que representam um mesmo gráfico.

As linhas têm as seguintes finalidades:

Título do Gráfico -> que representa o título que o gráfico terá;

Gráfico -> indica o tipo do gráfico que será utilizado (gráfico de colunas, de Barras, colunas ou barras com linhas, gráfico de linhas, mapa, mapa de calor, entre outros);

Representação no Gráfico -> indica a representação que a medida terá no gráfico podendo ser uma coluna, uma barra ou linha, entre outras representações;

Medida – Fórmula|Medida | (DAX/MDX) -> pode ser inserida a fórmula em uma escrita técnica representando por exemplo por uma expressão multidimensional (MDX) a ser aplicada, expressão de análise de dados (DAX) ou outras expressões ou funcionalidade de linguagem, entre outros recursos que podem escrever medidas para um BI;

Medida – Descritivo -> é uma representação textual da medida de forma mais familiar para a leitura e compreensão no nível de negócio;

Medida – Nome -> define o nome da medida que será aplicado no contexto visual do BI.

Conforme a Figura 4 é possível alertar que deve ser mantida a medida na mesma coluna fazendo correspondência entre a coluna que modela textualmente a medida e a coluna que explica a representação que a medida terá no gráfico. Assim é possível até que a medida na tabela que representa o gráfico receba um nome semanticamente mais adequado para a visualização, mas sem que seja perdida a referência de estrutura e composição que ele deve possuir tecnicamente.

Em detalhe será exemplificado a composição do gráfico Meta de Lucro Mensal, a leitura será feita no sentido de cima para baixo. Este gráfico é composto por duas medidas assim o seu título ocupa duas colunas que tem o preenchimento em cor azul. Quanto ao tipo do gráfico se trata de um gráfico de Colunas e Linhas. A primeira medida será uma coluna na representação do gráfico, enquanto a segunda medida será a linha. Quanto a Medida – Fórmula|Medida | (DAX/MDX) para e primeira medida foi aplicando a soma (DAX SUM) do Valor de Venda menos a soma do Valor de custo. Na linha da Medida – Descritivo foi registrado o conceito da fórmula Total de Lucro é igual a Valor de venda (a1) menos o Valor de custo (a2). Neste ponto cabe destacar que a anotações (a1) e (a2) representam as legendas que indicam a medida 1 e a medida 2 que estão mapeadas no item 1.1 referente a composição das medidas. Por fim a última linha que consta a Medida – Nome pode ser vista com o nome Total de lucro por mês, este que se diferencia do nome que foi mapeado para a medida no item 1.1 que é apenas “Total de Lucro”, mas como já foi alertado manter as medidas na mesma coluna do arquivo, seja na tabela do item 1.1 como na construção do gráfico (item 3), é uma regra para facilitar os reconhecimentos da mesma em suas diferentes etapas e funções do BI. Quanto a composição existe uma ação e reconhecimento técnico, já no gráfico se prioriza a semântica compreensível para o negócio e leitura dos usuários finais do BI. Concluindo a leitura para a segunda medida ela representará a linha do gráfico, por ser mais simples se tratando apenas de um valor de meta mensal não foi indicada uma fórmula (DAX | MDX, etc.), quanto a Medida – Descritivo se trata da Meta mensal de Lucro e como Medida – Nome temos a referência a ser aplicado no visual do gráfico como Metal Mensal.

A partir do resultado desse trabalho algumas considerações podem ser apresentadas. Foi realizado um estudo a partir do Livro BI Como Deve Ser: O Guia Definitivo e curso em vídeo aulas dos mesmos autores compreendendo aspectos de documentação de BI com ênfase nos modelos disponibilizados a partir de duas planilhas, uma para o levantamento de necessidade e a outra para o mapeamento de dados para composição de BI. O proposito da investigação era consolidar em uma só planilha os dados fundamentais para documentação do BI sem perder de vista os aspectos de compreensibilidade e usabilidade na ferramenta resultante. Aparentemente foi possível dispor o conjunto de informações identificadas no material de referência em uma só aba de uma planilha. Cabe um melhor entendimento se esta junção afeta a compreensão ou usabilidade para fins de documentação de BI. Dado os modelos base alguns elementos adicionais foram estabelecidos, como a legenda para as estruturas que compõem as medidas do BI. Assim foram criadas legendas para indicar os itens semânticos que representam valores que compõe diretamente a fórmula das medidas, legendas para itens que fazem relacionamento entre tabelas ou mesmo itens agregadores e ordenação dos dados. Como aspecto inédito foi implementada a definição prévia dos gráficos associados as medidas, de forma a lançar a ideia de finalidade visual que as medidas terão na estrutura do BI.

Com a planilha finalizada outras formas de uso podem ser pensadas. Por exemplo, a partir de gráficos solicitados para a equipe de BI é possível seguir para a identificação dos dados. Isto proporia um ciclo iniciando a partir do olhar para o produto final do BI que é a visualização para então localizar os meios de como atingir esse resultado. Também seria possível partir da definição da Carga de dados e em seguida estabelecer o modelo conceitual (textual) e estruturação dos gráficos. Outras estratégias de uso também podem ser identificadas.

Quanto a evolução deste trabalho se faz necessário a aplicação prática dessa planilha recolhendo a impressão dos usuários de modo a verificar a capacidade que essa ferramenta tem de documentar um BI de forma fácil e sem prejuízos de usabilidade, manutenabilidade entre outros fatores.

O arquivo apresentado pode ser baixado, para tanto informe um email de contato e o consentimento para posteriormente receber  um email com formulário de avaliação da planilha. 



    Referências

    Oliveira, Grimaldo Lopes de Oliveira, Diego Elias. BI Como Deve Ser – O Guia Definitivo. Salvador, 2016.

    Academia BI – Analytics. Acesso em: https://www.udemy.com/course/academia-bi-analytics/

    1 Comentário

    • Extraordinário, como autor do livro vejo um avanço de conhecimento nos artefatos e de suas atualizações. Parabéns.

    Comente

    O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

    Posts Populares

    • All Post
    • Autorais
    • Destaque
    • Destaques
    • Educação
    • Feeds de Arquitetura de Software
    • Feeds DevOps
    • Gestão
    • Sem categoria
    • Tecnologia
      •   Back
      • Agilidade
      • Scrum
      •   Back
      • Excel
      • BI
      • IA
      • Big Data
      •   Back
      • Inglês
      •   Back
      • Scrum

    Atualidades e Experiências

    Acompanhe os conteúdos e siga a trilha que mais te interessa: Tecnologia, Educação e Gestão

    Categorias

    Edit Template

    EDSPACE

    Apenas uma missão, compartilhar conhecimento.

    Posts Recentes

    • All Post
    • Autorais
    • Destaque
    • Destaques
    • Educação
    • Feeds de Arquitetura de Software
    • Feeds DevOps
    • Gestão
    • Sem categoria
    • Tecnologia
      •   Back
      • Agilidade
      • Scrum
      •   Back
      • Excel
      • BI
      • IA
      • Big Data
      •   Back
      • Inglês
      •   Back
      • Scrum

    © 2022. Edspace. Todos Direitos Reservados