Home > Eventos > JAI > JAI 6

 

Mineração de dados em redes bayesianas


Autores: Wagner Teixeira da Silva, Marcelo Ladeira

Apresentador: Wagner Teixeira da Silva


 

Redes bayesianas constituem um formalismo gráfico que explora o relacionamento de causalidade e independência condicional entre variáveis aleatórias, permitindo associar um estimador de ponto para a crença em certas declarações (sobre estados possíveis das variáveis), face às evidências observadas (informação disponível), com base na visão de Bayes da teoria de probabilidades. Ao nível internacio-nal, inteligência artificial e incerteza e em especial o raciocínio probabilístico baseado em redes baye-sianas, tem demonstrado ser uma profícua área de pesquisa que atrai o interesse de grandes empresas (como a Microsoft e a HP) e da comunidade científica. Existem diversas aplicações reais citadas na li-teratura abrangendo áreas como resolvedores de problemas (troubleshooter) no sistema Windows (a partir do Windows 95), engenharia de software, modelagem do estudante em sistemas tutores inteli-gentes, sistemas de apoio a tomada de decisão em diversas áreas tais como espacial, segurança, militar, engenharia, saúde, financeira, biológica, e-commerce, etc. Os principais fóruns da área são o congresso anual da UAI (Conference on Uncertainty in Artificial Intelligence) que realizará a sua 18ª edição em 2002 (UAI-2002), a conferência bianual IJCAI, International Joint Conference on Artificial Intelligen-ce e o congresso anual da AAAI, a National Conference on Artificial Intelligence.

O propósito de se organizar um modelo baseado em rede bayesiana para um sistema de suporte a deci-são é obter estimativas de certeza para eventos (variáveis aleatórios) que não são observáveis ou so-mente o são a custos inaceitáveis. A construção do modelo começa pela identificação dessas variáveis. Cada uma é representada por um conjunto de estados exaustivos e mutuamente exclusivos, ou seja, cada variável só pode assumir um único estado em um certo instante. É preciso ter em mente que uma rede bayesiana representa um modelo do domínio e, como todo modelo, constitui uma simplificação da realidade. Portanto não é necessário identificar todas variáveis, pois alguns fatores não relevantes podem ser resumidos na incerteza associada às probabilidades de algumas variáveis. Quando o con-junto das variáveis relevantes para o modelo tiver sido identificado, é necessário considerar o relacio-namento causal entre elas. Aqui não se trata do relacionamento de implicação lógica entre duas variá-veis, no qual se A implica B e A ocorre, então pode-se concluir B. Por se tratar de um domínio com incerteza, o relacionamento causal é potencial. Nesse contexto, se A é causa potencial de B, então a observação de A aumenta a probabilidade da observação de B. De forma geral, de onde surgem a to-pologia e as probabilidades utilizadas na modelagem de uma rede bayesiana? A topologia surge do es-pecialista do domínio, de modelos causais disponíveis na literatura do domínio em questão ou pode ser aprendida diretamente a partir de dados históricos. As probabilidades podem ser fornecidas pelo espe-cialista do domínio, obtidas em estudos estatísticos publicados, obtidas analiticamente através da apli-cação da análise combinatória para domínios específicos como a genética, ou ainda, aprendidas dire-tamente a partir de dados históricos.

Nesse minicurso são apresentadas técnicas de mineração de dados para aprendizado da topologia (re-lacionamento causal) e parâmetros (distribuições de probabilidades condicionais) da rede bayesiana, a partir de dados históricos. A análise de sensibilidade (de uma distribuição de probabilidades de uma variável de interesse em relação a variações nas distribuições de probabilidades de outras variáveis) e a avaliação de desempenho do modelo também são abordadas. Os exemplos a serem apresentados são baseados no uso do UnBBayes, framework para raciocínio probabilístico. Esse framework está sendo desenvolvido em Java na Universidade de Brasília, sob a nossa orientação, e será disponibilizado para os participantes desse minicurso.