Eu tenho um banco de dados Oracle (10.2.0.1.0, acredito) em um servidor Windows 2003 que, acredito, travou com sucesso o próprio sistema operacional duas vezes. Debates sobre plataformas e estabilidade à parte, as evidências sugerem que o servidor deixa de responder a qualquer acesso remoto (portas abertas, mas os serviços não respondem) devido ao que eu só posso imaginar ser um estado ruim no processo do Oracle. A equipe de TI notou que o processo parecia estar impedindo a reinicialização bem-sucedida quando eles desligavam e ligavam.
Não tenho acesso físico ao servidor. No entanto, como está funcionando novamente, há algum log/despejo/etc. que posso verificar, o que pode me apontar na direção certa? Se você fosse eu, por onde começaria? O Google não tem sido gentil com o assunto.
A primeira coisa a observar seria o arquivo alert.log do banco de dados. Se o banco de dados estava com problemas nos horários identificados, você receberá mensagens de erro no alert.log e, muito provavelmente, obterá ponteiros para arquivos de rastreamento detalhados.
Você está licenciado para usar o AWR? O statspack está instalado? Se nenhum dos processos do banco de dados estiver travando, é possível que o servidor não tenha respondido porque o aplicativo estava emitindo SQL descontrolado e o Oracle estava sobrecarregando o servidor. Um relatório AWR/statspack da época em questão mostrará se a Oracle estava realmente fazendo alguma coisa na época ou não. Se você tiver alguma informação de monitoramento do Windows a partir do momento em questão, isso também seria útil. Se os monitores de desempenho do Windows mostrarem uma pilha de atividades e o Oracle não mostrar nenhuma, por exemplo, isso seria muito interessante.
Se você acredita que o processo Oracle causou problemas ao sistema operacional, talvez deva dar uma olhada também no Visualizador de eventos desse servidor. As seções do sistema e do aplicativo devem ser as únicas a verificar se há mensagens de erro.