Temos instâncias Cassandra 3.11.2 de nó único e sem cluster, que oferecem suporte a muitos ambientes de clientes separados. Recentemente, vimos muitos casos em que uma instância do Cassandra foi iniciada com êxito por um script de cliente, mas não foi possível conectar-se imediatamente a esse cliente devido a um erro de 'conexão recusada'. Aqui está um trecho do log do lado do cliente mostrando as mensagens de inicialização e erros de conexão. O cliente está usando o driver Java versão 3.0.1.
2023-08-11 00:21:39,669 DEBUG [main:2cb1] STDOUT - 00:21:39.668 [main] DEBUG com.datastax.driver.core.Cluster - Starting new cluster with contact points [<host>:18512]
...
2023-08-11 00:21:39,915 DEBUG [cluster1-nio-worker-0:2cb1] STDOUT - 00:21:39.915 [cluster1-nio-worker-0] DEBUG com.datastax.driver.core.Connection - Connection[<host>, inFlight=0, closed=false] Error connecting to <host>:18512 (Connection refused: <host>:18512)
2023-08-11 00:21:39,920 DEBUG [cluster1-nio-worker-0:2cb1] STDOUT - 00:21:39.920 [cluster1-nio-worker-0] DEBUG com.datastax.driver.core.Host.STATES - Defuncting Connection[<host>:18512-1, inFlight=0, closed=false] because: [<host>] Cannot connect
2023-08-11 00:21:39,921 DEBUG [cluster1-nio-worker-0:2cb1] STDOUT - 00:21:39.921 [cluster1-nio-worker-0] DEBUG com.datastax.driver.core.Host.STATES - [<host>:18512] preventing new connections for the next 1000 ms
2023-08-11 00:21:39,921 DEBUG [cluster1-nio-worker-0:2cb1] STDOUT - 00:21:39.921 [cluster1-nio-worker-0] DEBUG com.datastax.driver.core.Host.STATES - [<host>:18512] Connection[<host>:18512-1, inFlight=0, closed=false] failed, remaining = 0
2023-08-11 00:21:39,922 DEBUG [cluster1-nio-worker-0:2cb1] STDOUT - 00:21:39.921 [cluster1-nio-worker-0] DEBUG com.datastax.driver.core.Connection - Connection[<host>:18512-1, inFlight=0, closed=true] closing connection
2023-08-11 00:21:39,931 DEBUG [main:2cb1] STDOUT - 00:21:39.931 [main] DEBUG c.d.driver.core.ControlConnection - [Control connection] error on <host>:18512 connection, no more host to try
com.datastax.driver.core.exceptions.TransportException: [<host>] Cannot connect
at com.datastax.driver.core.Connection$1.operationComplete(Connection.java:158) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.driver.core.Connection$1.operationComplete(Connection.java:141) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.util.concurrent.DefaultPromise.notifyListeners0(DefaultPromise.java:603) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.util.concurrent.DefaultPromise.notifyListeners(DefaultPromise.java:563) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.util.concurrent.DefaultPromise.tryFailure(DefaultPromise.java:424) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.fulfillConnectPromise(AbstractNioChannel.java:276) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.finishConnect(AbstractNioChannel.java:292) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:528) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:112) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at java.lang.Thread.run(Thread.java:748) ~[na:1.8.0_265]
Caused by: java.net.ConnectException: Connection refused: <host>:18512
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) ~[na:1.8.0_265]
at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:714) ~[na:1.8.0_265]
at com.datastax.shaded.netty.channel.socket.nio.NioSocketChannel.doFinishConnect(NioSocketChannel.java:224) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
at com.datastax.shaded.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.finishConnect(AbstractNioChannel.java:289) ~[cassandra-driver-core-3.0.1-shaded.jar:na]
... 6 common frames omitted
A inicialização e a conexão já funcionavam bem há muito tempo, mas descobrimos que o erro foi acionado por uma alteração na sequência de resolução de vários servidores DNS usados para localizar o nó Cassandra. Um servidor DNS responde cerca de 0,2 ms mais rápido que o outro, e quando o mais lento é o primeiro na sequência, o erro é gerado. Parece ser uma questão delicada de timing. Não vemos nenhum erro no system.log ou debug.log do lado do servidor.
Minhas perguntas são:
Uma diferença tão pequena nos tempos de resolução de DNS realmente deveria causar falha na conexão do Cassandra ou algo mais está acontecendo? Não queremos que a conexão do Cassandra dependa do sequenciamento do servidor DNS.
No driver 3.0.1, vejo as classes RetryPolicy e ReconnectionPolicy e como as implementações personalizadas podem alterar seu comportamento. No entanto, depois de ler o código do driver, não acho que nenhuma dessas opções afetará a conexão inicial com o Cassandra, apenas cenários de recuperação downstream quando as consultas falham ou as conexões são perdidas. É esse o caso ou alguma dessas opções realmente ajudaria?
Vejo que o driver 4.13.0 mais recente tem mais opções de configuração nesta área, incluindo uma propriedade advanced.reconnect-on-init que parece relevante. Atualizar o driver e definir essa propriedade resolveria o problema?
Quaisquer outras sugestões são bem-vindas!