Gli agenti AI possono eseguire il consenso blockchain? Test pratico di ETH Zurich: solo il 41,6% di successo
Raggiungere un consenso in condizioni in cui alcuni partecipanti potrebbero agire in modo malevolo rappresenta la sfida centrale che tutti i sistemi decentralizzati devono affrontare; nel calcolo distribuito questo è noto come il problema della tolleranza bizantina ai guasti, e i vari meccanismi di consenso della blockchain mirano essenzialmente a risolverne diverse varianti. Il team di ricerca del ETH Zurich ha testato direttamente la capacità di consenso bizantino degli agenti LLM nel loro paper "Can AI Agents Agree?": diversi agenti trasmettono ripetutamente proposte e votano tramite una rete completamente connessa e sincronizzata, mentre alcuni agenti agiscono come nodi bizantini malevoli intenzionati a sabotare il processo. Il team ha utilizzato Qwen3-8B e Qwen3-14B, eseguendo centinaia di simulazioni con diversi numeri di agenti (4, 8, 16) e proporzioni di nodi malevoli.
Anche in assenza totale di nodi malevoli, il tasso di consenso efficace era solo del 41,6% (Qwen3-14B al 67,4%, Qwen3-8B solo al 15,8%). Più nodi ci sono, più è difficile raggiungere un accordo: il tasso di successo scende dal 46,6% con 4 agenti al 33,3% con 16 agenti. L'aggiunta di nodi malevoli peggiora ulteriormente il consenso, con i fallimenti che si manifestano principalmente come timeout e stagnazione della convergenza (perdita di attività), piuttosto che come alterazione dei valori. Solo menzionando la "possibile presenza di nodi malevoli" nel prompt, il tasso di successo di Qwen3-14B è sceso dal 75,4% al 59,1%, anche se in realtà non erano presenti nodi malevoli. Le conclusioni del paper affermano che un consenso affidabile non è ancora una capacità emergente su cui si può fare affidamento negli agenti LLM attuali, e si raccomanda cautela per le implementazioni decentralizzate che dipendono da un coordinamento robusto.
Esclusione di responsabilità: il contenuto di questo articolo riflette esclusivamente l’opinione dell’autore e non rappresenta in alcun modo la piattaforma. Questo articolo non deve essere utilizzato come riferimento per prendere decisioni di investimento.
