Amazon introduces SWE-PolyBench, a multilingual benchmark for evaluating AI coding agents' performance across Java, JavaScript, TypeScript, and Python, offering comprehensive metrics to assess their ability to understand and navigate complex codebases.


<div>
<p>
Amazon has introduced SWE-PolyBench, a groundbreaking multilingual benchmark for evaluating AI coding agents across diverse programming languages and real-world scenarios.
</p>
<ul>
<li>Covers four programming languages: Java, JavaScript, TypeScript, and Python</li>
<li>Contains 2,110 curated coding tasks from 21 repositories</li>
<li>Includes a stratified subset of 500 issues (SWE-PolyBench500) for rapid experimentation</li>
<li>Introduces new evaluation metrics beyond pass rates, including file-level localization and CST node-level retrieval</li>
<li>Aims to assess AI coding agents' ability to navigate and understand complex codebases</li>
</ul>
<p>
Key findings show that current AI coding agents perform best in Python and struggle with complex, multi-file tasks across different programming languages. The benchmark provides a comprehensive framework for evaluating and improving AI-powered software engineering tools.
</p>
</div>


Related articles