AWS Neuron 2.24 introduces PyTorch 2.7 support, enhanced inference features like prefix caching and context parallelism, improving performance for deep learning model deployment on Inferentia and Trainium instances.


<div>
<p>
AWS has announced the general availability of Neuron 2.24, a release focused on improving deep learning model development and deployment on Inferentia and Trainium-based instances.
</p>
<ul>
<li>Introduces support for PyTorch 2.7</li>
<li>Adds enhanced inference features like prefix caching and disaggregated inference</li>
<li>Supports context parallelism for improved performance on long sequences</li>
<li>Provides support for Qwen 2.5 text models</li>
<li>Improves integration with Hugging Face Optimum Neuron and PyTorch-based NxD Core backend</li>
<li>Available in all AWS Regions with Inferentia and Trainium instances</li>
</ul>
<p>
The release aims to help developers and data scientists accelerate model training and inference, improve efficiency, and simplify deployment of large language models and AI workloads.
</p>
</div>


New features for AWS Neuron 2.24 include PyTorch 2.7 and inference enhancements

Related articles

Related articles

Aug 22
2025
Announcing AWS Neuron SDK 2.25.0

Sep 19
2025
Announcing AWS Neuron SDK 2.26.0

May 27
2025
AWS Neuron introduces NxD Inference GA, new features, and improved tools

Dec 22
2025
Announcing AWS Neuron SDK 2.27.0