Amazon Bedrock now offers latency-optimized inference for Claude 3.5 Haiku and Llama 3.1 models, delivering faster AI model response times without compromising accuracy.


<div>
<p>
Amazon Bedrock introduces latency-optimized inference for foundation models, enhancing AI application performance.
</p>
<ul>
<li>Supports Anthropic's Claude 3.5 Haiku and Meta's Llama 3.1 405B and 70B models</li>
<li>Provides faster response times without compromising accuracy</li>
<li>Leverages AWS Trainium2 and advanced software optimizations</li>
<li>Requires no additional setup or model fine-tuning</li>
<li>Particularly beneficial for latency-sensitive applications like chatbots</li>
</ul>
<p>
The feature is currently available in the US East (Ohio) Region, offering improved inference speed for generative AI applications.
</p>
</div>


Introducing latency-optimized inference for foundation models in Amazon Bedrock

Related articles

Related articles

Mar 5
2025
Announcing latency-optimized inference for Amazon Nova Pro foundation model in Amazon Bedrock

Dec 23
2024
Amazon Bedrock Agents, Flows, and Knowledge Bases now supports Latency Optimized Models

Nov 6
2024
Integrate foundation models into your code with Amazon Bedrock

Jan 28
2025
Optimizing AI responsiveness: A practical guide to Amazon Bedrock latency-optimized inference