Ускорение агентских циклов в Responses API через WebSockets

Друзья, хочу поделиться из экосистемы OpenAI: Responses API получил WebSocket‑режим, который ускоряет агентские циклы.
Я ознакомился с материалом команды: они ввели постоянное соединение и кэш состояния, чтобы не пересобирать историю при каждом запросе.
Ключевые изменения: кэш рендеренных токенов; сокращение сетевых хопов; ускорение классификаторов безопасности; совместимость с response.create + previous_response_id.
Результат: агентские циклы до +40%, для GPT‑5.3‑Codex‑Spark достигнут ~1 000 TPS (в пиках до 4 000 TPS). Альфа‑партнёры подтвердили выгоду.
Почему это важно: чтобы скорость модели доходила до пользователя, нужно снижать накладные расходы API.
Какие части стека Вы бы ускорили в первую очередь?
#OpenAI #ResponsesAPI #WebSockets #LLM


Последние комментарии
Комментариев пока нет.