AlpamayoR1: Большая модель причинно-следственных рассуждений для автономного движения к науке о данных

Alpamayo покорила мир автономного вождения благодаря своей новой архитектуре AlpamayoR1, которая интегрировала большую модель языка видения в качестве основы рассуждений, основанных на доводах. Этот релиз вместе с новыми крупномасштабными наборами данных и фотореалистичным симулятором вождения уже позиционирует компанию как одного из основных игроков в этой области в 2026 году.

В этой статье мы разберем архитектуру AlpaMyoR1, цепочку причинно-следственной логики, а также подробный процесс обучения, используемый для обучения модели.

Текущее состояние автономного вождения

Выпуск AlpamayoR1 (AR1) находит контекст в текущей парадигме сквозной (E2E) архитектуры. Цель модели E2E — сопоставить необработанные сенсорные данные (камеры, LiDAR, радар и т. д.) с траекториями в совершенно разных архитектурах, оптимизируя при этом единую цель.

Новая тенденция в E2E предполагает использование обширных мировых знаний о больших моделях языка видения (VLM) для решения сложных дорожных ситуаций. Обычно это предполагает использование VLM в качестве основы для рассуждений для информирования о будущих траекториях или в качестве учителей-экспертов для предоставления контрольных сигналов небольшим моделям учащихся.

Архитектура AR1

AR1 является ярким примером подхода «рассуждение о VLM как о магистрали». Несмотря на свой огромный размер, архитектура оптимизирована для реального развертывания и снижает задержку. 99 мс Или 10 Гц На одном графическом процессоре Blackwell, который считается общей целью по соображениям безопасности. В этом разделе мы проанализируем архитектуру и ее многочисленные нововведения.

AlpamayoR1: Большая модель причинно-следственных рассуждений для автономного движения к науке о данных — Общий обзор архитектуры AR1, источники: [1]

видеокодер

AR1 использует как визуальный, так и текстовый ввод в виде токенизированных изображений с камеры и инструкций на естественном языке. Для повышения производительности важно, чтобы видеокодер генерировал как можно меньше токенов.

Для этой цели авторы использовали преобразователь зрения (ВиТ).[2] Для токенизации одного изображения. ВиЦ делит изображения на последовательности токенов, закодированные обычным преобразователем. Обратите внимание, что интеграция более эффективных алгоритмов, таких как Flex [3] Токенизация нескольких видео оставлена на будущее.

Архитектура Vision Transformer, Источник: [2]

Основа рассуждения

Архитектура AR1 построена на основе Cosmos-Reason, одного из VLM от Nvidia, специально обученного для воплощения рассуждений в сценариях использования физического ИИ. Его общий обучающий набор состоит из 3,7 млн образцов вопросов-ответов (VQA), дополненных 24,7 тыс. образцов вождения для улучшения общего физического набора модели. К ним относятся видео VQA, снабженные логическими символами DeepSeek-R1 для прогнозирования следующего действия.

Cosmos-Reason обрабатывает визуальные и текстовые токены вместе с недавней эго-историей (прошлое положение xy и угол эго-транспортного средства) для вывода. цепочка причин и следствий Логические маркеры для определения будущих траекторий.

цепочка причин и следствий

Важным ограничением языковых моделей является присущая им двусмысленность текстовых меток в наборах визуальных данных. Оно включает в себя расплывчатые описания, лишенные причинной структуры. Модели, обученные на таких данных, демонстрируют низкую корреляцию между следами их рассуждений и прогнозируемыми функциями, а также причинную путаницу.

Набор движущихся данных состоит из неоднозначных аннотаций со слабым причинно-следственным обоснованием. Источник: [1]

Для воплощенного агента, такого как автономный автомобиль, необходимы сильные причинно-следственные способности. Чтобы преодолеть эти проблемы, команда Nvidia приложила значительные усилия, чтобы создать набор данных с достаточно согласованными аннотациями.

В частности, набор данных состоит из 20-секундных видеороликов, извлеченных из реальных записей вождения в различных условиях и странах. Каждый клип содержит двухсекундный контекст, связанный с решением вождения (например, обгон, уступка, обгон на перекрестке…) и его последствиями. Причинно-следственная структура этих сценариев подчеркивается последовательными текстовыми комментариями, составленными по строгому шаблону.

Конвейер аннотаций для набора данных причинно-следственной цепочки, источник: [1]

Первые 10% набора данных аннотируются людьми, а остальная часть аннотируется современными VLM, такими как GPT5, для масштабирования процесса маркировки. Еще раз были предприняты значительные усилия для обеспечения согласованности, качества и точности этих аннотаций, сделанных людьми и искусственным интеллектом.

AR1, примеры цепочки причинно-следственных рассуждений источника: [1]

декодер траектории

Последний шаг прямого прохода включает декодирование логических трасс в 64 точечные траектории. Хотя траектории обычно декодируются как последовательность путевых точек (координат xy), команда Nvidia обнаружила, что использование динамики одноколесного велосипеда (т. е. генерация последовательности значений ускорения и углов поворота) дает более последовательные результаты. В частности, это облегчает задачу обучения, не позволяя модели предсказывать физически невозможные траектории (например, точку t, находящуюся слишком далеко от точки t+1).

Интересно, что авторы принимают двойное представление траекторий, где модель автоматически генерирует отдельные токены во время обучения и использует сопоставление потоков для создания непрерывных траекторий во время вывода. Основные причины такой конструкции следующие:

Расположение жетона совместного действия-аргумента: Использование отдельных токенов действий делает возможным более сильную связь между логическими следами и действиями. Когда модель генерирует логическую трассу, следующие токены в последовательности (ускорение и кривизна) математически связаны с этим объяснением, предотвращая галлюцинации.
Особенности RL-оптимизации: Ограничение набора возможных токенов действий дискретным набором значительно упрощает оптимизацию RL. Фактически, выборка правильных токенов из разных словарей (например, ACCEL_NEG_2) намного проще, чем предоставлять градиент для постоянного значения, например -2.145 m/s^2. Как мы увидим в следующем разделе, это обеспечивает постобучение RL, что важно для повышения безопасности и стабильности моделей.
Сильный контролирующий сигнал: Использование перекрестной энтропии для разных токенов действует как задача классификации и лучше ее фиксирует. многофункциональный инструмент (например, разная вероятность поворота налево или направо) по сравнению с потерей MSE в координатах.
Согласование потока для оценки: Хотя отдельные токены отлично подходят для обучения, они обычно приводят к резким траекториям. Более того, автоматическая генерация последовательности из 128 токенов слишком медленна, чтобы ее можно было угадать в реальном времени. Чтобы устранить эти ограничения, авторы представляют специалиста по действиям: уменьшенную версию базовой архитектуры, использующую KV-кэш (который содержит токены сцены, историческое движение и логические трассировки) для декодирования непрерывных траекторий за один проход с использованием распространения с согласованием потока. Это одна из основных причин, почему AR1 может работать с такой низкой задержкой.

Тесты задержки для нескольких вариантов AR1, генерация траекторий посредством сопоставления потоков экономит около 200 мс времени вывода. Источник: [1]

Контролируемая тонкая настройка и пост-обучение RL

Многоэтапный конвейер обучения для магистральной сети Cosmos-Reason и архитектуры AR1, источник: [1]

Чтобы превратить магистраль VLM в эффективную политику управления, она подвергается контролируемой точной настройке (SFT) на ряде наборов причинно-следственных данных. В частности, он учится воспроизводить логические следы и соответствующие истинные действия путем максимизации логарифмического правдоподобия последовательности действие-аргумент:

Контролируемые потери точной настройки, созданные автором

Однако одного SFT недостаточно. VLM печально известны несоответствием между своей логикой и прогнозируемыми функциями. Статическая природа наборов данных с разомкнутым циклом позволяет моделям имитировать следы рассуждений, но отсутствие обратной связи с окружающей средой не позволяет им по-настоящему усвоить причинные реакции.

К счастью, RL помогает смягчить эти ограничения, предоставляя обратную связь при развертывании модели после обучения. В этой статье авторы используют RL для трех основных целей:

Улучшение качества аргументации: Более крупная логическая модель (например, DeepSeq-R1) оценивает логические следы AR1, чтобы убедиться в отсутствии аномалий или галлюцинаций, и, соответственно, предоставляет другое вознаграждение по шкале от 0 до 5. Хотя ожидается, что DeepSeek не сможет генерировать высококачественную логику для вождения, логику AR1 довольно легко оценить, она известна как Разрыв между поколением и проверкой.
Применение непрерывности в рассуждениях: писатели вынимают метадействие Из набора данных COC с использованием систем, основанных на правилах (ускоряться, бежать, идти прямо,…), если они соответствуют метадействиям, упомянутым в трассировках логики метадействий, модель получает дополнительное вознаграждение 1, в противном случае 0.
Качество траектории: Награда за траекторию измеряет расстояние L2 между прогнозируемыми и экспертными траекториями, штрафуя траектории, ведущие к столкновениям и толчкам большой силы.

После обучения AR1 генерирует несколько параллельных развертываний и получает вознаграждение. r_i На основе трех сигналов вознаграждения, приведенных выше. Эти вознаграждения используются для расчета потерь GRPO. [4]. GRPO рассчитывает выгоду от каждого внедрения относительно среднего показателя по группе. Этот подход без базовой линии (в отличие от других алгоритмов RL, таких как PPO), стабилизирует обучение, вознаграждая логические пути, которые превосходят свои аналоги по аналогичным входным данным, вместо того, чтобы полагаться на произвольные абсолютные оценки.

потеря грпо, создано автором

Все, что вам нужно понять об этой цели, это то, что ее цель — максимизировать вероятность траектории (логарифмический термин) с высокой прибылью (термик softmax) по сравнению с другими. Чтобы избежать потери предпочтений языка видения от VLM и знаний вождения, полученных в ходе SFT, цель упорядочивается с помощью расхождения KL между текущей политикой и эталоном (политикой, полученной в конце SFT).

Оценка

Протокол оценки состоит из 4 разделов: прогнозирование траектории с обратной связью, моделирование с обратной связью, исследование абляции и дорожные испытания на транспортном средстве. Хотя тот факт, что AR1 был развернут в реальных сценариях, впечатляет, результаты с разомкнутым и замкнутым контуром несколько непрозрачны. по моему мнению; Основная причина заключается в том, что они были выпущены одновременно с моделями на наборах данных Nvidia (замкнутый цикл: набор данных PhysicalAI-AV, замкнутый цикл: Alpasim). Это подразумевает отсутствие основ для контекстуализации производительности AR1.

Например, результаты с обратной связью имеют неаргументативную базовую линию только для сценариев AR1 и 75. Хотя AR1 превосходит базовый уровень по всем измеряемым показателям, часто он делает это в среднем на один процент и с гораздо большей дисперсией, чем базовый уровень.

Результаты с обратной связью для AR1 и нерационального базового уровня, источники: [1]

По этой причине я бы рекомендовал отнестись к этим результатам с недоверием, прежде чем оценивать другие архитектуры Frontier в Alpacim.

заключение

Несмотря на отсутствие соответствующих результатов, AR1 и связанные с ним наборы данных остаются впечатляющим инженерным достижением и хорошим показателем того, куда движется автономное вождение: сквозные модели, черпающие мировые знания из огромных VLM, обученных воплощенным задачам.

Однако сбор наборов данных о причинах, необходимых для установления причинно-следственных связей, требует значительных инвестиций и усилий по маркировке, что ограничивает воспроизводимость. Пока эти наборы данных не станут общедоступными. В моей следующей статье я сравню подход AR1 с другой современной моделью, которая полностью избавляется от текстовых меток и вместо этого обучает VLM выполнять задачи и рассуждать в скрытом пространстве.

Спасибо, что дочитали до этого места!

Если вы нашли эту статью полезной, пожалуйста, рассмотрите Поделиться; Это действительно помогает сэкономить время и усилия, затраченные на подготовку этой работы. Как всегда, не стесняйтесь свяжитесь со мной Если у вас есть вопросы, мысли или идеи, которые стоит обсудить. Если вы хотите поддержать мои независимые исследования и написание статей, не стесняйтесь купи мне кофе 😉

До следующего раза! 👋

AlpamayoR1: Большая модель причинно-следственных рассуждений для автономного движения к науке о данных

Текущее состояние автономного вождения