
Step-Audio-R1 преодолява текстовите ограничения в аудио моделите чрез нов метод на обучение, достигане на ново ниво на точност.
Какво се променя днес?
Аудио моделите с изкуствен интелект често изпитват затруднения, когато става въпрос за разширено разсъждение, което не е основано на реалния звук, а по-скоро на текстови сурогати. Тази граница в производителността е обяснима със зависимостта от текстово обучение, което остава аудиото в подчинена роля. За да се напредне в тази област, изследователският екип на StepFun представя Step-Audio-R1. Това ново аудио LLM е проектирано да скалира компютърните ресурси по време на тест, решавайки проблема с текстовото заменително разсъждение и поставяйки акцент върху акустичните доказателства.
Вместо да базират разсъжденията си върху текста, настоящите аудио модели изглежда разбират и анализират аудио като да четат транскрипции. Текстовото поставено разсъждение, както го нарича екипът на StepFun, става основен източник на грешки. Моделът не се възприема и анализира акустични особености като контур на честотата, ритъм или тембър, което води до спад в точността при дълги разсъждения.

Дългосрочните последици
Step-Audio-R1 използва революционни техники за обучение, като Modality Grounded Reasoning Distillation (MGRD), която е фокусирана върху акустични особености. Тази методология на обучение включва множество фази на дестилация, в която се подбират и събират само тези разсъждания, които директно се отнасят до акустични индикатори и са логически последователни. Към това се добавя и етап на обучение с подсилване, при който наградите зависят не само от точността на отговора, но и от структурата на разсъждение.
Сред постигнатите резултати, Step-Audio-R1 отчита изключителни резултати в различни езикови и аудио бенчмаркове. Моделът превъзхожда предишната версия на Gemini на теста Big Bench Audio с 98.7% точност. Освен това Step-Audio-R1 въвежда адаптивен начин на разсъждение и стрийминг, позволяващ на системата да „слуша,“ докато мисли, и „мисли“, докато говори, постига скорости на разсъждение в реално време, ненадминати от други аудио размени. Дизайнът и адаптирането на модела към реални акустични ситуации обещава дългосрочно положително въздействие върху развитието на аудио LLM.
Step-Audio-R1 също така илюстрира, че придобити разсъждения могат да се трансформират от уязвимо място в ефективен инструмент за аудио задачи.

Този модел не само демонстрира своите възможности чрез съпоставяне с Gemini 3 Pro, но и остава отворен и достъпен за инженери и разработчици, запазвайки високо ниво на практическа полезност за бъдещи приложения на аудио модели.
Източник: Marktechpost
Източници:
Източник: <a href="https://www.marktechpost.com/2025/11/29/stepfun-ai-releases-step-audio-r1-a-new-audio-llm-that-finally-benefits-from-test-time-compute-scaling/" target="_blank">Marktechpost</a>
Коментари
Все още няма коментари
Бъдете първи да коментирате!
Оставете коментар