Класифікація як інфраструктура / СистемаУкраїнська версія · Читати повний нарис англійською →

LLM-QP: планування запитів для інференсу мовних моделей

ML-інфраструктура

LLM-QP застосовує вартісне планування запитів із систем баз даних і навчання контекстними бандитами до обмеженого декодування, маршрутизуючи між розрідженим оцінюванням, амортизованими запитами і повним перерахунком, щоб водночас зменшити затримку і втрату якості.

Джейк Лоуренс · Незалежний дослідник · Система · Системи ШІ / ML-інфраструктура

Еквівалентність планів

Два плани інференсу еквівалентні, якщо дають однакову послідовність токенів за тих самих семантик моделі й обмежень. Лема еквівалентності: щільне масковане оцінювання (невалідним токенам ставлять мінус нескінченність) і розріджене оцінювання (рахуємо лише для валідних токенів) дають ідентичний вихід - argmax по всьому словнику з маскуванням дорівнює argmax по множині валідних без маскування. Однакова відповідь у будь-якому разі.

Це і є важіль: якщо результат той самий, можна вибирати найдешевший еквівалентний план, не жертвуючи коректністю.

Аналіз режимів за моделлю Roofline

Обчислення щільної голови приблизно дорівнює 2d|V|, розрідженої - 2dK, де K - число валідних токенів. Розріджене домінує, коли K менше за розмір словника |V|. Гіпотеза амортизованого запиту: стан декодера h_t розкладається на стабільну частину і приріст; повний перерахунок трансформера дає мало нової інформації, коли запас (різниця між першим і другим логітами) великий.

Звідси рішення маршрутизації: якщо запас менший за поріг, робимо повний перерахунок (уточнення); інакше - амортизоване оцінювання. Поріг сам стає обʼєктом навчання.

Маршрутизація як контекстний бандит

Вибір плану виконання сформульовано як контекстний бандит: на кожному кроці планувальник бачить контекст і обирає дію (план), мінімізуючи скалярну втрату lambda*Затримка + (1-lambda)*ВтратаЯкості. За припущення лінійної реалізованості LinUCB чи лінійний семплінг Томпсона дають сублінійний статичний жаль порядку d√(T|A|); для нестаціонарності - бандити з ковзним вікном і бюджетом варіації.

Ключове застереження: бандит збігається до найкращого плану в межах решітки, а не до найкращого мислимого. Якщо в решітці немає амортизованого оператора, жодна модель вартості його не знайде - підтвердження тези статті «Класифікація - це інфраструктура»: таксономічна прихильність структурна, а не лише соціологічна.

Інтеграція в компілятор (MLIR / StableHLO)

Логічний оператор DecodeStep має пʼять фізичних реалізацій: щільна проєкційна голова, розріджене оцінювання за суміжністю, амортизоване оновлення, амортизоване з переранжуванням і повний перерахунок. Прохід розгортання планів під час компіляції розкриває логічний вузол у кандидатні фізичні плани; модель вартості анотує кожен оцінкою (затримка ядра, пропускна здатність памʼяті, ймовірність уточнення, утилізація пристрою).

Правило перепису обирає дешевший план (через патерни MLIR або кастомні виклики XLA), а телеметрія часу виконання живить модель вартості назад - гібридне планування «компіляція плюс рантайм» на наявній інфраструктурі компілятора. Стенд із бенчмарками працює просто в браузері: маршрутизатор - це справжній екземпляр LinUCB, що вчиться проти оракула, а CI звіряє модель із опублікованими CSV.

LLM-QP переосмислює обмежене декодування як задачу оптимізації вартості, розвʼязувану за аналогією з плануванням запитів у базах даних. Три ортогональні оптимізації (розріджене оцінювання, амортизовані запити, бандитна маршрутизація) дають еквівалентний вихід меншим обчисленням - без перенавчання, нових моделей чи зміни обладнання.

Повна стаття

Повні доведення еквівалентності планів, аналіз режимів Roofline, формальні межі жалю для бандита, інтеграція в MLIR/StableHLO, схеми архітектури і живі браузерні бенчмарки з реальним LinUCB доступні в англомовній версії.

Відкрити повну версію (англійською) →