Три вопроса, которые стоит задать перед покупкой любого ИИ

Когда поставщик показывает презентацию, где на каждом слайде стоит слово ИИ, это слово само по себе не говорит ничего о том, окупится ли покупка. За одной и той же вывеской может скрываться и серьёзная система машинного обучения, и обычный набор правил в красивой обёртке. Прежде чем подписывать договор, мы задаём три вопроса, которые отделяют рабочее решение от дорогой игрушки.

Это действительно машинное обучение или правила, переодетые в ИИ

Первый вопрос звучит грубо, но экономит бюджет: перед нами настоящее машинное обучение или жёстко прописанные правила, которым приклеили модный ярлык. Разница не косметическая. Если это правила, система ведёт себя как обычное ПО: предсказуемо ломается там, где её явно не настроили. Если это машинное обучение, оно отказывает иначе, в неожиданных местах и по неочевидным причинам.

Для бизнеса это значит, что нельзя оценивать такую систему по привычным меркам обычной программы. Главный вопрос здесь не громкость рекламы, а соответствие задаче. Машинное обучение оправдано там, где правил слишком много и они меняются, и проигрывает там, где задача описывается понятной логикой. Покупка тяжёлой ML-системы под задачу, которую закрывает десяток условий, это переплата за сложность, которую потом ещё и дорого поддерживать.

Что размечено, что нет и кто платит за разметку

Второй вопрос про данные, и он определяет реальную стоимость проекта. Принципиальная граница проходит не между звуком, текстом и картинками, а между размеченными и неразмеченными данными, и тем, как система получает входные данные.

Если речь про обучение с учителем на задачах компьютерного зрения, ориентир жёсткий: порядка 5000 размеченных примеров на каждую категорию, чтобы получить хотя бы приемлемое качество. Это не строчка в техническом задании, а статья расходов и сроков. Разметку кто-то должен оплатить и выполнить, и этот кто-то почти всегда вы. Если в коммерческом предложении про разметку не сказано ни слова, значит её стоимость либо спрятана, либо про неё забыли, и она всплывёт уже в ходе проекта.

Подход без учителя умеет работать на большем объёме неразмеченных данных, и это снижает затраты на разметку. Но и он не освобождает от людей: кто-то должен проверять результат, иначе доверять выводам системы нельзя. Отсюда простое правило для закупки: нет разметки, нет модели с учителем; нет процесса проверки, нет результата без учителя, которому можно верить.

Где система учится: на готовом наборе данных или внутри среды

Третий вопрос про то, откуда берётся обучение. Один вариант, система учится на заранее собранном наборе данных. Другой, она учится действием внутри некоторой среды, это обучение с подкреплением. Во втором случае данные собираются по ходу действий, награда приходит с задержкой и не за каждый шаг, а правильный ход не размечен заранее.

Именно поэтому такие системы блестяще показывают себя в играх и тяжело даются в реальной жизни. В игре время можно прокрутить вперёд, а ошибка ничего не стоит. В реальном бизнесе время не ускорить, а у ошибки есть последствия: потерянные деньги, простой, недовольный клиент. Практический вывод: без безопасной песочницы обучение с подкреплением в боевом контуре это риск, который мало кто может себе позволить. Если поставщик предлагает учить систему прямо на живых процессах, это повод остановиться и пересчитать риски.

Почему выигрывают не самые красивые презентации

Из этих трёх вопросов следует вывод, который меняет логику закупки. Главное заблуждение в том, что тип данных, звук, текст или изображения, якобы выбирает за вас технологию. На самом деле выбирает разметка и то, как устроены данные, а не их формат.

Преимущество давно сместилось. Открытый код, предобученные модели и готовые фреймворки позволили собирать полезные системы даже не самым крупным командам. Поэтому выигрывают не те, у кого красивее слайды и загадочнее секретный алгоритм, а те, кто умеет собирать нужные данные и быстро доводить решение до реального применения. При выборе подрядчика стоит смотреть не на эффектность презентации, а на то, как у него устроена работа с данными и насколько быстро он переходит от обещаний к работающему результату.

Полезно держать в голове и масштаб затрат, чтобы трезво оценивать обещания. Работа с изображениями высокого разрешения может требовать примерно в 40 раз больше вычислений, чем привычные по классическим задачам входные данные. А обучение передовых языковых моделей с нуля доходит до кластеров уровня 1024 ускорителей A100 и порядка 25 миллионов долларов только на оборудование, если брать пример из расчётов. Это объясняет, почему разумная стратегия для большинства компаний, не обучать гигантские модели с нуля, а строить решение поверх готовых, вкладываясь в свои данные и скорость внедрения.

Итог

Перед покупкой любого решения с вывеской ИИ есть смысл задать три вопроса. Это правда машинное обучение или правила под видом ИИ. Что размечено, что нет и кто оплачивает разметку. Где система учится, на готовых данных или действием в среде. Ответы на них сразу показывают, где спрятаны реальные затраты и риски, и страхуют от покупки дорогой игрушки вместо рабочего инструмента.

Если вы оцениваете внедрение ИИ или разбираете предложение поставщика и хотите понять, что в нём реально, а что упаковка, мы предлагаем бесплатный технический аудит инфраструктуры. Разберём вашу задачу, данные и текущий контур, оценим, оправдан ли заявленный подход и где он даёт настоящий выигрыш. Оставьте заявку на странице https://myod.it/contact-us/

Связаться

Записаться на консультацию