Послуги розробки
Edge AI
Ми розробляємо кастомні on-device AI та embedded machine learning рішення — від TinyML на мікроконтролерах до повного розгортання edge AI на NVIDIA Jetson. Наднизька затримка, нульова залежність від хмари та повний суверенітет даних за замовчуванням.
Коли Edge AI — правильний вибір
Більшість клієнтів приходять із вже прийнятим рішенням «хмара чи edge». Наше завдання — зрозуміти, що їх насправді турбує: затримка, приватність, вартість чи надійність — і знайти технічно правильну відповідь для конкретного обмеження.
Обирайте Edge AI, якщо…
- Затримка до 10–20 мс є обов'язковою (системи безпеки, управління в реальному часі)
- Дані не можуть покидати пристрій — медичні записи, виробничі секрети, вимоги GDPR
- 500+ пристроїв з постійним інференсом — хмарний рахунок стає болючим за 6–12 місяців
- Середовище без інтернету: польові інспектори, промислові об'єкти, тактичні розгортання
- Спеціалізована точність перевершує хмарну — ваш сенсор, ваше середовище, ваша модель
Розгляньте хмару, якщо…
- Менше 10 пристроїв з нечастим інференсом — хмара дешевша і простіша
- Час відповіді 500 мс є прийнятним для вашого сценарію
- Стабільне з'єднання завжди доступне і передача даних дозволена
- Швидка ітерація моделі важливіша за вартість розгортання на пристрої
Наше правило: Якщо задачу можна вирішити без ML — вирішуй без ML. Датчик на дверях коштує $2. Камера з CV-моделлю обходиться в 50× дорожче в розробці та підтримці. Ми говоримо це клієнтам навіть тоді, коли це зменшує контракт.
Вертикалі Edge AI сервісів
Вісім вертикалей Edge AI — кожна з визначеним апаратним стеком, конфігурацією сенсорів, архітектурою нейронної мережі та edge MLOps пайплайном. Від промислового IoT до enterprise-систем — наша розробка та консалтинг охоплюють весь життєвий цикл.
Комп'ютерний зір та відеоаналітика
Розпізнавання об'єктів, облич та номерних знаків у реальному часі на edge-обладнанні. Відеопотоки обробляються локально — жодне відео не покидає об'єкт.
Предиктивне обслуговування (PDM)
Виявлення аномалій вібрації, акустики та температури на промисловому обладнанні. Розгортається на MCU — працює повністю всередині машини без інтернету.
Контроль безпеки та порушень
Детекція ЗІЗ (каски, жилети), порушення заборонених зон, виявлення падінь та аналіз поведінки — з інтеграцією у VMS-платформи.
Медицина та носимі пристрої
On-device аналіз ЕКГ, моніторинг SpO2 та портативна медична візуалізація — для ARM Cortex-M та Apple/Qualcomm SoC. Весь інференс залишається на пристрої.
Розумний рітейл та магазини без кас
Трекінг покупців, розпізнавання товарів на полицях та запобігання крадіжкам через sensor fusion (камери + ваги + RFID) на edge-серверах у магазині.
Точне землеробство та дрони
Аналіз посівів з агродронів, автономне керування тракторами та точкове розпилення — на бортових комп'ютерах у польових умовах без зв'язку.
Тактичний Edge AI та оборона
Автономна навігація дронів, аналіз РЕО та sensor fusion для систем наведення на захищеному за MIL-STD-810G обладнанні з FPGA-прискоренням.
On-device голос та локальний NLP
Офлайн транскрипція, переклад та голосові асистенти на базі Whisper-моделей, оптимізованих для edge NPU та DSP — без API-викликів, без виходу даних з пристрою.
Апаратна експертиза Edge AI: від MCU до багатоGPU серверів
Від мікроконтролерів з кілобайтами RAM до multi-GPU edge-серверів — ми обираємо та валідуємо обладнання на основі реальних обмежень розгортання, а не того, що виглядає ефектно в демо.
Застосування: детекція аномалій, класифікація вібрацій, прості аудіо-події. int8-квантизовані моделі 38–200 KB.
Застосування: пайплайни комп'ютерного зору, обробка мультисенсорних даних. Оптимізовано для OpenVINO + TF Lite.
Застосування: відеоаналітика в реальному часі, on-device LLM (15–18 tok/s на Orin Nano), DeepStream пайплайни.
Застосування: наднизька затримка, апаратна безпека, on-device LLM для офісів/клінік, оборонні застосування.
Польова правда: Документація завжди краща за реальну поведінку заліза в полі. Ми писали прямий код роботи з регістрами, коли HAL-бібліотеки додавали більше затримки, ніж сам інференс. Ми стикались з тепловим дроселюванням до 60% на Pi 4. Ми знаємо, яких сюрпризів чекати — і як їх вирішувати.
Реальний досвід. Реальні цифри. Чесний підхід.
Розробка Edge AI охоплює embedded systems engineering, on-device machine learning, edge-програмне забезпечення, рівні підключення та MLOps. Знайти одну команду з глибокою експертизою в усіх цих областях — рідкість. Ми — така команда: кастомна оптимізація моделей, повний стек edge-програмного забезпечення, інтеграція бездротових технологій та досвід розгортання на 100 000+ польових пристроїв.
Мислення від заліза
Ми починаємо з апаратних обмежень, а потім проєктуємо модель — а не навпаки. Пристрій — це константа, не змінна. Рішення, прийняті до виробництва заліза, зафіксовані назавжди.
Реальні проєкти, не демо
Ми розгортали моделі розміром від 38 KB на MCU в промислових середовищах. Стикались зі зношенням flash через 12 місяців, дрейфом теплового калібрування при −15°C та збоями OTA посередині оновлення. Це не гіпотетика.
Експертиза квантизації
Float32 → int8 дає одразу 4× зменшення розміру. Ми використовуємо quantization-aware training за замовчуванням — різниця в точності 2–3% проти post-training quantization. Завжди показуємо точність по класах, ніколи — одну сукупну цифру.
Edge MLOps з коробки
Диференціальні OTA-оновлення (5–6× менший payload), dual-slot flash з атомарним rollback, моніторинг розподілу confidence, маршрутизація моделей з урахуванням hardware-профілю. Не доповнення — вбудовано з першого дня.
Безпека як стандарт
Ми витягували незашифровані моделі з продакшен-пристроїв за 20 хвилин, щоб продемонструвати ризик клієнтам. Шифрування моделей, secure boot, відключені debug-інтерфейси (JTAG/SWD) та підписані OTA — стандарт у кожному розгортанні.
Чесна оцінка скопу
Ми відмовляли клієнтам від edge AI, коли це не була правильна відповідь. Ми переформулювали «неможливі» вимоги, відокремлюючи запропоноване клієнтом рішення від реальної проблеми, яку потрібно вирішити.
Складні задачі, які ми вирішили в рамках POC
Ми не постачали мільйони edge AI пристроїв — але ми провели POC, де відповідаються реальні інженерні питання. Ось технічні пастки, які ми знайшли, і як ми з них вибрались.
Цифровий підпис на STM32F103 — кожна існуюча бібліотека видавала hardfault
Клієнту потрібен цифровий підпис, сумісний з DSTU 4145 (еліптичні криві), безпосередньо на пристрої. Кожна наявна реалізація розраховувала на пам'ять десктопного класу — 256-бітні координати точок вимагали кількох великих буферів одночасно. Перший запуск: негайний hardfault на скалярному множенні.
Вручну побудували граф залежностей double-and-add. Скоротили живі буфери до 3 × 32 байти в будь-який момент. Переписали хешування GOST 34.311 як потоковий блочний процесор. Нульова динамічна алокація. Підпис — 4 секунди, прийнятно для польових інспекторів.
int8 аудіокласифікатор, що пройшов усі бенчмарки — і зламався, коли завод охолов
Класифікатор промислових звуків давав 93% після int8-квантизації в бенчмарках. Тиждень у полі — ідеально. Потім настала зима. Неопалюваний цех змінив частотну характеристику мікрофона. Квантизована модель почала пропускати події та генерувати хибні спрацювання. Float32 поглинув зсув; int8 — ні.
Діапазон int8-клямпування активацій у перших шарах був надто вузьким для температурно-індукованого дрейфу сенсора. Рішення: зібрали дані в холодних умовах, перенавчили з температурною аугментацією, явно розширили діапазон клямпування в шарах 1–3, додали confirmation pass за порогом confidence. Тестова вибірка завжди бідніша за реальний світ.
89% точності, яку клієнт відхилив — поки ми не показали розбивку по класах
POC з виявлення дефектів на 5 класів. Float32 на сервері: 96%. Int8 на STM32: 89%. Клієнт сказав «неприйнятно» ще до перегляду деталей. На столі була лише одна сукупна цифра.
Confusion matrix по класах розповів іншу історію: два критичні класи дефектів залишились на 94–95%. Точність впала на трьох другорядних класах — де деталь і так іде на повторну ручну перевірку. Три зустрічі, одна детальна розбивка, клієнт погодився. Сукупні метрики брешуть; ніколи не показуй одну цифру.
Ми відмовили клієнта від повного edge — і спроєктували гібрид, що масштабувався до 120 магазинів
Рітейл-мережа хотіла повну on-device аналітику відвідуваності у 50 магазинах з міркувань приватності. Скрізь був надійний корпоративний інтернет. Повний edge на кожному пристрої означав значні капвитрати, multi-версійну OTA-інфраструктуру та постійне управління прошивками в масштабі.
Занепокоєння щодо приватності — справжній драйвер, а не технічне обмеження. Запропонували гібрид: відео залишається локально, обробляється на одному сервері в магазині, в хмару летять лише агреговані дані. Через шість місяців клієнт масштабувався до 120 магазинів — підхід «edge на кожному пристрої» був би некерованим.
Edge MLOps: детекція дрейфу, OTA-оновлення та управління моделями в масштабі
80% edge AI проєктів зосереджуються на точності моделі й нехтують інфраструктурою, яка тримає моделі живими в полі. Ми будуємо ті 20%, що роблять продакшен справді працюючим.
Телеметрія та моніторинг confidence
Пристрої щогодини надсилають компактні пакети: версія моделі, кількість інференсів, розподіл confidence scores, розподіл класів та fingerprints сирих семплів. Падіння середнього confidence на 10–15% від baseline за тиждень — сигнал дрейфу, прапорець для перевірки, не тривога.
Атомарний dual-slot OTA
Нова модель записується в неактивний слот flash. Хеш перевірено. Вказівник атомарно переключено. Зникло живлення під час 2-хвилинного критичного вікна? Пристрій перезавантажується зі старою моделлю. Диференціальні оновлення зменшують розмір payload у 5–6 разів — критично для NB-IoT або LoRa, де 200 KB передаються годинами.
Маршрутизація з урахуванням hardware-профілю
Коли постачальник змінює акселерометр посередині виробничої серії, у вас два апаратних ревізії з різними шумовими профілями в «тому самому» пристрої. Кожна одиниця запускає self-test при старті, надсилає hardware fingerprint на OTA-сервер і отримує модель, навчену саме для її кремнію — не загальну.
Безпечне планування оновлень
Оновлення, що стартує посередині вимірювання або при 15% батареї, швидко руйнує довіру. Пристрої оцінюють умову готовності перед прийняттям оновлень: стан спокою, батарея вище порогу, не в критичному вікні вимірювання, підтверджене з'єднання. Рішення приймає пристрій — не сервер.
On-Device LLM та малі мовні моделі для enterprise Edge AI
On-device LLM — вже не дослідницький прототип. Ми перевірили реальні цифри продуктивності — і реальні enterprise-сценарії, за які бізнес справді платить.
Перевірене обладнання та продуктивність
⚠ Час завантаження моделі на слабкому залізі: 20–30 секунд. Для більшості сценаріїв модель має постійно залишатися в пам'яті.
Enterprise-сценарії, які отримують бюджет
Інспектори та польові інженери структурують звіти, заповнюють форми та витягують дані — без інтернету. Жодні чутливі операційні дані не покидають пристрій. Компанії платять за гарантію нульового витоку.
Компанії, що не довіряють інфраструктурі OpenAI або Google своїм внутрішнім контентом. Q&A без залежності від інтернету. Вже продається enterprise у юридичній, фінансовій та фармацевтичній сферах.
Оператор біля верстата запитує модель, яка знає лише це обладнання, його документацію та типові несправності. Замінює товстий мануал, який ніхто не читає. Працює без заводського Wi-Fi.
Що об'єднує всі три: клієнт платить не за AI — він платить за нульовий ризик витоку даних та роботу без залежності від інтернету.
Ризики безпеки Edge AI, про які ваша команда не думає
Ми демонстрували ці атаки клієнтам на їхньому ж обладнанні. Це не теорія.
Крадіжка моделі через JTAG
Незашифровану модель у flash можна фізично витягти за 20 хвилин зі звичайним JTAG-адаптером. Ваша модель — це ваша інтелектуальна власність. Ми шифруємо моделі в спокої, перевіряємо цілісність при завантаженні та розглядаємо витяг моделі як основний вектор атаки.
Adversarial фізичні входи
У продакшені ми спостерігали, як оператори вивчали патерн поведінки, що давав «зелений» результат швидше — фактично виконуючи adversarial атаку на модель через зміщення вхідного розподілу своїми діями. Користувачі — це частина distribution shift.
Supply chain прошивки
Хто підписує білд? Як перевіряється, що на пристрій потрапила саме та прошивка? У більшості команд немає відповіді. Підписування білдів, верифікація на стороні пристрою та secure boot — це базова гігієна, а не опціональне доповнення.
Debug-інтерфейси в продакшені
Ми бачили UART, JTAG та SWD debug-інтерфейси відкритими на продакшен-пристроях «бо зручніше дебажити». Це еквівалентно SSH-серверу з root/root, відкритому назовні. Ми аудитуємо та закриваємо всі debug-інтерфейси в продакшен-білдах.
Що запитують клієнти — і що ми насправді думаємо
Це найпоширеніша помилка — і вона просто хибна у вузькодоменних контекстах. Хмарна модель є загальною, навченою на мільйонах різноманітних сценаріїв. Edge-модель може бути навчена виключно на даних вашого сенсора, у вашому середовищі, при вашому освітленні. Ми кілька разів отримували кращу точність на edge, ніж клієнти мали з хмарними рішеннями. Спеціалізація перемагає узагальнення в обмеженому контексті.
Навпаки. Хмарна інфраструктура обслуговується кимось іншим. Edge-інфраструктура — це ваш пристрій, на об'єкті клієнта, часто без інтернету, іноді в суворих умовах. Edge AI складніше розгортати, оновлювати, дебажити та моніторити, ніж хмарний AI. Хто каже інакше — не запускав edge AI у продакшен у масштабі.
Між PyTorch-моделлю та працюючим інференсом на MCU є окремий проєкт зі своїми ризиками: квантизація (int8 або нижче), редизайн архітектури якщо модель не влізає, ONNX-експорт, фреймворк-специфічна оптимізація (TensorRT / OpenVINO / TF Lite Micro), інтеграція на рівні драйверів та нормалізація вхідних даних на пристрої. ML-частина часто є найлегшою частиною цього проєкту.
Ні. Якщо пристрій можна фізично вкрасти, прошивка незахищена, а модель зберігається незашифрованою — приватності не більше, ніж у хмарі. Вектор атаки просто інший: фізичний доступ замість мережевого. On-device інференс зменшує мережеве розкриття даних, але не усуває ризик приватності. Security-інженерія все одно необхідна.
Наш орієнтир: понад 500–1 000 інференсів на пристрій на день постійно — хмарні витрати стають болючими протягом 6–12 місяців. Але це сильно залежить від розміру моделі — легкий класифікатор у хмарі коштує копійки; vision-модель масштабується інакше. Правильне питання: яка ваша прогнозована вартість хмарного інференсу на рік? Якщо ця сума перевищує вартість edge-обладнання — розмова стає предметною.
Ні. Є цілі класи застосувань, де edge необхідний не через відсутність зв'язку, а через затримку (системи безпеки потребують менше 20 мс), приватність (закони про суверенітет медичних даних) або надійність (мережевий збій не може зупинити виробничу лінію). Ці вимоги не зникнуть з кращим покриттям 5G. Edge AI — це постійна архітектурна категорія, не обхідний шлях.
Розпочніть ваш кастомний Edge AI проєкт
Чи то ви оцінюєте Edge vs Cloud, скопуєте розгортання на MCU, чи потребуєте другої думки щодо вашої архітектури — ми готові спочатку провести технічну розмову.