Edge AI розробка — On-Device AI рішення

Edge vs Хмара

Коли Edge AI — правильний вибір

Більшість клієнтів приходять із вже прийнятим рішенням «хмара чи edge». Наше завдання — зрозуміти, що їх насправді турбує: затримка, приватність, вартість чи надійність — і знайти технічно правильну відповідь для конкретного обмеження.

Затримка до 10–20 мс є обов'язковою (системи безпеки, управління в реальному часі)
Дані не можуть покидати пристрій — медичні записи, виробничі секрети, вимоги GDPR
500+ пристроїв з постійним інференсом — хмарний рахунок стає болючим за 6–12 місяців
Середовище без інтернету: польові інспектори, промислові об'єкти, тактичні розгортання
Спеціалізована точність перевершує хмарну — ваш сенсор, ваше середовище, ваша модель

Менше 10 пристроїв з нечастим інференсом — хмара дешевша і простіша
Час відповіді 500 мс є прийнятним для вашого сценарію
Стабільне з'єднання завжди доступне і передача даних дозволена
Швидка ітерація моделі важливіша за вартість розгортання на пристрої

Наше правило: Якщо задачу можна вирішити без ML — вирішуй без ML. Датчик на дверях коштує $2. Камера з CV-моделлю обходиться в 50× дорожче в розробці та підтримці. Ми говоримо це клієнтам навіть тоді, коли це зменшує контракт.

Що ми будуємо

Вертикалі Edge AI сервісів

Вісім вертикалей Edge AI — кожна з визначеним апаратним стеком, конфігурацією сенсорів, архітектурою нейронної мережі та edge MLOps пайплайном. Від промислового IoT до enterprise-систем — наша розробка та консалтинг охоплюють весь життєвий цикл.

Комп'ютерний зір та відеоаналітика

Розпізнавання об'єктів, облич та номерних знаків у реальному часі на edge-обладнанні. Відеопотоки обробляються локально — жодне відео не покидає об'єкт.

YOLO v8/v9/v10 TensorRT DeepStream OpenVINO NVIDIA Jetson

Предиктивне обслуговування (PDM)

Виявлення аномалій вібрації, акустики та температури на промисловому обладнанні. Розгортається на MCU — працює повністю всередині машини без інтернету.

TinyML / Edge Impulse STM32 / ESP32 Autoencoder · 1D CNN MQTT / AWS IoT Edge

Контроль безпеки та порушень

Детекція ЗІЗ (каски, жилети), порушення заборонених зон, виявлення падінь та аналіз поведінки — з інтеграцією у VMS-платформи.

OpenPose / MediaPipe DeepSORT Milestone / Genetec API Smart Cameras NPU

Медицина та носимі пристрої

On-device аналіз ЕКГ, моніторинг SpO2 та портативна медична візуалізація — для ARM Cortex-M та Apple/Qualcomm SoC. Весь інференс залишається на пристрої.

LSTM · 1D CNN · U-Net Core ML / Android NNAPI TF Lite BLE Gateways

Розумний рітейл та магазини без кас

Трекінг покупців, розпізнавання товарів на полицях та запобігання крадіжкам через sensor fusion (камери + ваги + RFID) на edge-серверах у магазині.

Vision Transformers Re-ID (privacy-safe) Sensor Fusion Kafka / CUDA C++

Точне землеробство та дрони

Аналіз посівів з агродронів, автономне керування тракторами та точкове розпилення — на бортових комп'ютерах у польових умовах без зв'язку.

Mask R-CNN · NDVI ROS / MAVLink Hailo-8 / RPi 5 LoRaWAN

Тактичний Edge AI та оборона

Автономна навігація дронів, аналіз РЕО та sensor fusion для систем наведення на захищеному за MIL-STD-810G обладнанні з FPGA-прискоренням.

FPGA (Xilinx / Altera) Sensor Fusion · RL MANET / ATAK C++ / CUDA

On-device голос та локальний NLP

Офлайн транскрипція, переклад та голосові асистенти на базі Whisper-моделей, оптимізованих для edge NPU та DSP — без API-викликів, без виходу даних з пристрою.

Whisper.cpp RNN-T / Conformer Vosk / Kaldi / ONNX Apple Neural Engine

Апаратний стек

Апаратна експертиза Edge AI: від MCU до багатоGPU серверів

Від мікроконтролерів з кілобайтами RAM до multi-GPU edge-серверів — ми обираємо та валідуємо обладнання на основі реальних обмежень розгортання, а не того, що виглядає ефектно в демо.

Мікроконтролери (TinyML)

STM32F4 · 192KB RAM STM32F103 · 20KB RAM ESP32 ARM Cortex-M4/M7

Застосування: детекція аномалій, класифікація вібрацій, прості аудіо-події. int8-квантизовані моделі 38–200 KB.

Одноплатні комп'ютери

Raspberry Pi 4 / 5 Google Coral Edge TPU Intel Movidius VPU Hailo-8 Accelerator

Застосування: пайплайни комп'ютерного зору, обробка мультисенсорних даних. Оптимізовано для OpenVINO + TF Lite.

Платформа NVIDIA Jetson

Jetson Nano Jetson Xavier NX Jetson Orin Nano Jetson Orin

Застосування: відеоаналітика в реальному часі, on-device LLM (15–18 tok/s на Orin Nano), DeepStream пайплайни.

FPGA та спеціалізована кремнієва база

Xilinx / AMD FPGA Intel Altera Apple M1/M2 (edge server) Qualcomm Snapdragon Wear

Застосування: наднизька затримка, апаратна безпека, on-device LLM для офісів/клінік, оборонні застосування.

Польова правда: Документація завжди краща за реальну поведінку заліза в полі. Ми писали прямий код роботи з регістрами, коли HAL-бібліотеки додавали більше затримки, ніж сам інференс. Ми стикались з тепловим дроселюванням до 60% на Pi 4. Ми знаємо, яких сюрпризів чекати — і як їх вирішувати.

Чому WebbyLab

Реальний досвід. Реальні цифри. Чесний підхід.

Розробка Edge AI охоплює embedded systems engineering, on-device machine learning, edge-програмне забезпечення, рівні підключення та MLOps. Знайти одну команду з глибокою експертизою в усіх цих областях — рідкість. Ми — така команда: кастомна оптимізація моделей, повний стек edge-програмного забезпечення, інтеграція бездротових технологій та досвід розгортання на 100 000+ польових пристроїв.

Мислення від заліза

Ми починаємо з апаратних обмежень, а потім проєктуємо модель — а не навпаки. Пристрій — це константа, не змінна. Рішення, прийняті до виробництва заліза, зафіксовані назавжди.

Реальні проєкти, не демо

Ми розгортали моделі розміром від 38 KB на MCU в промислових середовищах. Стикались зі зношенням flash через 12 місяців, дрейфом теплового калібрування при −15°C та збоями OTA посередині оновлення. Це не гіпотетика.

Експертиза квантизації

Float32 → int8 дає одразу 4× зменшення розміру. Ми використовуємо quantization-aware training за замовчуванням — різниця в точності 2–3% проти post-training quantization. Завжди показуємо точність по класах, ніколи — одну сукупну цифру.

Edge MLOps з коробки

Диференціальні OTA-оновлення (5–6× менший payload), dual-slot flash з атомарним rollback, моніторинг розподілу confidence, маршрутизація моделей з урахуванням hardware-профілю. Не доповнення — вбудовано з першого дня.

Безпека як стандарт

Ми витягували незашифровані моделі з продакшен-пристроїв за 20 хвилин, щоб продемонструвати ризик клієнтам. Шифрування моделей, secure boot, відключені debug-інтерфейси (JTAG/SWD) та підписані OTA — стандарт у кожному розгортанні.

Чесна оцінка скопу

Ми відмовляли клієнтам від edge AI, коли це не була правильна відповідь. Ми переформулювали «неможливі» вимоги, відокремлюючи запропоноване клієнтом рішення від реальної проблеми, яку потрібно вирішити.

Інсайти з POC

Складні задачі, які ми вирішили в рамках POC

Ми не постачали мільйони edge AI пристроїв — але ми провели POC, де відповідаються реальні інженерні питання. Ось технічні пастки, які ми знайшли, і як ми з них вибрались.

Промисловість · STM32

20KB доступної RAM

Цифровий підпис на STM32F103 — кожна існуюча бібліотека видавала hardfault

Задача

Клієнту потрібен цифровий підпис, сумісний з DSTU 4145 (еліптичні криві), безпосередньо на пристрої. Кожна наявна реалізація розраховувала на пам'ять десктопного класу — 256-бітні координати точок вимагали кількох великих буферів одночасно. Перший запуск: негайний hardfault на скалярному множенні.

Що знайшли

Вручну побудували граф залежностей double-and-add. Скоротили живі буфери до 3 × 32 байти в будь-який момент. Переписали хешування GOST 34.311 як потоковий блочний процесор. Нульова динамічна алокація. Підпис — 4 секунди, прийнятно для польових інспекторів.

Виробництво · Аудіо

93% точність на бенчмарку (зламалась взимку)

int8 аудіокласифікатор, що пройшов усі бенчмарки — і зламався, коли завод охолов

Задача

Класифікатор промислових звуків давав 93% після int8-квантизації в бенчмарках. Тиждень у полі — ідеально. Потім настала зима. Неопалюваний цех змінив частотну характеристику мікрофона. Квантизована модель почала пропускати події та генерувати хибні спрацювання. Float32 поглинув зсув; int8 — ні.

Що знайшли

Діапазон int8-клямпування активацій у перших шарах був надто вузьким для температурно-індукованого дрейфу сенсора. Рішення: зібрали дані в холодних умовах, перенавчили з температурною аугментацією, явно розширили діапазон клямпування в шарах 1–3, додали confirmation pass за порогом confidence. Тестова вибірка завжди бідніша за реальний світ.

Промисловість · Зір

89% загальна (94–95% по критичних класах)

89% точності, яку клієнт відхилив — поки ми не показали розбивку по класах

Задача

POC з виявлення дефектів на 5 класів. Float32 на сервері: 96%. Int8 на STM32: 89%. Клієнт сказав «неприйнятно» ще до перегляду деталей. На столі була лише одна сукупна цифра.

Що знайшли

Confusion matrix по класах розповів іншу історію: два критичні класи дефектів залишились на 94–95%. Точність впала на трьох другорядних класах — де деталь і так іде на повторну ручну перевірку. Три зустрічі, одна детальна розбивка, клієнт погодився. Сукупні метрики брешуть; ніколи не показуй одну цифру.

Рітейл · Архітектура

120 магазинів — чому ми запропонували гібрид

Ми відмовили клієнта від повного edge — і спроєктували гібрид, що масштабувався до 120 магазинів

Задача

Рітейл-мережа хотіла повну on-device аналітику відвідуваності у 50 магазинах з міркувань приватності. Скрізь був надійний корпоративний інтернет. Повний edge на кожному пристрої означав значні капвитрати, multi-версійну OTA-інфраструктуру та постійне управління прошивками в масштабі.

Що знайшли

Занепокоєння щодо приватності — справжній драйвер, а не технічне обмеження. Запропонували гібрид: відео залишається локально, обробляється на одному сервері в магазині, в хмару летять лише агреговані дані. Через шість місяців клієнт масштабувався до 120 магазинів — підхід «edge на кожному пристрої» був би некерованим.

Edge MLOps

Edge MLOps: детекція дрейфу, OTA-оновлення та управління моделями в масштабі

80% edge AI проєктів зосереджуються на точності моделі й нехтують інфраструктурою, яка тримає моделі живими в полі. Ми будуємо ті 20%, що роблять продакшен справді працюючим.

01

Телеметрія та моніторинг confidence

Пристрої щогодини надсилають компактні пакети: версія моделі, кількість інференсів, розподіл confidence scores, розподіл класів та fingerprints сирих семплів. Падіння середнього confidence на 10–15% від baseline за тиждень — сигнал дрейфу, прапорець для перевірки, не тривога.

02

Атомарний dual-slot OTA

Нова модель записується в неактивний слот flash. Хеш перевірено. Вказівник атомарно переключено. Зникло живлення під час 2-хвилинного критичного вікна? Пристрій перезавантажується зі старою моделлю. Диференціальні оновлення зменшують розмір payload у 5–6 разів — критично для NB-IoT або LoRa, де 200 KB передаються годинами.

03

Маршрутизація з урахуванням hardware-профілю

Коли постачальник змінює акселерометр посередині виробничої серії, у вас два апаратних ревізії з різними шумовими профілями в «тому самому» пристрої. Кожна одиниця запускає self-test при старті, надсилає hardware fingerprint на OTA-сервер і отримує модель, навчену саме для її кремнію — не загальну.

04

Безпечне планування оновлень

Оновлення, що стартує посередині вимірювання або при 15% батареї, швидко руйнує довіру. Пристрої оцінюють умову готовності перед прийняттям оновлень: стан спокою, батарея вище порогу, не в критичному вікні вимірювання, підтверджене з'єднання. Рішення приймає пристрій — не сервер.

On-Device LLM

On-Device LLM та малі мовні моделі для enterprise Edge AI

On-device LLM — вже не дослідницький прототип. Ми перевірили реальні цифри продуктивності — і реальні enterprise-сценарії, за які бізнес справді платить.

Перевірене обладнання та продуктивність

Raspberry Pi 5, 8 GB Phi-2 Q4 (GGUF) 3–4 tok/s Структурований вивід, офлайн-документи

Jetson Orin Nano Gemma 2B 15–18 tok/s GPU-прискорення, інтерактивний режим

Apple M1/M2 Mac Mini 7B+ моделі 20+ tok/s Edge-сервер для офісу/клініки

STM32 / MCU Будь-який LLM Нереально Фізично неможливо на цьому рівні

⚠ Час завантаження моделі на слабкому залізі: 20–30 секунд. Для більшості сценаріїв модель має постійно залишатися в пам'яті.

Enterprise-сценарії, які отримують бюджет

Офлайн польова документація

Інспектори та польові інженери структурують звіти, заповнюють форми та витягують дані — без інтернету. Жодні чутливі операційні дані не покидають пристрій. Компанії платять за гарантію нульового витоку.

Локальний RAG на корпоративних документах

Компанії, що не довіряють інфраструктурі OpenAI або Google своїм внутрішнім контентом. Q&A без залежності від інтернету. Вже продається enterprise у юридичній, фінансовій та фармацевтичній сферах.

Асистенти промислового обладнання

Оператор біля верстата запитує модель, яка знає лише це обладнання, його документацію та типові несправності. Замінює товстий мануал, який ніхто не читає. Працює без заводського Wi-Fi.

Що об'єднує всі три: клієнт платить не за AI — він платить за нульовий ризик витоку даних та роботу без залежності від інтернету.

Безпека

Ризики безпеки Edge AI, про які ваша команда не думає

Ми демонстрували ці атаки клієнтам на їхньому ж обладнанні. Це не теорія.

1

Крадіжка моделі через JTAG

Незашифровану модель у flash можна фізично витягти за 20 хвилин зі звичайним JTAG-адаптером. Ваша модель — це ваша інтелектуальна власність. Ми шифруємо моделі в спокої, перевіряємо цілісність при завантаженні та розглядаємо витяг моделі як основний вектор атаки.

2

Adversarial фізичні входи

У продакшені ми спостерігали, як оператори вивчали патерн поведінки, що давав «зелений» результат швидше — фактично виконуючи adversarial атаку на модель через зміщення вхідного розподілу своїми діями. Користувачі — це частина distribution shift.

3

Supply chain прошивки

Хто підписує білд? Як перевіряється, що на пристрій потрапила саме та прошивка? У більшості команд немає відповіді. Підписування білдів, верифікація на стороні пристрою та secure boot — це базова гігієна, а не опціональне доповнення.

4

Debug-інтерфейси в продакшені

Ми бачили UART, JTAG та SWD debug-інтерфейси відкритими на продакшен-пристроях «бо зручніше дебажити». Це еквівалентно SSH-серверу з root/root, відкритому назовні. Ми аудитуємо та закриваємо всі debug-інтерфейси в продакшен-білдах.

FAQ

Що запитують клієнти — і що ми насправді думаємо

Це найпоширеніша помилка — і вона просто хибна у вузькодоменних контекстах. Хмарна модель є загальною, навченою на мільйонах різноманітних сценаріїв. Edge-модель може бути навчена виключно на даних вашого сенсора, у вашому середовищі, при вашому освітленні. Ми кілька разів отримували кращу точність на edge, ніж клієнти мали з хмарними рішеннями. Спеціалізація перемагає узагальнення в обмеженому контексті.

Навпаки. Хмарна інфраструктура обслуговується кимось іншим. Edge-інфраструктура — це ваш пристрій, на об'єкті клієнта, часто без інтернету, іноді в суворих умовах. Edge AI складніше розгортати, оновлювати, дебажити та моніторити, ніж хмарний AI. Хто каже інакше — не запускав edge AI у продакшен у масштабі.

Між PyTorch-моделлю та працюючим інференсом на MCU є окремий проєкт зі своїми ризиками: квантизація (int8 або нижче), редизайн архітектури якщо модель не влізає, ONNX-експорт, фреймворк-специфічна оптимізація (TensorRT / OpenVINO / TF Lite Micro), інтеграція на рівні драйверів та нормалізація вхідних даних на пристрої. ML-частина часто є найлегшою частиною цього проєкту.

Ні. Якщо пристрій можна фізично вкрасти, прошивка незахищена, а модель зберігається незашифрованою — приватності не більше, ніж у хмарі. Вектор атаки просто інший: фізичний доступ замість мережевого. On-device інференс зменшує мережеве розкриття даних, але не усуває ризик приватності. Security-інженерія все одно необхідна.

Наш орієнтир: понад 500–1 000 інференсів на пристрій на день постійно — хмарні витрати стають болючими протягом 6–12 місяців. Але це сильно залежить від розміру моделі — легкий класифікатор у хмарі коштує копійки; vision-модель масштабується інакше. Правильне питання: яка ваша прогнозована вартість хмарного інференсу на рік? Якщо ця сума перевищує вартість edge-обладнання — розмова стає предметною.

Ні. Є цілі класи застосувань, де edge необхідний не через відсутність зв'язку, а через затримку (системи безпеки потребують менше 20 мс), приватність (закони про суверенітет медичних даних) або надійність (мережевий збій не може зупинити виробничу лінію). Ці вимоги не зникнуть з кращим покриттям 5G. Edge AI — це постійна архітектурна категорія, не обхідний шлях.

Зв'язатись

Розпочніть ваш кастомний Edge AI проєкт

Чи то ви оцінюєте Edge vs Cloud, скопуєте розгортання на MCU, чи потребуєте другої думки щодо вашої архітектури — ми готові спочатку провести технічну розмову.

Лондон, Велика Британія · Київ, Україна

Послуги розробкиEdge AI

Коли Edge AI — правильний вибір

Обирайте Edge AI, якщо…

Розгляньте хмару, якщо…

Вертикалі Edge AI сервісів

Комп'ютерний зір та відеоаналітика

Предиктивне обслуговування (PDM)

Контроль безпеки та порушень

Медицина та носимі пристрої

Розумний рітейл та магазини без кас

Точне землеробство та дрони

Тактичний Edge AI та оборона

On-device голос та локальний NLP

Апаратна експертиза Edge AI: від MCU до багатоGPU серверів

Реальний досвід. Реальні цифри. Чесний підхід.

Мислення від заліза

Реальні проєкти, не демо

Експертиза квантизації

Edge MLOps з коробки

Безпека як стандарт

Чесна оцінка скопу

Складні задачі, які ми вирішили в рамках POC

Цифровий підпис на STM32F103 — кожна існуюча бібліотека видавала hardfault

int8 аудіокласифікатор, що пройшов усі бенчмарки — і зламався, коли завод охолов

89% точності, яку клієнт відхилив — поки ми не показали розбивку по класах

Ми відмовили клієнта від повного edge — і спроєктували гібрид, що масштабувався до 120 магазинів

Edge MLOps: детекція дрейфу, OTA-оновлення та управління моделями в масштабі

Телеметрія та моніторинг confidence

Атомарний dual-slot OTA

Маршрутизація з урахуванням hardware-профілю

Безпечне планування оновлень

On-Device LLM та малі мовні моделі для enterprise Edge AI

Перевірене обладнання та продуктивність

Enterprise-сценарії, які отримують бюджет

Ризики безпеки Edge AI, про які ваша команда не думає

Крадіжка моделі через JTAG

Adversarial фізичні входи

Supply chain прошивки

Debug-інтерфейси в продакшені

Що запитують клієнти — і що ми насправді думаємо

Розпочніть ваш кастомний Edge AI проєкт

Послуги розробки
Edge AI