Shaip тепер є частиною екосистеми Ubiquity: та сама команда, але тепер підкріплена розширеними ресурсами для підтримки клієнтів у великих масштабах. |
Дані навчання AI

Скільки навчальних даних вам дійсно потрібно для машинного навчання у 2026 році?

Успішна модель машинного навчання починається з високоякісних навчальних даних. Але одне з найпоширеніших питань, яке команди ставлять на початку проекту зі штучного інтелекту: Скільки навчальних даних достатньо?

Чесна відповідь полягає в тому, що не існує фіксованого числа, яке б підходило для кожного проекту. Обсяг необхідних вам даних залежить від завдання, складності моделі, кількості класів, якості даних, точності позначень та стандарту продуктивності, якого ви хочете досягти.

На практиці найкращий спосіб оцінити потреби в навчальних даних — це почати з репрезентативної вибірки, навчати на поступово більших підмножинах та вимірювати, коли продуктивність моделі починає вирівнюватися. Це допомагає командам приймати обґрунтовані рішення щодо вартості, термінів, зусиль, пов'язаних з анотацією, та очікуваних результатів.

У цьому блозі ми розглянемо основні фактори, що впливають на обсяг навчальних даних, пояснимо, як оцінити вимоги на практиці, і покажемо, що робити, коли вам потрібно більше даних, не затримуючи ваш план розвитку ШІ.

Чому важливі дані навчання

Навчальні дані є основою будь-якої системи машинного навчання. Незалежно від того, наскільки просунутий алгоритм, він може вивчати лише ті закономірності, які присутні в даних, що використовуються для його навчання. Якщо дані неповні, упереджені, зашумлені або занадто обмежені, моделі буде важко узагальнюватися в реальному світі.

Надійні навчальні дані допомагають командам:

  • покращити точність моделі
  • зменшити упередженість та сліпі зони
  • точніше оцінити вартість та доцільність проекту
  • зменшити кількість переробок під час ітерації моделі
  • створювати надійніші конвеєри валідації та тестування

Ось чому збір, очищення, маркування та перевірка даних часто займають найбільшу частку зусиль у проектах зі штучним інтелектом. Якщо дані неякісні, прогнози також будуть неякісними.

Немає універсального числа — але є практичний спосіб його оцінити

Багато статей намагаються відповісти на це питання одним числом. Це рідко буває корисним.

Модель для простої бінарної класифікації може добре працювати з відносно невеликим набором даних, тоді як для точного налаштування робочого процесу моделі великої мови програмування або системи комп'ютерного зору для граничних випадків може знадобитися значно більше прикладів. Краще питання не «що таке магічне число?», а:

Яка мінімальна кількість високоякісних, репрезентативних навчальних даних потрібна для досягнення цільової продуктивності для цього випадку використання?

Практичний спосіб відповісти на це питання — використовувати криві навчання: навчайте модель на зростаючих обсягах даних і спостерігайте, наскільки покращується продуктивність з кожним кроком. Коли покращення починає вирівнюватися, у вас є набагато чіткіший сигнал про те, чи варто інвестувати у збір більшої кількості даних. Такий підхід зазвичай рекомендується в практичних робочих процесах машинного навчання.

7 факторів, які визначають, скільки навчальних даних вам потрібно

1. Тип моделі: Класичне машинне навчання проти глибокого навчання

Тип моделі має значний вплив на вимоги до даних. Класичні моделі машинного навчання, такі як логістична регресія, дерева рішень або градієнтне підвищення, часто можуть добре працювати з меншими структурованими наборами даних, особливо коли функції добре спроектовані.

Моделі глибокого навчання зазвичай потребують більше даних, оскільки вони автоматично вивчають ознаки та містять набагато більше параметрів. Для завдань із зображеннями, аудіо та мовою глибокі моделі зазвичай значно виграють від додаткового обсягу та різноманітності даних.

2. Навчання з учителем та навчання без учителя

Кероване навчання вимагає маркованих даних, які часто складніше та дорожче збирати. Якщо ваша модель потребує людей для анотування зображень, транскрибування аудіо, позначення об'єктів тегами або класифікації документів, вимоги до даних повинні враховувати як кількість, так і зусилля з маркування.

Самонавчальне навчання не вимагає маркованих даних, але воно все одно виграє від великих, репрезентативних наборів даних. Навіть без міток моделі потрібне достатнє покриття для виявлення значущих закономірностей та структури. 

3. Складність завдання та кількість класів

Проста задача бінарної класифікації дуже відрізняється від задачі медичної візуалізації з кількома класами або багатомовної системи розпізнавання мовлення.

Зі збільшенням складності завдання вимоги до навчальних даних зазвичай зростають, оскільки модель повинна навчитися:

  • більше класів
  • точніші розмежування між категоріями
  • більше крайніх випадків
  • більша контекстуальна варіативність

Наприклад, відрізнити «кішку» від «собаки» набагато легше, ніж виявити десятки візуально схожих дефектів продукту за різних умов освітлення, ракурсів камери та фону.

4. Якість даних та точність маркування

Більше даних не завжди означає краще, якщо якість низька.

Менший набір даних з точними позначками, збалансованим представленням та послідовним форматуванням може перевершити більший, але шумний набір даних. Низькоякісні позначки, дублікати записів, слабкі визначення класів, відсутні метадані та невідповідні правила анотації – все це знижує продуктивність моделі.

Перш ніж збирати більше даних, команди повинні запитати:

  • Чи є етикетки узгодженими?
  • Чи охоплюємо ми всі важливі сценарії використання?
  • Чи дані репрезентують умови виробництва?
  • Чи правильно розділені навчальні, валідаційні та тестові набори?

Для багатьох проектів покращення якості даних забезпечує швидші результати, ніж просте збільшення обсягу даних.

5. Різноманітність, охоплення та класовий баланс

Модель повинна вчитися на основі мінливості реального світу, з якою вона зіткнеться після розгортання. Це означає, що набір даних повинен відображати різні сценарії, групи користувачів, типи пристроїв, акценти, середовища, формати документів, умови зображення та граничні випадки.

Якщо один клас або сегмент недостатньо представлений, модель може здаватися точною загалом, але водночас погано працювати на критичних підгрупах. Ось чому різноманітність та класовий баланс мають таке ж значення, як і чистий розмір.

У багатьох випадках питання не в тому, «Чи маємо ми достатньо даних?», а в тому, «Чи маємо ми достатньо правильних даних?».

6. Перенесення знань та попередньо навчені моделі

Якщо ви починаєте з попередньо навченої моделі, вам може знадобитися набагато менше даних для конкретних завдань, ніж якби ви навчалися з нуля.

Особливо це стосується:

  • класифікація зображень за допомогою зірових магістралей
  • Завдання НЛП з використанням моделей на основі трансформаторів
  • мовленнєві моделі, адаптовані до нового акценту чи домену
  • робочі процеси адаптації домену

Трансферне навчання дозволяє командам повторно використовувати знання, отримані на великих існуючих наборах даних, що може значно зменшити навантаження на анотації. В оригінальній статті це вже добре розглянуто; її варто залишити, але з чіткішими прикладами.

7. Стратегія валідації та цільова ефективність

Обсяг необхідних вам даних також залежить від того, наскільки якісною має бути модель.

Прототип може працювати зі скромними обсягами даних. Виробнича модель в охороні здоров'я, фінансах, страхуванні, автомобільній промисловості або середовищах з високим рівнем дотримання вимог вимагатиме міцнішого покриття, чіткішого маркування, кращої валідації та надійнішої роботи в периферійних випадках. Чим суворіший допустимий рівень помилок, тим надійнішим має бути ваш набір даних.

Як оцінити потреби в навчальних даних на практиці

Замість здогадок використовуйте структурований процес оцінювання.

Крок 1: Почніть з репрезентативного набору пілотних даних

Зберіть меншу, але репрезентативну вибірку проблемного простору. Включіть важливі класи, формати, типи користувачів та реальні варіації.

Крок 2: Правильно розділіть дані

Створіть окремі навчальні, валідаційні та тестові набори. Переконайтеся, що тестовий набір відображає умови виробництва та ніколи не використовується під час навчання.

Крок 3: Тренуйтеся на поступово більших зразках

Навчіть модель, використовуючи зростаючі частини набору даних, такі як 10%, 20%, 40%, 60%, 80% та 100%.

Крок 4: Побудуйте криву навчання

Відстежуйте показники продуктивності, такі як точність, бал F1, повнота, прецизійність або показники якості, специфічні для завдання, зі збільшенням розміру набору даних.

Крок 5: Шукайте плато

Якщо продуктивність моделі різко покращується зі збільшенням обсягу даних, вам, ймовірно, потрібно більше. Якщо ж покращення стають менш помітними, вашим вузьким місцем може бути не обсяг, а якість маркування, дизайн функцій, вибір моделі або дисбаланс класів.

Крок 6: Огляд ефективності на рівні сегмента

Перевірте, як модель працює не лише загалом, але й у важливих класах та граничних випадках. Модель може досягати плато загалом, але все ще погано працювати на меншинних сегментах. Цей метод дає зацікавленим сторонам більш реалістичну оцінку того, скільки додаткових даних варто зібрати.

Як зрозуміти, коли у вас достатньо даних для тренувань

Ймовірно, у вас достатньо даних, коли:

  • продуктивність моделі покращується лише незначно, оскільки додається більше даних
  • результати перевірки стабільні після кількох прогонів або згинів
  • важливі класи показують прийнятні результати, а не лише більшість
  • продуктивність зберігається на чистому, недоторканому тестовому наборі
  • Решта помилок спричинені радше шумом або неоднозначністю позначок, ніж відсутністю прикладів.

Вам, ймовірно, знадобиться більше даних, коли:

  • крива навчання все ще зростає
  • рідкісні класи показують погані результати
  • модель не спрацьовує на поширених варіаціях реального світу
  • результати сильно коливаються між забігами
  • продуктивність тестування різко падає порівняно з продуктивністю валідації

Як зменшити вимоги до навчальних даних

Іноді проблема полягає не в розробці моделі, а в дефіциті даних, бюджеті або часі виходу на ринок. У таких випадках команди можуть зменшити свою залежність від величезних обсягів даних за допомогою правильних стратегій.

Збільшення даних

Доповнення даних створює нові навчальні приклади з існуючих даних. У комп'ютерному зорі це може включати обрізання, поворот, відображення або регулювання яскравості. У NLP та мовленні доповнення має бути більш обережним, але контрольовані перетворення все ще можуть допомогти.

За правильного використання, доповнення покращує стійкість та допомагає моделям краще узагальнюватися. За неправильного використання воно може призвести до шуму або нереалістичних прикладів.

Трансферне навчання

Трансферне навчання дозволяє адаптувати існуючу модель для нового завдання замість навчання з нуля. Це часто один із найефективніших способів зменшення вимог до навчальних даних.

Попередньо навчені моделі

Попередньо навчені моделі, такі як моделі NLP, подібні до BERT, або усталені основи бачення, можуть забезпечити надійні відправні точки. Замість того, щоб вивчати все з нуля, модель починається з корисних попередніх знань.

Активне навчання

Якщо маркування є дорогим, активне навчання може допомогти визначити пріоритетність найінформативніших прикладів. Це підвищує ефективність анотацій та може зменшити кількість позначок, необхідних для досягнення корисної продуктивності.

Синтетичні дані

Синтетичні дані можуть бути корисними, коли реальних даних недостатньо, вони конфіденційні або їх важко зібрати, особливо в таких галузях, як охорона здоров'я, фінанси, автономні системи та моделювання крайніх випадків. Але вони повинні доповнювати, а не сліпо замінювати, реальні, репрезентативні дані.

Реальні приклади проектів машинного навчання з мінімальними наборами даних

Хоча це може здатися неможливим, що деякі амбітні проекти машинного навчання можуть бути виконані з мінімальною кількістю сировини, деякі випадки є вражаючою правдою. Приготуйтеся бути враженими.

Звіт KaggleОхорона здоров'яКлінічна онкологія
Опитування Kaggle показує, що понад 70% проектів машинного навчання були завершені з менш ніж 10,000 XNUMX зразками.Маючи лише 500 зображень, команда Массачусетського технологічного інституту навчила модель виявляти діабетичну нейропатію на медичних зображеннях зі сканування очей.Продовжуючи приклад із охороною здоров’я, команді Стенфордського університету вдалося розробити модель виявлення раку шкіри лише за 1000 зображень.

Створення обґрунтованих припущень

Оцінка потреби в навчальних даних

Не існує магічного числа щодо мінімального обсягу необхідних даних, але є кілька емпіричних правил, які можна використовувати, щоб отримати раціональне число.

Правило 10

Як практичне правило, щоб розробити ефективну модель штучного інтелекту, необхідна кількість навчальних наборів даних має бути в десять разів більшою, ніж кожен параметр моделі, який також називають ступенями свободи. Правила «10» мають на меті обмежити мінливість і збільшити різноманітність даних. Таким чином, це емпіричне правило може допомогти вам розпочати проект, даючи базове уявлення про необхідну кількість наборів даних.  

Глибоке навчання

Методи глибокого навчання допомагають розробляти високоякісні моделі, якщо в систему надається більше даних. Загальновизнано, що наявності 5000 зображень із мітками на категорію має бути достатньо для створення алгоритму глибокого навчання, який може працювати нарівні з людьми. Для розробки надзвичайно складних моделей потрібно принаймні 10 мільйонів маркованих елементів.

Комп'ютерне бачення

Якщо ви використовуєте глибоке навчання для класифікації зображень, існує консенсус, що набір даних із 1000 позначених зображень для кожного класу є справедливою кількістю. 

Криві навчання

Криві навчання використовуються для демонстрації ефективності алгоритму машинного навчання порівняно з кількістю даних. Маючи навички моделювання на осі Y і навчальний набір даних на осі X, можна зрозуміти, як розмір даних впливає на результат проекту.

Ціна недостатньої кількості даних

Коли команди навчаються на обмежених, вузьких або упереджених наборах даних, модель може здаватися перспективною в розробці, але невдалою у виробництві.

Занадто мало даних може призвести до:

  • переобладнання
  • слабке узагальнення
  • нестабільні прогнози
  • погана успішність у класах меншин
  • вищий ризик упередженості
  • більше часу на ітерації пізніше

Іншими словами, обмеження ваших навчальних даних часто стають обмеженнями вашого продукту.

Що робити, якщо вам потрібні додаткові набори даних

Методи/джерела збору даних

Коли ви виявляєте прогалину в даних, рішенням не завжди є «зібрати все». Розумніший підхід — стратегічно розширити набір даних.

1. Обережно використовуйте відкриті набори даних

Відкриті набори даних можуть допомогти для прототипування або бенчмаркінгу, але вони не завжди підходять для виробничого використання. Команди повинні перевірити походження, згоду, якість, релевантність та охоплення, перш ніж покладатися на них.

2. Збирайте користувацькі дані для вашого випадку використання

Якщо цільове середовище є дуже специфічним, збір даних на замовлення часто є найкращим варіантом. Це особливо актуально для робочих процесів з інтенсивним використанням певної предметної області, таких як штучний інтелект у охороні здоров'я, розмовний штучний інтелект, периферійні випадки комп'ютерного зору та багатомовні системи.

3. Покращення існуючих даних за допомогою анотацій

Багато команд вже мають необроблені дані, але їм бракує структури. Анотації, перемаркування, очищення таксономії та перевірка якості можуть розкрити цінність швидше, ніж збір абсолютно нових наборів даних.

4. Відновлення балансу недостатньо представлених класів

Якщо продуктивність слабка в певних категоріях, зосередьтеся на зборі та маркуванні цих прогалин, що мають велике значення, а не на рівномірному розширенні всього набору даних.

5. Додайте синтетичні або доповнені дані, де це доречно

Коли реальні дані обмежені або конфіденційні, синтетичні та доповнені дані можуть допомогти покращити охоплення, але їх слід ретельно перевіряти на відповідність розподілам у реальному світі.

6. Співпрацюйте зі спеціалізованим партнером з обробки даних

Для команд, які створюють штучний інтелект у великих масштабах, партнерство з постачальником, який може збирати, ліцензувати, анотувати, перевіряти та керувати високоякісними навчальними даними, може значно знизити ризики проекту та пришвидшити розгортання.

Заключні думки

У машинному навчанні немає магічного числа для навчальних даних. Правильна кількість залежить від варіанту використання, типу моделі, якості даних, різноманітності класів, стратегії валідації та цільової продуктивності.

Найефективніший спосіб оцінити потреби в навчальних даних — почати з репрезентативної вибірки, виміряти продуктивність за допомогою кривих навчання та стратегічно розширити набір даних залежно від того, де модель все ще дає збій.

Для деяких проектів може бути достатньо скромного набору даних високої якості. Для інших, особливо з високими ставками або дуже мінливими середовищами, успіх залежить від великих, ретельно підібраних та добре анотованих наборів даних.

Найважливіше не просто мати більше даних, а мати правильні дані.

Маєте на увазі чудовий проект, але чекаєте на індивідуальні набори даних для навчання ваших моделей або намагаєтеся отримати правильний результат від свого проекту? Ми пропонуємо широкі набори навчальних даних для різноманітних потреб проектів. Використовуйте потенціал Шаїп поговоривши з одним із наших дані вчених сьогодні та розуміння того, як ми забезпечували високоефективні та якісні набори даних для клієнтів у минулому.

Поширені запитання

Немає фіксованого числа. Правильна кількість залежить від завдання, складності моделі, якості позначок, балансу класів та точності цілі. Найнадійніший спосіб оцінити її – це навчатися на зростаючих підмножинах та вимірювати покращення продуктивності.

Вам, ймовірно, знадобиться більше навчальних даних, якщо продуктивність моделі продовжує покращуватися зі збільшенням розміру даних, якщо рідкісні класи показують погані результати або якщо результати нестабільні протягом різних прогонів.

Так. Трансферне навчання дозволяє моделям повторно використовувати знання з раніше навчених систем, що може значно зменшити обсяг необхідних для виконання завдань маркованих даних.

Не обов'язково. Більша кількість низькоякісних або погано маркованих даних може негативно вплинути на продуктивність. У багатьох випадках покращення якості, збалансованості та репрезентативності даних є ціннішим, ніж просте збільшення обсягу.

Моделі глибокого навчання зазвичай потребують більше даних, ніж класичні моделі машинного навчання, особливо для завдань, пов'язаних із зображеннями, мовленням та мовою. Однак попередньо навчені моделі та трансферне навчання можуть зменшити цю вимогу.

Соціальна Поділитися