Працююча модель ШІ побудована на надійних, надійних і динамічних наборах даних. Без насиченого і детального Дані навчання AI під рукою, безумовно, неможливо створити цінне та успішне рішення ШІ. Ми знаємо, що складність проекту диктує та визначає необхідну якість даних. Але ми точно не впевнені, скільки тренувальних даних нам потрібно для створення спеціальної моделі.
Немає однозначної відповіді на те, яка правильна кількість навчальні дані для машинного навчання потрібен. Замість того, щоб працювати з приблизними цифрами, ми вважаємо, що низка методів може дати вам точне уявлення про розмір даних, який вам може знадобитися. Але перед цим давайте зрозуміємо, чому навчальні дані є вирішальними для успіху вашого проекту ШІ.
Значення навчальних даних
Виступаючи на фестивалі The Wall Street Journal Future of Everything, Арвінд Крішна, генеральний директор IBM, сказав, що майже 80% роботи в проекті ШІ йдеться про збір, очищення та підготовку даних. Крім того, він дотримувався думки, що компанії відмовляються від своїх підприємств зі штучним інтелектом, оскільки вони не можуть впоратися з витратами, роботою та часом, необхідними для збору цінних навчальних даних.
Визначення даних обсяг вибірки допомагає в розробці рішення. Це також допомагає точно оцінити вартість, час і навички, необхідні для проекту.
Якщо для навчання моделей ML використовуються неточні або ненадійні набори даних, результуюча програма не забезпечить хороші прогнози.
7 факторів, які визначають необхідний обсяг тренувальних даних
Хоча вимоги щодо обсягу даних для навчання моделей штучного інтелекту є абсолютно суб’єктивними та мають розглядатися в кожному конкретному випадку, є кілька універсальних факторів, які об’єктивно впливають. Давайте розглянемо найпоширеніші з них.
Модель машинного навчання
Обсяг тренувальних даних залежить від того, чи тренується ваша модель під наглядом чи без нього. У той час як для першого потрібно більше навчальних даних, для другого – ні.
Навчання під наглядом
Це передбачає використання даних із мітками, що, у свою чергу, ускладнює навчання. Такі завдання, як класифікація зображень або кластеризація, вимагають міток або атрибутів, які машини розшифровують і розрізняють, що призводить до потреби в додаткових даних.
Навчання без нагляду
Використання мічених даних не є обов’язковим для неконтрольованого навчання, таким чином порівняно зменшуючи потребу в величезних обсягах даних. З огляду на це, обсяг даних все одно буде високим для моделей, щоб виявляти закономірності, ідентифікувати вроджені структури та співвідносити їх.
Варіативність і різноманітність
Щоб модель була максимально справедливою та об’єктивною, необхідно повністю усунути вроджену упередженість. Це лише означає, що потрібні більші обсяги різноманітних наборів даних. Це гарантує, що модель вивчає безліч імовірностей існування, що дозволяє їй триматися подалі від генерування односторонніх відповідей.
Навчання з розширення та передачі даних
Отримання якісних даних для різних випадків використання в різних галузях і сферах не завжди безперебійне. У таких чутливих секторах, як охорона здоров’я чи фінанси, якісні дані навряд чи доступні. У таких випадках розширення даних із використанням синтезованих даних стає єдиним шляхом у навчанні моделей.
Експериментування та перевірка
Ітераційне навчання — це баланс, коли необхідний обсяг навчальних даних розраховується після послідовного експериментування та перевірки результатів. Через багаторазове тестування та моніторинг
продуктивності моделі, зацікавлені сторони можуть оцінити, чи потрібні додаткові навчальні дані для оптимізації відповіді.
Як зменшити вимоги до обсягу навчальних даних
Незалежно від бюджетних обмежень, крайнього терміну виходу на ринок або відсутності різноманітних даних, підприємства можуть використовувати деякі варіанти, щоб зменшити свою залежність від величезних обсягів навчальних даних.
Збільшення даних
де нові дані генеруються або синтезуються з існуючих наборів даних, ідеально підходить для використання як навчальні дані. Ці дані походять із батьківських даних, які на 100% є справжніми, і імітують їх.
Трансферне навчання
Це передбачає зміну параметрів існуючої моделі для виконання та виконання нового завдання. Наприклад, якщо ваша модель навчилася розпізнавати яблука, ви можете використати ту саму модель і змінити її існуючі параметри навчання, щоб також розпізнавати апельсини.
Попередньо навчені моделі
Де наявні знання можна використати як мудрість для вашого нового проекту. Це може бути ResNet для завдань, пов’язаних із ідентифікацією зображень, або BERT для випадків використання NLP.
Реальні приклади проектів машинного навчання з мінімальними наборами даних
Хоча це може здатися неможливим, що деякі амбітні проекти машинного навчання можуть бути виконані з мінімальною кількістю сировини, деякі випадки є вражаючою правдою. Приготуйтеся бути враженими.
Звіт Kaggle | Охорона здоров'я | Клінічна онкологія |
Опитування Kaggle показує, що понад 70% проектів машинного навчання були завершені з менш ніж 10,000 XNUMX зразками. | Маючи лише 500 зображень, команда Массачусетського технологічного інституту навчила модель виявляти діабетичну нейропатію на медичних зображеннях зі сканування очей. | Продовжуючи приклад із охороною здоров’я, команді Стенфордського університету вдалося розробити модель виявлення раку шкіри лише за 1000 зображень. |
Створення обґрунтованих припущень
Не існує магічного числа щодо мінімального обсягу необхідних даних, але є кілька емпіричних правил, які можна використовувати, щоб отримати раціональне число.
Правило 10
Як практичне правило, щоб розробити ефективну модель штучного інтелекту, необхідна кількість навчальних наборів даних має бути в десять разів більшою, ніж кожен параметр моделі, який також називають ступенями свободи. Правила «10» мають на меті обмежити мінливість і збільшити різноманітність даних. Таким чином, це емпіричне правило може допомогти вам розпочати проект, даючи базове уявлення про необхідну кількість наборів даних.
Глибоке навчання
Методи глибокого навчання допомагають розробляти високоякісні моделі, якщо в систему надається більше даних. Загальновизнано, що наявності 5000 зображень із мітками на категорію має бути достатньо для створення алгоритму глибокого навчання, який може працювати нарівні з людьми. Для розробки надзвичайно складних моделей потрібно принаймні 10 мільйонів маркованих елементів.
Комп'ютерне бачення
Якщо ви використовуєте глибоке навчання для класифікації зображень, існує консенсус, що набір даних із 1000 позначених зображень для кожного класу є справедливою кількістю.
Криві навчання
Криві навчання використовуються для демонстрації ефективності алгоритму машинного навчання порівняно з кількістю даних. Маючи навички моделювання на осі Y і навчальний набір даних на осі X, можна зрозуміти, як розмір даних впливає на результат проекту.
Недоліки надто малої кількості даних
Ви можете подумати, що для проекту потрібна велика кількість даних, але іноді навіть великі компанії, які мають доступ до структурованих даних, не можуть їх отримати. Навчання на обмеженій або вузькій кількості даних може зупинити моделі машинного навчання від досягнення повного потенціалу та збільшення ризику надання неправильних прогнозів.
Хоча немає золотого правила, і зазвичай робиться грубе узагальнення, щоб передбачити потреби в навчальних даних, завжди краще мати великі набори даних, ніж страждати від обмежень. Обмеження даних, від яких страждає ваша модель, будуть обмеженнями вашого проекту.
Що робити, якщо вам потрібні додаткові набори даних
Хоча кожен хоче мати доступ до великих наборів даних, це легше сказати, ніж зробити. Отримання доступу до великої кількості якісних і різноманітних наборів даних має важливе значення для успіху проекту. Тут ми пропонуємо вам стратегічні кроки, які значно полегшать збір даних.
Відкрити набір даних
Відкриті набори даних зазвичай вважаються «хорошим джерелом» безкоштовних даних. Хоча це може бути правдою, у більшості випадків відкриті набори даних — це не те, що потрібно проекту. Є багато місць, з яких можна отримати дані, як-от урядові джерела, портали відкритих даних ЄС, публічні дослідники даних Google тощо. Однак використання відкритих наборів даних для складних проектів має багато недоліків.
Використовуючи такі набори даних, ви ризикуєте навчання та тестування ваша модель на неправильних або відсутніх даних. Методи збору даних зазвичай невідомі, що може вплинути на результат проекту. Конфіденційність, згода та крадіжка особистих даних є значними недоліками використання відкритих джерел даних.
Доповнений набір даних
Коли у вас є кількість навчальних даних але недостатньо, щоб задовольнити всі вимоги вашого проекту, вам потрібно застосувати методи збільшення даних. Доступний набір даних перепрофільовано відповідно до потреб моделі.
Зразки даних зазнають різноманітних перетворень, що зробить набір даних багатим, різноманітним і динамічним. Простий приклад збільшення даних можна побачити під час роботи із зображеннями. Зображення можна доповнювати багатьма способами – його можна вирізати, змінювати розмір, дзеркально віддзеркалювати, повертати під різними кутами, а також змінювати параметри кольору.
Синтетичні дані
Коли даних недостатньо, ми можемо звернутися до генераторів синтетичних даних. Синтетичні дані стають у пригоді з точки зору навчання передачі, оскільки модель спочатку можна навчити на синтетичних даних, а потім на наборі даних реального світу. Наприклад, безпілотний транспортний засіб на основі штучного інтелекту спочатку можна навчити розпізнавати та аналізувати об’єкти комп'ютерне бачення відеогри.
Синтетичні дані корисні, коли бракує реальних даних дані для навчання і перевірте свій навчені моделі. Крім того, він також використовується, коли йдеться про конфіденційність і конфіденційність даних.
Спеціальний збір даних
Спеціальний збір даних, можливо, ідеально підходить для створення наборів даних, коли інші форми не приносять необхідних результатів. Високоякісні набори даних можна створити за допомогою інструментів веб-збирання, датчиків, камер та інших інструментів. Якщо вам потрібні індивідуальні набори даних, які підвищать ефективність ваших моделей, придбання спеціальних наборів даних може бути правильним кроком. Декілька сторонніх постачальників послуг пропонують свій досвід.
Щоб розробити високопродуктивні рішення штучного інтелекту, моделі потрібно навчити на якісних надійних наборах даних. Однак непросто отримати багаті та детальні набори даних, які позитивно впливають на результати. Але коли ви співпрацюєте з надійними постачальниками даних, ви можете побудувати потужну модель штучного інтелекту на міцній основі даних.
Маєте на увазі чудовий проект, але чекаєте на індивідуальні набори даних для навчання ваших моделей або намагаєтеся отримати правильний результат від свого проекту? Ми пропонуємо широкі набори навчальних даних для різноманітних потреб проектів. Використовуйте потенціал Шаїп поговоривши з одним із наших дані вчених сьогодні та розуміння того, як ми забезпечували високоефективні та якісні набори даних для клієнтів у минулому.