Що таке анотація даних [2024 оновлено] – найкращі методи, інструменти, переваги, проблеми, типи тощо
Потрібно знати основи анотації даних? Прочитайте цей повний посібник із анотації даних для початківців, щоб почати.
Тож ви хочете розпочати нову ініціативу AI/ML, і тепер ви швидко розумієте, що не тільки знаходите високоякісні дані навчання але також анотація даних буде кількома складними аспектами вашого проекту. Продуктивність ваших моделей AI та ML настільки хороша, наскільки якісні дані, які ви використовуєте для їх навчання, тому точність, яку ви застосовуєте до агрегації даних, позначення та ідентифікації цих даних, є важливою!
Де ви можете отримати найкращі послуги анотації та маркування даних для бізнес-штучного інтелекту та машин
навчальні проекти?
Це питання, яке кожен виконавчий і бізнес-лідер, як ви, повинен розглянути, коли вони розвивають своє
дорожню карту та часові рамки для кожної з їхніх ініціатив AI/ML.
Вступ
Ця стаття повністю присвячена тому, щоб пролити світло на те, що таке процес, чому він неминучий, вирішальний
фактори, які компанії повинні враховувати при підході до інструментів анотації даних тощо. Отже, якщо у вас є бізнес, приготуйтеся, щоб отримати знання, оскільки цей посібник проведе вас через усе, що вам потрібно знати про анотації даних.
Для кого цей посібник?
Цей розширений посібник призначений для:
- Усі ви, підприємці та індивідуальні підприємці, які регулярно обробляють величезну кількість даних
- ШІ та машинне навчання або професіонали, які починають працювати з методами оптимізації процесів
- Менеджери проектів, які мають намір впровадити швидший вихід на ринок для своїх модулів AI або продуктів, керованих AI
- І технічні ентузіасти, які люблять вникати в деталі шарів, задіяних у процесах ШІ.
Що таке анотація даних?
Анотація даних – це процес приписування, позначення тегами або міток даних, щоб допомогти алгоритмам машинного навчання зрозуміти та класифікувати інформацію, яку вони обробляють. Цей процес важливий для навчання моделей ШІ, дозволяючи їм точно розуміти різні типи даних, такі як зображення, аудіофайли, відео або текст.
Уявіть собі самокерований автомобіль, який покладається на дані комп’ютерного зору, обробки природної мови (NLP) і датчиків для прийняття точних рішень під час водіння. Щоб допомогти моделі автомобіля зі штучним інтелектом розрізняти перешкоди, такі як інші транспортні засоби, пішоходи, тварини або блокпости, дані, які вона отримує, повинні бути позначені або анотовані.
У керованому навчанні анотація даних є особливо важливою, оскільки чим більше мічених даних передається в модель, тим швидше вона вчиться функціонувати автономно. Анотовані дані дозволяють розгортати моделі ШІ в різних програмах, таких як чат-боти, розпізнавання мовлення та автоматизація, що забезпечує оптимальну продуктивність і надійні результати.
Важливість анотації даних у машинному навчанні
Машинне навчання полягає в тому, що комп’ютерні системи покращують свою продуктивність, вивчаючи дані, подібно до того, як люди вчаться на досвіді. Анотація даних, або маркування, має вирішальне значення в цьому процесі, оскільки допомагає навчити алгоритми розпізнавати закономірності та робити точні прогнози.
У машинному навчанні нейронні мережі складаються з цифрових нейронів, організованих у шари. Ці мережі обробляють інформацію подібно до людського мозку. Дані з мітками є життєво важливими для навчання під наглядом, загального підходу до машинного навчання, коли алгоритми навчаються на прикладах з мітками.
Навчальні та тестові набори даних із позначеними даними дозволяють моделям машинного навчання ефективно інтерпретувати та сортувати вхідні дані. Ми можемо надати високоякісні анотовані дані, щоб допомогти алгоритмам навчатися автономно та визначати пріоритети результатів із мінімальним втручанням людини. Важливість анотації даних у ШІ полягає в її здатності підвищувати точність і продуктивність моделі.
Чому потрібна анотація даних?
Ми точно знаємо, що комп’ютери здатні давати кінцеві результати, які не тільки точні, але й актуальні та своєчасні. Однак, як машина навчитися працювати з такою ефективністю?
Це все через анотації даних. Коли модуль машинного навчання все ще знаходиться на стадії розробки, він отримує обсяги за обсягами навчальних даних ШІ, щоб покращити прийняття рішень та ідентифікацію об’єктів чи елементів.
Лише за допомогою процесу анотації даних модулі можуть відрізнити кота від собаки, іменник і прикметник або дорогу від тротуару.
Без анотації даних кожне зображення було б однаковим для машин, оскільки вони не мають жодної внутрішньої інформації чи знань ні про що у світі.
Анотація даних потрібна для того, щоб системи забезпечували точні результати, допомагаючи модулям ідентифікувати елементи для навчання комп’ютерного зору та мови, моделі розпізнавання. Будь-яка модель або система, яка має машинно-керовану систему прийняття рішень на точці опори, анотація даних потрібна для того, щоб рішення були точними та відповідними.
Анотація даних для LLM?
LLM за замовчуванням не розуміють тексти та речення. Вони повинні бути навчені розбирати кожну фразу та слово, щоб розшифрувати, що саме шукає користувач, а потім надати відповідне.
Отже, коли модель генеративного штучного інтелекту дає найточнішу та релевантну відповідь на запит – навіть якщо їй пред’являються найхимерніші запитання – її точність випливає з її здатності ідеально розуміти підказку та її складнощі, що стоять за нею, наприклад контекст, мета, сарказм, намір тощо.
Анотація даних надає LLMS можливості для цього.
Простими словами, анотація даних для машинного навчання включає маркування, категоризацію, теги та додавання будь-яких додаткових атрибутів до даних для кращої обробки та аналізу моделей машинного навчання. Лише завдяки цьому важливому процесу результати можна оптимізувати для досконалості.
Коли справа доходить до анотування даних для LLM, реалізуються різноманітні техніки. Хоча не існує систематичних правил щодо впровадження техніки, це, як правило, на розсуд експертів, які аналізують плюси та мінуси кожної та застосовують найбільш ідеальну.
Давайте розглянемо деякі з поширених методів анотації даних для LLM.
Анотація вручну: Це змушує людей вручну коментувати та переглядати дані. Незважаючи на те, що це забезпечує високу якість результату, це втомливо та займає багато часу.
Напівавтоматична анотація: Люди та LLM працюють у тандемі один з одним, щоб позначати набори даних. Це забезпечує точність людей і можливості обробки обсягів машин. Алгоритми штучного інтелекту можуть аналізувати необроблені дані та пропонувати попередні мітки, заощаджуючи дорогоцінний час анотаторів. (наприклад, штучний інтелект може визначити потенційні регіони інтересу в медичних зображеннях для подальшого маркування людини)
Напівконтрольоване навчання: Поєднання невеликої кількості позначених даних із великою кількістю не позначених даних для покращення продуктивності моделі.
Автоматична анотація: Ця техніка, що економить час і є ідеальною для анотування великих обсягів наборів даних, спирається на вроджені можливості моделі LLM для позначення та додавання атрибутів. Хоча це економить час і ефективно обробляє великі обсяги, точність значною мірою залежить від якості та актуальності попередньо навчених моделей.
Налаштування інструкцій: Це відноситься до точного налаштування мовних моделей для завдань, описаних інструкціями природної мови, включаючи навчання на різноманітних наборах інструкцій і відповідних результатів.
Безпосереднє навчання: Базуючись на наявних знаннях і розуміннях, LLM можуть надавати позначені дані як вихідні дані в цій техніці. Це скорочує витрати на отримання міток і ідеально підходить для обробки масових даних. Ця техніка передбачає використання наявних знань моделі для прогнозування завдань, яким вона явно не навчалася.
Підказка: Подібно до того, як користувач запитує модель у вигляді запитів на відповіді, LLM можна запропонувати анотувати дані, описуючи вимоги. Якість виводу тут безпосередньо залежить від якості підказок і того, наскільки точні інструкції подаються.
Передача навчання: Використання попередньо навчених моделей для схожих завдань, щоб зменшити кількість необхідних даних з мітками.
Активне навчання: Тут сама модель ML керує процесом анотації даних. Модель визначає точки даних, які були б найбільш корисними для її навчання, і запитує анотації для цих конкретних точок. Цей цілеспрямований підхід зменшує загальний обсяг даних, які необхідно анотувати, що призводить до Підвищення ефективності і Покращена продуктивність моделі.
Вибираєте правильний інструмент анотації даних?
Простіше кажучи, це платформа, яка дозволяє фахівцям і експертам коментувати, позначати або позначати набори даних усіх типів. Це міст або середовище між необробленими даними та результатами, які зрештою отримають ваші модулі машинного навчання.
Інструменти маркування даних — це локальне або хмарне рішення, яке коментує високоякісні навчальні дані для моделей машинного навчання. Хоча багато компаній покладаються на зовнішніх постачальників для створення складних анотацій, деякі організації все ще мають власні інструменти, створені на замовлення або засновані на безкоштовних або відкритих інструментах, доступних на ринку. Такі інструменти зазвичай призначені для роботи з певними типами даних, наприклад, зображення, відео, текст, аудіо тощо. Інструменти пропонують такі функції чи параметри, як обмежувальні рамки або багатокутники для анотаторів даних для позначення зображень. Вони можуть просто вибрати варіант і виконати свої конкретні завдання.
Типи анотації даних
Це загальний термін, який охоплює різні типи анотацій даних. Це включає зображення, текст, аудіо та відео. Щоб ви краще зрозуміли, ми розбили кожен на додаткові фрагменти. Давайте перевіримо їх окремо.
Анотація зображення
З наборів даних, на яких вони пройшли навчання, вони можуть миттєво й точно відрізнити ваші очі від носа і брови від вій. Ось чому фільтри, які ви застосовуєте, ідеально підходять незалежно від форми вашого обличчя, від того, наскільки близько ви знаходитесь від камери тощо.
Отже, як ви тепер знаєте, анотація зображення є життєво важливим у модулях, які включають розпізнавання обличчя, комп’ютерний зір, роботизоване бачення тощо. Коли експерти AI навчають такі моделі, вони додають підписи, ідентифікатори та ключові слова як атрибути до своїх зображень. Потім алгоритми ідентифікують і розуміють ці параметри та навчаються автономно.
Класифікація зображень – Класифікація зображень передбачає призначення попередньо визначених категорій або міток зображенням на основі їх вмісту. Цей тип анотації використовується для навчання моделей ШІ автоматично розпізнавати та класифікувати зображення.
Розпізнавання/виявлення об’єктів – Розпізнавання об’єктів або виявлення об’єктів — це процес ідентифікації та позначення певних об’єктів на зображенні. Цей тип анотації використовується для навчання моделей ШІ знаходити та розпізнавати об’єкти на реальних зображеннях або відео.
Сегментація – Сегментація зображення передбачає поділ зображення на кілька сегментів або областей, кожна з яких відповідає певному об’єкту чи області інтересу. Цей тип анотації використовується для навчання моделей штучного інтелекту аналізувати зображення на піксельному рівні, що забезпечує точніше розпізнавання об’єктів і розуміння сцени.
Підписи до зображень: Транскрипція зображень — це процес отримання деталей із зображень і перетворення їх на описовий текст, який потім зберігається як анотовані дані. Надаючи зображення та вказуючи, що потрібно анотувати, інструмент створює як зображення, так і їхні відповідні описи.
Оптичний розпізнавання символів (OCR): Технологія OCR дозволяє комп’ютерам читати та розпізнавати текст зі сканованих зображень або документів. Цей процес допомагає точно видобувати текст і суттєво вплинув на оцифрування, автоматичне введення даних і покращив доступність для людей із вадами зору.
Оцінка пози (анотація ключових точок): Оцінка пози передбачає визначення та відстеження ключових точок на тілі, як правило, у суглобах, щоб визначити положення та орієнтацію людини в 2D або 3D просторі на зображеннях або відео.
Аудіо анотація
Аудіодані мають ще більшу динаміку, ніж дані зображення. З аудіофайлом пов’язано кілька факторів, зокрема, але не обмежуючись ними – мова, демографічні характеристики мовців, діалекти, настрій, наміри, емоції, поведінка. Щоб алгоритми були ефективними в обробці, усі ці параметри мають бути ідентифіковані та позначені такими методами, як мітка часу, позначення аудіо тощо. Крім просто словесних сигналів, невербальні випадки, такі як тиша, дихання, навіть фоновий шум, можуть бути анотовані для системного розуміння.
Класифікація звуку: Аудіокласифікація сортує звукові дані на основі їх характеристик, дозволяючи машинам розпізнавати та розрізняти різні типи аудіо, як-от музика, мова та звуки природи. Його часто використовують для класифікації музичних жанрів, що допомагає таким платформам, як Spotify, рекомендувати схожі треки.
Транскрипція аудіо: Транскрипція аудіо — це процес перетворення вимовлених слів із аудіофайлів у письмовий текст, корисний для створення субтитрів до інтерв’ю, фільмів або телешоу. Хоча такі інструменти, як Whisper від OpenAI, можуть автоматизувати транскрипцію кількома мовами, вони можуть потребувати певної корекції вручну. Ми надаємо підручник щодо вдосконалення цих транскрипцій за допомогою інструмента аудіоанотації Shaip.
Відео анотація
Коли зображення нерухоме, відео — це компіляція зображень, які створюють ефект рухомих об’єктів. Тепер кожне зображення в цій компіляції називається рамкою. Що стосується відео анотації, процес включає додавання ключових точок, багатокутників або обмежувальних рамок для анотування різних об’єктів у полі в кожному кадрі.
Коли ці кадри зшиті разом, моделі ШІ в дії можуть вивчати рух, поведінку, шаблони та багато іншого. Це тільки через відео анотація що такі концепції, як локалізація, розмиття руху та відстеження об’єктів, можуть бути реалізовані в системах. Різне програмне забезпечення анотації відеоданих допомагає вам анотувати кадри. Коли ці анотовані кадри зшиваються разом, моделі штучного інтелекту можуть вивчати рух, поведінку, візерунки тощо. Відеоанотація має вирішальне значення для реалізації таких концепцій, як локалізація, розмиття руху та відстеження об’єктів у ШІ.
Класифікація відео (теги): Класифікація відео передбачає сортування відеоконтенту за певними категоріями, що має вирішальне значення для модерації онлайн-контенту та забезпечення безпечного досвіду для користувачів.
Субтитри до відео: Подібно до того, як ми додаємо підписи до зображень, субтитри до відео включають перетворення відеовмісту на описовий текст.
Виявлення відеоподії або дії: Ця техніка ідентифікує та класифікує дії у відеозаписах, які зазвичай використовуються у спорті для аналізу результатів або під час спостереження для виявлення рідкісних подій.
Виявлення та відстеження відеооб'єктів: Функція виявлення об’єктів у відео ідентифікує об’єкти та відстежує їхній рух по кадрах, відзначаючи такі деталі, як розташування та розмір, під час їхнього переміщення у послідовності.
Анотація тексту
Сьогодні більшість компаній покладаються на текстові дані для унікального розуміння та інформації. Тепер текст може бути будь-яким, починаючи від відгуку клієнтів про додаток до згадки в соціальних мережах. І на відміну від зображень і відео, які переважно передають прямі наміри, текст має багато семантики.
Як люди, ми налаштовані на розуміння контексту фрази, значення кожного слова, речення чи фрази, пов’язуємо їх із певною ситуацією чи розмовою, а потім усвідомлюємо цілісне значення висловлювання. Машини, з іншого боку, не можуть зробити це на точних рівнях. Такі поняття, як сарказм, гумор та інші абстрактні елементи, їм невідомі, і тому маркування текстових даних стає складнішим. Ось чому текстові анотації мають деякі більш досконалі етапи, наприклад такі:
Семантична анотація – об’єкти, продукти та послуги стають більш релевантними за допомогою відповідних тегів ключових фраз та параметрів ідентифікації. Чат-боти також створені таким чином, щоб імітувати людські розмови.
Анотація про наміри – намір користувача та мова, яку він використовує, позначені для розуміння машин. Завдяки цьому моделі можуть відрізняти запит від команди, рекомендацію від бронювання тощо.
Анотація настрою – Анотація настроїв передбачає позначення текстових даних настроями, які вони передають, наприклад позитивними, негативними чи нейтральними. Цей тип анотації зазвичай використовується в аналізі настроїв, де моделі ШІ навчаються розуміти й оцінювати емоції, виражені в тексті.
Анотація сутності – де неструктуровані речення позначаються тегами, щоб зробити їх більш значущими та привести їх у формат, зрозумілий машинам. Щоб це сталося, задіяні два аспекти – визнання іменованої сутності та зв'язування сутностей. Розпізнавання іменованих об’єктів – це коли назви місць, людей, подій, організацій тощо позначаються та ідентифікуються, а посилання на об’єкти – це коли ці теги пов’язуються з реченнями, фразами, фактами чи думками, які слідують за ними. Разом ці два процеси встановлюють зв’язок між асоційованими текстами та твердженням, що його оточує.
Категоризація тексту – Речення або абзаци можна позначати тегами та класифікувати на основі загальних тем, тенденцій, тем, думок, категорій (спорт, розваги тощо) та інших параметрів.
Лідар Анотація
Анотація LiDAR включає маркування та класифікацію даних тривимірної хмари точок із датчиків LiDAR. Цей важливий процес допомагає машинам розуміти просторову інформацію для різних цілей. Наприклад, в автономних транспортних засобах анотовані дані LiDAR дозволяють автомобілям ідентифікувати об’єкти та безпечно керувати ними. У міському плануванні це допомагає створювати детальні тривимірні карти міста. Для моніторингу навколишнього середовища він допомагає аналізувати лісові структури та відстежувати зміни рельєфу. Він також використовується в робототехніці, доповненій реальності та будівництві для точних вимірювань і розпізнавання об’єктів.
Ключові кроки в процесі маркування та анотації даних
Процес анотації даних включає серію чітко визначених кроків для забезпечення високоякісного та точного маркування даних для програм машинного навчання. Ці кроки охоплюють усі аспекти процесу, від збору даних до експорту анотованих даних для подальшого використання.
Ось як відбувається анотація даних:
- Збір даних: Першим кроком у процесі анотації даних є збір усіх відповідних даних, таких як зображення, відео, аудіозаписи або текстові дані, у централізованому місці.
- Попередня обробка даних: Стандартизуйте та покращуйте зібрані дані, виправляючи зображення, форматуючи текст або транскрибуючи відеовміст. Попередня обробка гарантує, що дані готові до анотації.
- Виберіть відповідного постачальника або інструмент: Виберіть відповідний інструмент анотації даних або постачальника відповідно до вимог вашого проекту. Варіанти включають такі платформи, як Nanonets для анотації даних, V7 для анотації зображень, Appen для анотації відео та Nanonets для анотації документів.
- Правила анотації: Встановіть чіткі вказівки для анотаторів або інструментів для анотацій, щоб забезпечити послідовність і точність протягом усього процесу.
- Анотація: Позначте дані мітками та тегами за допомогою анотаторів або програмного забезпечення для анотації даних, дотримуючись встановлених інструкцій.
- Забезпечення якості (QA): Перегляньте анотовані дані, щоб переконатися в точності та послідовності. Використовуйте кілька сліпих анотацій, якщо необхідно, щоб перевірити якість результатів.
- Експорт даних: Після завершення анотації даних експортуйте дані в потрібному форматі. Такі платформи, як Nanonets, дозволяють безперебійно експортувати дані в різні програмні програми для бізнесу.
Весь процес анотації даних може тривати від кількох днів до кількох тижнів залежно від розміру проекту, складності та доступних ресурсів.
Функції для інструментів анотації даних/даних
Інструменти анотації даних є вирішальними факторами, які можуть зробити або зламати ваш проект AI. Коли справа доходить до точних результатів, якість самих наборів даних не має значення. Насправді інструменти анотації даних, які ви використовуєте для навчання своїх модулів AI, надзвичайно впливають на ваші результати.
Ось чому важливо вибрати та використовувати найбільш функціональний і відповідний інструмент маркування даних, який відповідає потребам вашого бізнесу або проекту. Але що таке інструмент анотації даних в першу чергу? Якої мети він служить? Чи є якісь види? Ну, давайте з’ясуємо.
Як і інші інструменти, інструменти анотації даних пропонують широкий спектр функцій і можливостей. Щоб дати вам швидке уявлення про функції, ось список деяких найбільш фундаментальних функцій, на які слід звертати увагу при виборі інструмента анотації даних.
Управління наборами даних
Інструмент анотації даних, який ви збираєтеся використовувати, повинен підтримувати наявні у вас набори даних і дозволяти вам імпортувати їх у програмне забезпечення для маркування. Отже, керування наборами даних є основною пропозицією інструментів. Сучасні рішення пропонують функції, які дозволяють безперешкодно імпортувати великі обсяги даних, водночас дозволяючи організувати свої набори даних за допомогою таких дій, як сортування, фільтрування, клонування, об’єднання тощо.
Після завершення введення ваших наборів даних експортується їх як файли, які можна використовувати. Інструмент, який ви використовуєте, повинен дозволяти вам зберігати ваші набори даних у визначеному вами форматі, щоб ви могли вводити їх у свої моделі ML.
Прийоми анотації
Саме для цього створений або розроблений інструмент анотації даних. Надійний інструмент повинен запропонувати вам ряд методів анотації для наборів даних усіх типів. Це якщо ви не розробляєте індивідуальні рішення для ваших потреб. Ваш інструмент повинен дозволяти вам коментувати відео чи зображення з комп’ютерного зору, аудіо чи текст із НЛП та транскрипцій тощо. Уточнюючи це далі, повинні бути варіанти використання обмежувальних рамок, семантичної сегментації, кубоїдів, інтерполяції, аналізу настроїв, частин мови, кореферентного рішення тощо.
Для непосвячених також існують інструменти анотації даних на основі штучного інтелекту. Вони поставляються з модулями штучного інтелекту, які автономно вивчають робочі шаблони анотатора та автоматично коментують зображення або текст. Такий
Модулі можна використовувати для надання неймовірної допомоги анотаторам, оптимізації анотацій і навіть для здійснення перевірки якості.
Контроль якості даних
Говорячи про перевірку якості, кілька інструментів анотації даних випускаються з вбудованими модулями перевірки якості. Вони дозволяють анотаторам краще співпрацювати з членами своєї команди та допомагають оптимізувати робочі процеси. За допомогою цієї функції анотатори можуть позначати та відстежувати коментарі чи відгуки в режимі реального часу, відстежувати особи, які стоять за людьми, які вносять зміни у файли, відновлювати попередні версії, вибирати консенсус маркування тощо.
Безпека
Оскільки ви працюєте з даними, безпека має бути найвищим пріоритетом. Можливо, ви працюєте з конфіденційними даними, як-от особистих даних або інтелектуальної власності. Отже, ваш інструмент повинен забезпечувати герметичний захист з точки зору того, де зберігаються дані та як вони передаються. Він повинен забезпечувати інструменти, які обмежують доступ членів команди, запобігають несанкціоноване завантаження тощо.
Крім цього, стандарти та протоколи безпеки мають бути дотримані та дотримані.
Управління робочою силою
Інструмент анотації даних також є своєрідною платформою для управління проектами, де можна призначати завдання членам команди, проводити спільну роботу, можливі огляди тощо. Ось чому ваш інструмент повинен вписуватися у ваш робочий процес і процес для оптимізації продуктивності.
Крім того, інструмент також повинен мати мінімальну криву навчання, оскільки сам по собі процес анотації даних займає багато часу. Це не має жодної мети, витрачаючи занадто багато часу на просто вивчення інструмента. Отже, це має бути інтуїтивно зрозумілим і безпроблемним для будь-кого, щоб швидко розпочати роботу.
Які переваги анотації даних?
Анотація даних має вирішальне значення для оптимізації систем машинного навчання та покращення взаємодії з користувачем. Ось деякі основні переваги анотації даних:
- Покращена ефективність навчання: Позначення даних допомагає краще тренувати моделі машинного навчання, підвищуючи загальну ефективність і одержуючи точніші результати.
- Підвищена точність: Точні анотовані дані гарантують, що алгоритми можуть адаптуватися та ефективно навчатися, що призводить до більш високого рівня точності в майбутніх завданнях.
- Зменшене втручання людини: Удосконалені інструменти анотації даних значно зменшують потребу в ручному втручанні, оптимізуючи процеси та зменшуючи відповідні витрати.
Таким чином, анотація даних сприяє більш ефективним і точним системам машинного навчання, мінімізуючи витрати та ручні зусилля, які традиційно потрібні для навчання моделей ШІ.
Контроль якості в анотації даних
Shaip забезпечує першокласну якість за допомогою кількох етапів контролю якості для забезпечення якості анотації даних.
- Початкове навчання: Анотатори пройшли ретельну підготовку щодо вказівок щодо конкретних проектів.
- Постійний моніторинг: Регулярні перевірки якості під час процесу анотації.
- Остаточний огляд: Комплексні перевірки старших анотаторів і автоматизовані інструменти для забезпечення точності та послідовності.
Крім того, штучний інтелект також може виявляти невідповідності в людських анотаціях і позначати їх для перегляду, забезпечуючи вищу загальну якість даних. (наприклад, штучний інтелект може виявити розбіжності в тому, як різні анотатори позначають той самий об’єкт на зображенні). Таким чином, за допомогою людини та штучного інтелекту якість анотації можна значно покращити, одночасно зменшивши загальний час, необхідний для завершення проектів.
Ключові проблеми в анотації даних для успіху ШІ
Анотація даних відіграє вирішальну роль у розробці та точності моделей ШІ та машинного навчання. Однак цей процес пов’язаний зі своїми проблемами:
- Вартість анотування даних: анотацію даних можна виконувати вручну або автоматично. Анотація вручну вимагає значних зусиль, часу та ресурсів, що може призвести до збільшення витрат. Підтримка якості даних протягом усього процесу також сприяє цим витратам.
- Точність анотації: людські помилки під час процесу анотації можуть призвести до низької якості даних, безпосередньо впливаючи на продуктивність і прогнози моделей AI/ML. Це підкреслює дослідження Gartner низька якість даних коштує компаніям до 15% їхнього доходу.
- масштабованість: зі збільшенням обсягу даних процес анотації може стати більш складним і трудомістким. Масштабування анотації даних із збереженням якості та ефективності є складним завданням для багатьох організацій.
- Конфіденційність даних та безпека: анотування конфіденційних даних, таких як особиста інформація, медичні записи або фінансові дані, викликає занепокоєння щодо конфіденційності та безпеки. Забезпечення відповідності процесу анотації відповідним нормам захисту даних і етичним принципам має вирішальне значення для уникнення юридичних ризиків і ризиків для репутації.
- Керування різними типами даних: Робота з різними типами даних, як-от текст, зображення, аудіо та відео, може бути складною, особливо коли для цього потрібні різні техніки анотацій і досвід. Координація та керування процесом анотації для цих типів даних може бути складним і ресурсомістким.
Організації можуть зрозуміти й вирішити ці проблеми, щоб подолати перешкоди, пов’язані з анотацією даних, і підвищити ефективність і результативність своїх проектів ШІ та машинного навчання.
Створювати чи не створювати інструмент анотації даних
Одна критична і загальна проблема, яка може виникнути під час проекту анотації даних або маркування даних, — це вибір: створити або придбати функціональні можливості для цих процесів. Це може виникати кілька разів на різних етапах проекту або пов’язано з різними сегментами програми. При виборі, чи будувати систему внутрішньо чи покладатися на постачальників, завжди є компроміс.
Як ви, ймовірно, вже зрозуміли, анотація даних є складним процесом. Водночас це також суб’єктивний процес. Це означає, що немає єдиної відповіді на питання, чи варто купувати чи створювати інструмент анотації даних. Необхідно врахувати багато факторів, і ви повинні поставити собі кілька запитань, щоб зрозуміти свої вимоги та зрозуміти, чи дійсно вам потрібно його купити чи створити.
Щоб зробити це простим, ось деякі фактори, які ви повинні враховувати.
Ваша мета
Перший елемент, який вам потрібно визначити, — це мета з вашими концепціями штучного інтелекту та машинного навчання.
- Чому ви впроваджуєте їх у свій бізнес?
- Чи вирішують вони реальну проблему, з якою стикаються ваші клієнти?
- Чи створюють вони якісь інтерфейсні чи бекенд-процеси?
- Чи будете ви використовувати штучний інтелект для впровадження нових функцій або оптимізації існуючого веб-сайту, програми чи модуля?
- Що робить ваш конкурент у вашому сегменті?
- Чи достатньо у вас випадків використання, які потребують втручання ШІ?
Відповіді на них об’єднають ваші думки – які зараз можуть бути повсюдно – в одному місці та нададуть вам більше ясності.
Збір даних AI / Ліцензування
Для роботи моделей ШІ потрібен лише один елемент – дані. Вам потрібно визначити, звідки ви можете генерувати величезні обсяги даних, що відповідають дійсності. Якщо ваш бізнес генерує великі обсяги даних, які потрібно обробити, щоб отримати важливу інформацію про бізнес, операції, дослідження конкурентів, аналіз волатильності ринку, дослідження поведінки клієнтів тощо, вам потрібен інструмент анотації даних. Однак ви також повинні враховувати обсяг даних, які ви створюєте. Як згадувалося раніше, модель ШІ настільки ефективна, наскільки якість і кількість даних, які вона подає. Отже, ваші рішення неодмінно повинні залежати від цього фактора.
Якщо у вас немає потрібних даних для навчання моделей ML, постачальники можуть стати в нагоді, допомагаючи вам ліцензувати дані правильного набору даних, необхідних для навчання моделей ML. У деяких випадках частина цінності, яку приносить постачальник, включатиме як технічну майстерність, так і доступ до ресурсів, які сприятимуть успіху проекту.
бюджет
Ще одна фундаментальна умова, яка, ймовірно, впливає на кожен фактор, який ми зараз обговорюємо. Вирішити питання про те, чи варто створювати чи купувати анотацію даних, стає легко, якщо ви зрозумієте, чи достатньо у вас бюджету для витрат.
Складнощі відповідності
Постачальники можуть бути надзвичайно корисними, коли справа доходить до конфіденційності даних і правильної обробки конфіденційних даних. Один із таких варіантів використання включає лікарню або медичний бізнес, який хоче використовувати можливості машинного навчання, не ставлячи під загрозу його відповідність HIPAA та іншим правилам конфіденційності даних. Навіть поза межами медицини закони, такі як Європейський GDPR, посилюють контроль над наборами даних і вимагають більшої пильності з боку корпоративних зацікавлених сторін.
Кадри
Анотація даних вимагає кваліфікованої робочої сили для роботи незалежно від розміру, масштабу та домену вашого бізнесу. Навіть якщо ви генеруєте мінімальну кількість даних щодня, вам потрібні експерти з даних, щоб працювати над даними для маркування. Отже, тепер вам потрібно зрозуміти, чи є у вас необхідна робоча сила. Якщо у вас є, чи володіють вони необхідними інструментами та методами, чи їм потрібно підвищення кваліфікації? Якщо їм потрібно підвищити кваліфікацію, чи є у вас бюджет для їх навчання?
Більше того, найкращі програми анотації та маркування даних беруть участь у ряді експертів з тематики чи домену та сегментують їх відповідно до демографічних показників, таких як вік, стать та сфера знань – або часто з точки зору локалізованих мов, з якими вони працюватимуть. Знову ж таки, ми в Shaip говоримо про те, щоб отримати потрібних людей на правильні місця, тим самим стимулюючи правильні процеси, пов’язані з людиною, які приведуть ваші програмні зусилля до успіху.
Операції малого та великого проекту та пороги вартості
У багатьох випадках підтримка постачальника може бути скоріше варіантом для меншого проекту або для менших етапів проекту. Коли витрати можна контролювати, компанія може отримати вигоду від аутсорсингу, щоб зробити проекти анотації та маркування даних більш ефективними.
Компанії також можуть дивитися на важливі порогові значення, коли багато постачальників прив’язують вартість до кількості спожитих даних або інших контрольних показників ресурсів. Наприклад, скажімо, що компанія підписалася з постачальником для виконання виснажливого введення даних, необхідних для налаштування тестових наборів.
У угоді може бути прихований поріг, коли, наприклад, бізнес-партнер повинен отримати ще один блок сховища даних AWS або інший компонент сервісу від Amazon Web Services або іншого стороннього постачальника. Вони передають це клієнту у вигляді вищих витрат, і це ставить цінник за межі досяжності клієнта.
У цих випадках облік послуг, які ви отримуєте від постачальників, допомагає підтримувати проект доступним. Наявність правильного обсягу гарантує, що витрати на проект не перевищують розумних або можливих для відповідної фірми.
Альтернативи з відкритим кодом і безкоштовним програмним забезпеченням
Деякі альтернативи повній підтримці постачальників передбачають використання програмного забезпечення з відкритим кодом або навіть безкоштовного програмного забезпечення для виконання проектів анотації даних або маркування. Тут є свого роду золота середина, коли компанії не створюють все з нуля, але також уникають занадто сильно покладатися на комерційних постачальників.
Ментальність відкритого коду «зроби сам» сама по собі є свого роду компромісом – інженери та внутрішні співробітники можуть скористатися перевагами спільноти з відкритим кодом, де децентралізовані бази користувачів пропонують власну підтримку низового рівня. Це не буде схожим на те, що ви отримуєте від постачальника – ви не отримаєте цілодобової допомоги чи відповідей на запитання без внутрішніх досліджень – але ціна нижча.
Отже, велике питання – коли варто купувати інструмент анотації даних:
Як і у випадку з багатьма видами високотехнологічних проектів, цей тип аналізу – коли будувати, а коли купувати – вимагає відданої думки та врахування того, як ці проекти надходять і керуються. Проблеми, з якими стикається більшість компаній, пов’язані з проектами AI/ML, розглядаючи варіант «побудови», полягають не тільки в частині створення та розробки проекту. Часто існує величезна крива навчання, щоб навіть досягти точки, коли може статися справжня розробка AI/ML. З новими командами та ініціативами AI/ML кількість «невідомих невідомих» значно перевищує кількість «відомих невідомих».
Будувати | купити |
---|---|
Плюси:
| Плюси:
|
Мінуси:
| Мінуси:
|
Щоб зробити все ще простіше, зверніть увагу на такі аспекти:
- коли ви працюєте з величезними обсягами даних
- коли ви працюєте з різними даними
- коли функціональні можливості, пов’язані з вашими моделями або рішеннями, можуть змінитися або розвиватися в майбутньому
- коли у вас є нечіткий або загальний варіант використання
- коли вам потрібно чітке уявлення про витрати, пов’язані з розгортанням інструменту анотації даних
- і коли у вас немає потрібної робочої сили або кваліфікованих експертів для роботи з інструментами, і ви шукаєте мінімальну криву навчання
Якщо ваші відповіді були протилежними цим сценаріям, вам слід зосередитися на створенні інструменту.
Вибір правильного інструменту анотації даних
Якщо ви читаєте це, ці ідеї звучать захоплююче, і їх, безумовно, легше сказати, ніж зробити. Отже, як же застосувати безліч вже існуючих інструментів анотації даних? Отже, наступним кроком є розгляд факторів, пов’язаних з вибором правильного інструменту анотації даних.
На відміну від кількох років тому, сьогодні ринок розвинувся з безліччю платформ маркування даних ШІ. Підприємства мають більше можливостей вибору того, що базується на їхніх конкретних потребах. Але кожен інструмент має свої плюси і мінуси. Щоб прийняти мудре рішення, необхідно вибрати об’єктивний шлях, крім суб’єктивних вимог. Давайте розглянемо деякі з ключових факторів, які ви повинні враховувати в процесі.
Визначення варіанту використання
Щоб вибрати правильний інструмент анотації даних, вам потрібно визначити варіант використання. Ви повинні розуміти, чи стосується ваша вимога текст, зображення, відео, аудіо чи поєднання всіх типів даних. Існують окремі інструменти, які можна придбати, а є цілісні інструменти, які дозволяють виконувати різноманітні дії з наборами даних.
Сучасні інструменти є інтуїтивно зрозумілими і пропонують вам варіанти з точки зору засобів зберігання (мережа, локальна чи хмара), методів анотації (аудіо, зображення, 3D тощо) та безліч інших аспектів. Ви можете вибрати інструмент, виходячи з ваших конкретних потреб.
Встановлення стандартів контролю якості
Це важливий фактор, який слід враховувати, оскільки мета та ефективність ваших моделей штучного інтелекту залежать від встановлених вами стандартів якості. Як і аудит, вам потрібно виконати перевірку якості даних, які ви надаєте, і отриманих результатів, щоб зрозуміти, чи навчають ваші моделі правильно і для правильних цілей. Однак питання в тому, як ви збираєтеся встановити стандарти якості?
Як і з багатьма різними видами робіт, багато людей можуть робити анотації даних і теги, але вони роблять це з різним ступенем успіху. Коли ви просите про послугу, ви автоматично не перевіряєте рівень контролю якості. Тому результати відрізняються.
Отже, ви хочете розгорнути модель консенсусу, де анотатори пропонують зворотній зв’язок щодо якості та миттєво вживаються коригувальні заходи? Або ви віддаєте перевагу огляду зразків, золотим стандартам чи перетину над моделями союзів?
Найкращий план закупівель забезпечить контроль якості з самого початку шляхом встановлення стандартів до узгодження будь-якого остаточного контракту. Встановлюючи це, ви також не повинні упускати з уваги поля помилок. Неможливо повністю уникнути ручного втручання, оскільки системи неминуче виробляють помилки з частотою до 3%. Це вимагає попередньої роботи, але воно того варте.
Хто буде анотувати ваші дані?
Наступний основний фактор залежить від того, хто коментує ваші дані. Чи маєте ви намір створити внутрішню команду чи краще передати її на аутсорсинг? Якщо ви здійснюєте аутсорсинг, ви повинні враховувати закони та заходи щодо дотримання вимог через проблеми конфіденційності та конфіденційності, пов’язані з даними. І якщо у вас є внутрішня команда, наскільки вони ефективні в освоєнні нового інструменту? Який ваш час виведення на ринок вашого продукту чи послуги? Чи є у вас правильні показники якості та команди для затвердження результатів?
Продавець проти Партнерські дебати
Анотація даних – це спільний процес. Він включає залежності та тонкощі, як-от взаємосумісність. Це означає, що певні команди завжди працюють в тандемі один з одним, і одна з команд може бути вашим постачальником. Ось чому вибраний постачальник або партнер настільки ж важливий, як і інструмент, який ви використовуєте для маркування даних.
З цим фактором перед тим, як потиснути руку постачальнику або партнеру, слід враховувати такі аспекти, як здатність зберігати конфіденційність ваших даних і намірів, намір приймати зворотний зв’язок і працювати над ними, бути ініціативним у плані запитів даних, гнучкість операцій тощо. . Ми включили гнучкість, оскільки вимоги до анотації даних не завжди є лінійними чи статичними. Вони можуть змінитися в майбутньому, якщо ви далі розширите свій бізнес. Якщо зараз ви маєте справу лише з текстовими даними, можливо, ви захочете коментувати аудіо- або відеодані під час масштабування, і ваша служба підтримки має бути готова розширити свої горизонти разом із вами.
Участь постачальника
Одним із способів оцінити участь постачальників є підтримка, яку ви отримаєте. Будь-який план купівлі повинен мати певну увагу на цьому компоненті. Як буде виглядати опора на землі? Хто будуть зацікавлені сторони та цілі люди по обидва боки рівняння?
Існують також конкретні завдання, які мають пояснити, у чому полягає (або буде) участь постачальника. Зокрема, для проекту анотації даних або маркування даних, чи буде постачальник активно надавати вихідні дані чи ні? Хто виступатиме в якості експертів, а хто найматиме їх як працівників, чи як незалежних підрядників?
Реальні випадки використання для анотації даних у ШІ
Анотація даних життєво важлива в різних галузях, що дозволяє їм розробляти більш точні та ефективні моделі ШІ та машинного навчання. Нижче наведено кілька галузевих випадків використання анотації даних:
Анотація даних охорони здоров’я
Анотація даних для медичних зображень є важливою у розробці інструментів аналізу медичних зображень на основі ШІ. Анотатори позначають медичні зображення (наприклад, рентгенівські знімки, МРТ) для таких функцій, як пухлини чи певні анатомічні структури, що дозволяє алгоритмам виявляти захворювання та аномалії з більшою точністю. Наприклад, анотація даних має вирішальне значення для навчання моделей машинного навчання ідентифікації ракових уражень у системах виявлення раку шкіри. Крім того, анотатори даних позначають електронні медичні записи (EMR) і клінічні нотатки, допомагаючи в розробці систем комп’ютерного зору для діагностики захворювань і автоматизованого аналізу медичних даних.
Анотація даних роздрібної торгівлі
Анотація даних про роздрібну торгівлю передбачає маркування зображень продуктів, даних про клієнтів і даних про настрої. Цей тип анотації допомагає створювати та навчати моделі штучного інтелекту/ML, щоб розуміти настрої клієнтів, рекомендувати продукти та покращувати загальний досвід клієнтів.
Анотація фінансових даних
Фінансовий сектор використовує анотацію даних для виявлення шахрайства та аналізу настроїв у статтях фінансових новин. Анотатори позначають транзакції чи статті новин як шахрайські або законні, навчаючи моделі штучного інтелекту автоматично позначати підозрілу активність і визначати потенційні ринкові тенденції. Наприклад, анотації допомагають фінансовим установам навчити моделі штучного інтелекту розпізнавати закономірності у фінансових транзакціях і виявляти шахрайські дії. Крім того, анотація фінансових даних зосереджена на анотуванні фінансових документів і транзакційних даних, необхідних для розробки систем штучного інтелекту/ML, які виявляють шахрайство, вирішують проблеми відповідності та оптимізують інші фінансові процеси.
Анотація автомобільних даних
Анотація даних в автомобільній промисловості включає маркування даних автономних транспортних засобів, таких як інформація камери та датчика LiDAR. Ця анотація допомагає створювати моделі для виявлення об’єктів у навколишньому середовищі та обробки інших критичних точок даних для систем автономного транспортного засобу.
Анотація промислових або виробничих даних
Анотація даних для автоматизації виробництва сприяє розвитку інтелектуальних роботів і автоматизованих систем у виробництві. Анотатори позначають зображення або дані датчиків, щоб навчити моделі штучного інтелекту таким завданням, як виявлення об’єктів (роботи збирають товари зі складу) або виявлення аномалій (виявлення потенційних несправностей обладнання на основі показань датчиків). Наприклад, анотація даних дозволяє роботам розпізнавати та охоплювати конкретні об’єкти на виробничій лінії, підвищуючи ефективність і автоматизацію. Крім того, анотація промислових даних використовується для анотації даних із різних промислових застосувань, включаючи зображення виробництва, дані про технічне обслуговування, дані про безпеку та інформацію про контроль якості. Цей тип анотації даних допомагає створювати моделі, здатні виявляти аномалії у виробничих процесах і забезпечувати безпеку працівників.
Анотація даних електронної комерції
Анотування зображень продуктів і відгуків користувачів для персоналізованих рекомендацій і аналізу настроїв.
Які найкращі практики для анотації даних?
Щоб забезпечити успіх ваших проектів штучного інтелекту та машинного навчання, важливо дотримуватися найкращих практик щодо анотації даних. Ці методи можуть допомогти підвищити точність і узгодженість ваших анотованих даних:
- Виберіть відповідну структуру даних: створюйте мітки даних, які є достатньо конкретними, щоб бути корисними, але достатньо загальними, щоб охопити всі можливі варіації в наборах даних.
- Надайте чіткі інструкції: розробіть детальні, прості для розуміння інструкції з анотації даних і найкращі практики для забезпечення узгодженості та точності даних у різних анотаторах.
- Оптимізуйте навантаження на анотації: оскільки анотація може коштувати дорого, розгляньте доступніші альтернативи, такі як робота зі службами збору даних, які пропонують попередньо позначені набори даних.
- За потреби зберіть більше даних: Щоб запобігти погіршенню якості моделей машинного навчання, співпрацюйте з компаніями, які збирають дані, щоб зібрати більше даних, якщо потрібно.
- Аутсорсинг або краудсорсинг: коли вимоги до анотації даних стають надто великими та забирають багато часу для внутрішніх ресурсів, подумайте про аутсорсинг або краудсорсинг.
- Об’єднайте зусилля людини та машини: Використовуйте підхід «людина в циклі» з програмним забезпеченням анотації даних, щоб допомогти людям-анотаторам зосередитися на найскладніших випадках і збільшити різноманітність набору навчальних даних.
- Ставте пріоритет якості: регулярно перевіряйте свої анотації даних для забезпечення якості. Заохочуйте кількох анотаторів перевіряти роботу один одного на точність і узгодженість у маркуванні наборів даних.
- Забезпечити відповідність: додаючи анотації до наборів конфіденційних даних, як-от зображень людей або медичних записів, уважно враховуйте питання конфіденційності та етики. Недотримання місцевих правил може завдати шкоди репутації вашої компанії.
Дотримання цих найкращих методів анотації даних може допомогти вам гарантувати, що ваші набори даних точно позначені, доступні для спеціалістів з обробки даних і готові до підтримки ваших проектів, керованих даними.
Приклади з практики
Нижче наведено кілька конкретних прикладів із прикладного дослідження, які розповідають про те, як насправді працюють анотації та маркування даних. У Shaip ми дбаємо про те, щоб забезпечити найвищий рівень якості та чудові результати анотації та маркування даних. Велика частина наведеного вище обговорення стандартних досягнень для анотації даних і маркування даних показує, як ми підходимо до кожного проекту, і що ми пропонуємо компаніям і зацікавленим сторонам, з якими працюємо.
В одному з наших нещодавніх проектів ліцензування клінічних даних ми обробили понад 6,000 годин аудіо, ретельно видаливши всю захищену інформацію про здоров’я (PHI), щоб забезпечити відповідність вмісту стандартам HIPAA. Після деідентифікації даних вони були готові до використання для навчання моделей розпізнавання мовлення в медичних закладах.
У таких проектах справжня проблема полягає в тому, щоб відповідати суворим критеріям і досягати ключових етапів. Ми починаємо з необроблених аудіоданих, що означає, що велика увага приділяється деідентифікації всіх залучених сторін. Наприклад, коли ми використовуємо аналіз розпізнавання іменованих об’єктів (NER), наша мета полягає не лише в анонімності інформації, а й у тому, щоб переконатися, що вона належним чином анотована для моделей.
Інший випадок, який виділяється, є масовим розмовні навчальні дані AI проект, де ми працювали з 3,000 лінгвістами протягом 14 тижнів. Результат? Ми підготували навчальні дані 27 різними мовами, допомагаючи розробити багатомовні цифрові помічники, які можуть спілкуватися з людьми їхніми рідними мовами.
Цей проект дійсно підкреслив важливість залучення правильних людей на місце. З такою великою командою експертів із предметної тематики та обробників даних, щоб все було організовано та налагоджено, було вкрай важливо для дотримання терміну. Завдяки нашому підходу ми змогли завершити проект значно випереджаючи галузеві стандарти.
В іншому прикладі одному з наших клієнтів із сфери охорони здоров’я потрібні були анотовані медичні зображення найвищого рівня для нового діагностичного інструменту ШІ. Використовуючи глибокий досвід Shaip у створенні анотацій, клієнт покращив точність своєї моделі на 25%, що призвело до швидшої та надійнішої діагностики.
Ми також зробили багато роботи в таких сферах, як навчання ботів і текстові анотації для машинного навчання. Навіть під час роботи з текстом все ще застосовуються закони про конфіденційність, тому деідентифікація конфіденційної інформації та сортування необроблених даних є не менш важливими.
Для всіх цих різних типів даних — аудіо, тексту чи зображень — наша команда в Shaip постійно досягає результатів, застосовуючи однакові перевірені методи та принципи, що гарантують успіх щоразу.
Підводячи підсумок
Ми щиро віримо, що цей посібник був для вас винахідливим і що ви отримали відповіді на більшість своїх запитань. Однак, якщо ви все ще не переконані в надійному постачальнику, не шукайте далі.
Ми, у Shaip, є провідною компанією з анотації даних. У нас є експерти в цій галузі, які як ніхто інший розуміють дані та пов’язані з ними проблеми. Ми могли б бути вашими ідеальними партнерами, оскільки ми пропонуємо такі компетенції, як прихильність, конфіденційність, гнучкість та причетність до кожного проекту чи співпраці.
Таким чином, незалежно від типу даних, для яких ви збираєтеся отримувати анотації, ви можете знайти в нас команду ветеранів, яка відповідає вашим вимогам і цілям. Оптимізуйте свої моделі штучного інтелекту для навчання разом з нами.
Давай поговоримо
Часті питання (FAQ)
Анотація даних або маркування даних – це процес, який робить дані з конкретними об’єктами впізнаваними машинами, щоб передбачити результат. Додавання тегів, транскрибування або обробка об’єктів у тексті, зображенні, сканах тощо дають змогу алгоритмам інтерпретувати позначені дані та навчатися самостійно розв’язувати реальні бізнес-кейси без участі людини.
У машинному навчанні (як контрольованому, так і неконтрольованому) мічені або анотовані дані позначають, транскрибують або обробляють функції, які ви хочете, щоб ваші моделі машинного навчання розуміли та розпізнавали, щоб вирішувати проблеми реального світу.
Анотатор даних — це людина, яка невтомно працює, щоб збагатити дані, щоб зробити їх розпізнаваними машинами. Це може включати один або всі з наступних кроків (залежно від конкретного випадку використання та вимог): очищення даних, транскрибування даних, маркування даних або анотація даних, контроль якості тощо.
Інструменти або платформи (хмарні чи локальні), які використовуються для позначення або анотування високоякісних даних (наприклад, тексту, аудіо, зображення, відео) метаданими для машинного навчання, називаються інструментами анотації даних.
Інструменти або платформи (хмарні чи локальні), які використовуються для позначення або анотації рухомих зображень кадр за кадром у відео для створення високоякісних навчальних даних для машинного навчання.
Інструменти або платформи (хмарні чи локальні), які використовуються для позначення чи анотації тексту з оглядів, газет, рецептів лікаря, електронних медичних карт, балансів тощо для створення високоякісних навчальних даних для машинного навчання. Цей процес також можна назвати маркуванням, тегом, транскрибуванням або обробкою.