Алгоритм штучного інтелекту настільки хороший, наскільки хороші дані, які ви йому надаєте.
Це не сміливе і нетрадиційне твердження. Пару десятиліть тому штучний інтелект міг здатися досить надуманим, але з тих пір штучний інтелект і машинне навчання пройшли дуже довгий шлях.
Комп'ютерний зір допомагає комп’ютерам розуміти та інтерпретувати етикетки та зображення. Якщо ви навчите свій комп’ютер використовувати правильний тип наборів даних зображень, він зможе виявляти, розуміти та ідентифікувати різні риси обличчя, виявляти хвороби, керувати автономними транспортними засобами, а також рятувати життя за допомогою багатовимірного сканування органів.
Прогнозується, що ринок комп’ютерного зору досягне $ 144.46 мільярд до 2028 року зі скромних 7.04 мільярда доларів США у 2020 році, зростаючи на CAGR на 45.64% між 2021 та 2028 роками.
Команда набір даних зображення ви годуєте та тренуєте машинне навчання та завдання комп’ютерного зору мають вирішальне значення для успіху вашого проекту ШІ. Якісний набір даних отримати досить важко. Залежно від складності вашого проекту отримання надійних і відповідних наборів даних для комп’ютерного зору може зайняти від кількох днів до кількох тижнів.
Тут ми надаємо вам низку (розділених на категорії для вашої зручності) наборів даних зображень із відкритим кодом, якими ви можете скористатися одразу.
Вичерпний список наборів даних зображень для тренування моделі комп’ютерного зору
Загальні:
IMAGEnet
ImageNet — це широко використовуваний набір даних, який містить приголомшливі 1.2 мільйона зображень, класифікованих за 1000 категоріями. Цей набір даних організований відповідно до ієрархії WorldNet і розділений на три частини – навчальні дані, мітки зображень і дані перевірки.
Кінетика 700
Kinetics 700 — це величезний високоякісний набір даних із понад 650,000 700 кліпів із 700 різними класами дій людини. Кожен із колективних позовів містить близько XNUMX відеороликів. Кліпи в наборі даних мають взаємодію людина-об’єкт і людина-людина, що виявляється дуже корисним для розпізнавання дій людей у відео.
ЦИФАР-10
CIFAR 10 — це один із найбільших наборів даних комп’ютерного зору, що містить 60000 32 кольорових зображень розміром 32 x 6000, що представляють десять різних класів. Кожен клас містить близько XNUMX зображень, які використовуються для навчання алгоритмів комп’ютерного зору та машинного навчання.
Набір даних зображень домашніх тварин Oxford-IIIT
Набір даних зображень домашніх тварин складається з 37 категорій із 200 зображеннями на клас. Ці зображення відрізняються за масштабом, позою та освітленням і супроводжуються анотаціями щодо породи, ROI голови та сегментації трикарти на рівні пікселів.
Відкриті зображення Google
З вражаючими 9 мільйонами URL-адрес, це один із найбільших наборів даних зображень у списку, що містить мільйони зображень, позначених у 6,000 категорій.
Зображення рослин
Ця компіляція включає численні набори даних зображень із вражаючим 1 мільйоном зображень рослин, які охоплюють приблизно 11 видів.
Розпізнавання обличчя:
Позначені обличчя в дикій природі
Labeled Faced in the Wild — це величезний набір даних, що містить понад 13,230 5,750 зображень майже XNUMX XNUMX людей, виявлених в Інтернеті. Цей набір даних облич розроблено, щоб полегшити вивчення безперешкодного виявлення облич.
CASIA WebFace
CASIA Web face — це добре розроблений набір даних, який допомагає машинному навчанню та науковим дослідженням необмеженого розпізнавання облич. Маючи понад 494,000 10,000 зображень майже XNUMX XNUMX реальних осіб, він ідеально підходить для завдань ідентифікації та перевірки облич.
Набір даних UMD Faces
UMD має добре анотований набір даних, який містить дві частини – нерухомі зображення та відеокадри. Набір даних містить понад 367,800 3.7 анотацій облич і XNUMX мільйона анотованих відеокадрів суб’єктів.
Виявлення маски для обличчя
Цей набір даних включає 853 зображення, класифіковані на три класи: «з маскою», «без маски» та «маска, одягнена неправильно», а також їх обмежувальні рамки у форматі PASCAL VOC.
ФЕРЕТ
FERET (Facial Recognition Technology Database) — це повний набір даних зображень, що містить понад 14,000 XNUMX анотованих зображень людських облич.
Розпізнавання рукописного тексту:
База даних MNIST
MNIST — це база даних, що містить зразки рукописних цифр від 0 до 9 і містить 60,000 10,000 і 1999 XNUMX навчальних і тестових зображень. MNIST, випущений у XNUMX році, полегшує тестування систем обробки зображень у Deep Learning.
Набір даних штучних символів
Набір даних штучних символів – це, як випливає з назви, штучно створені дані, які описують структуру англійської мови десятьма великими літерами. Він містить понад 6000 зображень.
Виявлення об'єктів:
MS COCO
MS COCO або Common Objects in Context — це набір даних для виявлення об’єктів і субтитрів.
Він містить понад 328,000 80 зображень із визначенням ключових точок, виявленням кількох об’єктів, субтитрами та анотаціями маски сегментації. Він містить XNUMX категорій об’єктів і п’ять підписів до зображення.
LSUN
LSUN, скорочення від Large-scale Scene Understanding, містить понад мільйон зображень із мітками у 20 об’єктах і 10 категоріях сцен. Деякі категорії мають близько 300,000 300 зображень, з 1000 зображень спеціально для перевірки та XNUMX зображень для тестових даних.
Домашні об'єкти
Набір даних Home Objects містить анотовані зображення випадкових об’єктів з усього будинку – кухні, вітальні та ванної кімнати. Цей набір даних також містить кілька анотованих відео та 398 фотографій без анотацій, призначених для тестування.
Автомобільний:
Набір даних міського пейзажу
Міський пейзаж — це набір даних, до якого можна звернутися, шукаючи різні відеоряди, записані з вуличних сцен кількох міст. Ці зображення були зняті протягом тривалого часу та за різних погодних та освітлених умов. Анотації стосуються 30 класів зображень, розділених на вісім різних категорій.
Барклі Діп Драйв
Barkley DeepDrive спеціально розроблений для автономного навчання транспортних засобів і містить понад 100 тисяч анотованих відеорядів. Це одна з найбільш корисних даних для навчання автономних транспортних засобів у зв’язку зі зміною доріг і умов водіння.
Мапілярний
Mapillary має понад 750 мільйонів вуличних сцен і дорожніх знаків по всьому світу, що дуже корисно для навчання моделей візуального сприйняття в машинному навчанні та алгоритмах ШІ. Це дозволяє розробляти автономні транспортні засоби, які задовольняють різне освітлення, погодні умови та точки зору.
Медична візуалізація:
Набір відкритих досліджень Covid-19
Цей оригінальний набір даних містить приблизно 6500 піксельних полігональних сегментів легенів щодо AP/PA рентгенівських знімків грудної клітки. Крім того, доступно 517 зображень рентгенівських знімків пацієнтів із Covid-19 із тегами, що містять ім’я, місцезнаходження, деталі госпіталізації, результат тощо.
База даних NIH із 100,000 XNUMX рентгенівських знімків грудної клітки
База даних NIH є одним із найбільших загальнодоступних наборів даних, що містить 100,000 XNUMX рентгенівських знімків грудної клітини та пов’язані дані, корисні для наукової та дослідницької спільноти. Він навіть містить зображення пацієнтів із запущеними захворюваннями легенів.
Атлас цифрової патології
Атлас цифрової патології пропонує кілька гістопатологічних зображень, загалом понад 17,000 100, з майже XNUMX анотованих слайдів різних органів. Цей набір даних корисний у розробці комп’ютерного зору та програмного забезпечення для розпізнавання образів.
Розпізнавання сцени:
Розпізнавання сцени в приміщенні
Indoor Scene Recognition — це висококатегоризований набір даних із майже 15620 65 зображеннями об’єктів і внутрішніх пейзажів, які можна використовувати в машинному навчанні та навчанні даних. Він містить понад 100 категорій, і кожна категорія містить щонайменше XNUMX зображень.
xView
Будучи одним із найвідоміших загальнодоступних наборів даних, xView містить масу анотованих зображень згори різних складних і великих сцен. Маючи близько 60 класів і більше мільйона екземплярів об’єктів, мета цього набору даних полягає в тому, щоб забезпечити кращу допомогу в разі лиха за допомогою супутникових зображень.
місця
Місця, набір даних, наданий MIT, містить понад 1.8 мільйона зображень із 365 різних категорій сцен. У кожній із цих категорій є близько 50 зображень для перевірки та 900 зображень для тестування. Можливе вивчення функцій глибокої сцени для розпізнавання сцени або завдань візуального розпізнавання.
Розваги:
Набір даних IMDB WIKI
IMDB – Wiki – це одна з найпопулярніших загальнодоступних баз даних облич, позначених відповідно віком, статтю та іменами. У ній також близько 20 тисяч облич знаменитостей і 62 тисячі з Вікіпедії.
Обличчя знаменитостей
Celeb Faces — це велика база даних із 200,000 XNUMX анотованих зображень знаменитостей. Зображення супроводжуються фоновим шумом і варіаціями поз, що робить їх цінними для тренувальних наборів тестів у завданнях комп’ютерного зору. Це дуже корисно для досягнення вищої точності розпізнавання обличчя, редагування, локалізації частин обличчя тощо.
Тепер у вас є величезний список наборів зображень із відкритим вихідним кодом, які підживлять вашу машину штучного інтелекту. Результат ваших моделей штучного інтелекту та машинного навчання залежить насамперед від якості наборів даних, на яких ви їх подаєте та навчаєте. Якщо ви хочете, щоб ваша модель штучного інтелекту створювала точні прогнози, їй потрібні якісні набори даних, агреговані, помічені тегами та ідеально позначені. Щоб підвищити успіх вашої системи комп’ютерного бачення, ви повинні використовувати якісні бази даних зображень, які відповідають вашому баченню проекту. Якщо ви шукаєте більше таких наборів даних Натисніть тут