Відкрийте набори даних
Відкрийте для себе набори даних з відкритим вихідним кодом, які допоможуть вам навчати моделі ML
Набори даних з відкритим вихідним кодом, щоб почати роботу з моделями AI/ML
Результати ваших моделей штучного інтелекту та машинного навчання настільки ж якісні, як і дані, які ви використовуєте для їх навчання, тому точність, яку ви застосовуєте до агрегації даних, а також тегування й ідентифікація цих даних є важливою!
Отже, якщо ви хочете розпочати нову ініціативу AI/ML, і тепер ви швидко розумієте, що пошук високоякісних навчальних даних буде одним із найскладніших аспектів вашого проекту, оскільки високоякісні набори даних є паливом, який підтримує AI/ Двигун ML працює. Ми зібрали список відкритих наборів даних, які можна безкоштовно використовувати та навчати ваших моделей AI/ML майбутнього.
| Спеціалізація | Тип даних | Назва набору даних | Промисловість / Каф. | Анотація/Приклад використання | посилання |
|---|---|---|---|---|---|
| +НЛП | текст | Відгуки Амазонки | Електронна торгівля | Аналіз почуттів | посилання |
| Опис | Набір із 35 мільйонів оглядів і рейтингів за останні 18 років у вигляді простого тексту з відомостями про користувача та продукт. | ||||
| +НЛП | текст | Дані про посилання Вікіпедії | Загальне | посилання | |
| Опис | Більше 4 мільйонів статей, що містять 1.9 мільярда слів з Вікіпедії. Кожна стаття містить гіперпосилання на пов'язаний об'єкт. | ||||
| +НЛП | текст | Standford Sentiment Treebank | Розваги | Аналіз почуттів | посилання |
| Опис | Набір даних анотацій тональності для понад 10 000 речень з оглядами фільмів Rotten Tomatoes. Доступно на рівні фрази — кожне речення розбивається на підфрази шляхом бінаризації дерев розбору у форматі Penn Treebank. | ||||
| +НЛП | текст | Twitter Настрої авіакомпанії США | авіакомпанія | Аналіз почуттів | посилання |
| Опис | Твіти про US Airlines у 2015 році поділялися на позитивні, нейтральні та негативні. | ||||
| +CV | зображення | Imagenet | Загальне | посилання | |
| Опис | Набір даних із понад 14 мільйонами зображень у різних форматах файлів, зіставлених приблизно з 21 000 синсетами. Синсети – це синоніми з пов'язаними сутностями, представленими у вигляді зображення. 1 мільйон зображень має обмежувальні рамки, а більше 1 мільйона зображень мають функції SIFT. | ||||
| +CV | зображення | Відкриті зображення Google | Загальне | посилання | |
| Опис | Набір даних, подібний до ImageNet, з 600 категоріями. Доступний у версіях для розробки, перевірки та навчання. Деякі зображення також містять обмежувальні рамки та візуальні зв'язки. | ||||
| +НЛП | текст | Діалоги з фільмів Корнелла | Розваги | Діалоги | посилання |
| Опис | Збірка вигаданих розмов із метаданими персонажів та фільмів. Кожен рядок – це діалог між двома людьми у форматі запитання-відповіді. | ||||
| Опис | Набір даних у форматі «питання-відповідь» із запитаннями та відповідями з порталу Yahoo Answers за період з квітня 2007 року по жовтень 2007 року. | ||||
| +НЛП | текст | МС МАРКО | Загальне | Відповідь на запитання | посилання |
| Опис | Набір даних у форматі «питання-відповідь» з анотаціями з журналів веб-пошуку Bing. Кожне запитання містить відповідь, надану користувачем, а також веб-уривки, що містять цю відповідь. | ||||
| +НЛП | текст | Набір даних про природні питання | Загальне | Відповідь на запитання | посилання |
| Опис | Опублікований Google, цей набір даних містить реальні запити користувачів та відповіді зі статей Вікіпедії. | ||||
| +НЛП | текст | DBPedia | Загальне | Графік знань | посилання |
| Опис | Структуроване відображення Вікіпедії з сутностями та зв'язками, витягнутими у вигляді Графа знань. | ||||
| +НЛП | текст | ЯГО | Загальне | Графік знань | посилання |
| Опис | Граф знань, що містить сутності та зв'язки з Вікіпедії, WordNet та GeoNames. | ||||
| +НЛП | текст | Вільна база | Загальне | Графік знань | посилання |
| Опис | База знань, що складається з сутностей та зв'язків, зібрана за допомогою краудсорсингу, тепер інтегрована в граф знань Google. | ||||
| +НЛП | текст | Онтоноти | Загальне | Семантичне маркування ролей | посилання |
| Опис | Корпус із синтаксичними, семантичними та дискурс-рівневими анотаціями, що використовуються у спільних завданнях CoNLL. | ||||
| Опис | Англійський набір даних з анотаціями для іменованих сутностей, таких як особа, організація та місцезнаходження. | ||||
| +CV | зображення | Коко | Загальне | Виявлення об'єктів | посилання |
| Опис | Загальні об'єкти в контексті: багато анотований набір даних для виявлення об'єктів, сегментації та субтитрів. | ||||
| +CV | зображення | PASCAL VOC | Загальне | Виявлення об'єктів | посилання |
| Опис | Еталонний набір даних для вирішення проблем виявлення та сегментації об'єктів. | ||||
| +CV | зображення | Міські пейзажі | Автономне водіння | Семантична сегментація | посилання |
| Опис | Набір даних для розуміння міських пейзажів з анотаціями на рівні пікселів для 30 класів. | ||||
| +CV | зображення | МНІСТ | Загальне | Класифікація цифр | посилання |
| Опис | Набір даних рукописних цифр з 60 000 навчальних та 10 000 тестових зображень розміром 28x28 пікселів. | ||||
| +CV | зображення | Мода-МНІСТ | Роздрібна торгівля | Класифікація зображень | посилання |
| Опис | Набір зображень статей Zalando у тому ж форматі, що й MNIST, що використовується як додаткова заміна для бенчмаркінгу. | ||||
| +НЛП | аудіо | LibriSpeech | Загальне | ASR | посилання |
| Опис | Корпус прочитаного англійського мовлення, отриманого з аудіокниг, що містить 1000 годин мовлення та пов'язаних з ним текстів. | ||||
| +НЛП | аудіо | ТЕД-ЛІУМ | Загальне | ASR | посилання |
| Опис | Транскрибовані виступи TED з аудіо та вирівняними транскрипціями для досліджень розпізнавання мовлення. | ||||
| +НЛП | аудіо | ТІМІТ | Загальне | Розпізнавання фонем | посилання |
| Опис | Фонетично транскрибована мова носіїв американської англійської мови, широко використовується для завдань розпізнавання фонем. | ||||
| +НЛП | аудіо | Загальний голос | Загальне | ASR | посилання |
| Опис | Багатомовний корпус прочитаного мовлення, наданий волонтерами з усього світу. | ||||
| +НЛП | аудіо | VoxCeleb | Загальне | Розпізнавання спікера | посилання |
| Опис | Масштабний набір даних для ідентифікації мовців, зібраний з відео на YouTube. | ||||
| +НЛП | текст | Дамп Вікіпедії | Загальне | Моделювання мови | посилання |
| Опис | Повнотекстові дампи статей Вікіпедії, що регулярно оновлюються, використовуються для попереднього навчання мовних моделей. | ||||
| +НЛП | текст | Гігаворд | Новини | Моделювання мови | посилання |
| Опис | Повний архів текстових даних новинних стрічок від кількох новинних агентств. | ||||
| +НЛП | текст | Огляди IMDB | Розваги | Аналіз почуттів | посилання |
| Опис | Великий набір даних рецензій на фільми для двійкової класифікації настроїв. | ||||
| +CV | Відео | Кінетика-700 | Загальне | Розпізнавання дій | посилання |
| Опис | Масштабний високоякісний набір даних відеокліпів YouTube, що охоплює 700 класів людських дій. | ||||
| +CV | Відео | UCF101 | Загальне | Розпізнавання дій | посилання |
| Опис | Набір даних реалістичних екшн-відео зі 101 категорією дій. | ||||
| +CV | Відео | HMDB51 | Загальне | Розпізнавання дій | посилання |
| Опис | Велика база даних відео людських рухів з 51 категорією дій. | ||||
| Опис | База даних фотографій облич, призначена для вивчення безперешкодного розпізнавання облич. | ||||
| +CV | зображення | CASIA-WebFace | Загальне | Розпізнавання осіб | посилання |
| Опис | Набір даних з мільйонами зображень облич для навчання моделей глибокого розпізнавання облич. | ||||
| +НЛП | текст | ЗАГІД | Загальне | Розуміння прочитаного | посилання |
| Опис | Набір даних для відповідей на запитання Стенфордського університету: питання, поставлені краудворкерами на основі набору статей Вікіпедії. | ||||
| Опис | Набір даних машинного розуміння із запитаннями та відповідями на основі новинних статей CNN. | ||||
| +НЛП | текст | MultiNLI | Загальне | Висновок природною мовою | посилання |
| Опис | Набір даних для логічного висновку на основі пар речень природної мови в різних жанрах. | ||||
| +НЛП | текст | SNLI | Загальне | Висновок природною мовою | посилання |
| Опис | Стенфордський корпус логічного висновку з природної мови з парами речень, позначеними як наслідки, суперечності або нейтральні. | ||||
| Опис | Колекція з понад 100 мільйонів токенів, витягнутих з набору перевірених статей у розділах «Хороші» та «Вибрані» у Вікіпедії. | ||||
| Опис | Набір даних із 16 185 зображень 196 класів автомобілів. | ||||
| +CV | зображення | Оксфордські квіти 102 | ботаніка | Дрібнозерниста класифікація | посилання |
| Опис | 102 категорії квітів, що зазвичай зустрічаються у Великій Британії. | ||||
| +CV | зображення | ЦИФАР-10 | Загальне | Класифікація зображень | посилання |
| Опис | Зображення 10 класів: літак, автомобіль, птах, кіт, олень, собака, жаба, кінь, корабель та вантажівка. | ||||
| +CV | зображення | ЦИФАР-100 | Загальне | Класифікація зображень | посилання |
| Опис | Набір даних, подібний до CIFAR-10, але зі 100 дрібнозернистими класами. | ||||
| +CV | зображення | Макет особи VOC | Загальне | Оцінка пози | посилання |
| Опис | Частина PASCAL VOC, що зосереджена на анотаціях розташування осіб, таких як голова, руки та ноги. | ||||
| +CV | зображення | Поза людини MPII | Загальне | Оцінка пози | посилання |
| Опис | Близько 25 000 зображень, що містять понад 40 000 людей з анотованими суглобами тіла. | ||||
| Опис | Збірка статей новинного агентства Reuters для дослідження категоризації тексту. | ||||
| +НЛП | текст | 20 груп новин | Загальне | Класифікація тексту | посилання |
| Опис | Колекція з 20 000 документів новинних груп, розділених на 20 різних новинних груп. | ||||