Відкрийте набори даних
Відкрийте для себе набори даних з відкритим вихідним кодом, які допоможуть вам навчати моделі ML
Набори даних з відкритим вихідним кодом, щоб почати роботу з моделями AI/ML
Результати ваших моделей штучного інтелекту та машинного навчання настільки ж якісні, як і дані, які ви використовуєте для їх навчання, тому точність, яку ви застосовуєте до агрегації даних, а також тегування й ідентифікація цих даних є важливою!
Отже, якщо ви хочете розпочати нову ініціативу AI/ML, і тепер ви швидко розумієте, що пошук високоякісних навчальних даних буде одним із найскладніших аспектів вашого проекту, оскільки високоякісні набори даних є паливом, який підтримує AI/ Двигун ML працює. Ми зібрали список відкритих наборів даних, які можна безкоштовно використовувати та навчати ваших моделей AI/ML майбутнього.
Спеціалізація | Тип даних | Назва набору даних | Промисловість / Каф. | Анотація/Приклад використання | Опис | посилання |
---|---|---|---|---|---|---|
НЛП | текст | Відгуки Амазонки | Електронна торгівля | Аналіз почуттів | Набір із 35 мільйонів оглядів і рейтингів за останні 18 років у вигляді простого тексту з відомостями про користувача та продукт. | посилання |
НЛП | текст | Дані про посилання Вікіпедії | Загальне | Більше 4 млн. статей, що містять 1.9 млрд. слово, яке складається зі слів і фраз, а також абзаців. | посилання | |
НЛП | текст | Standford Sentiment Treebank | Розваги | Аналіз почуттів | Набір даних анотацій настроїв для понад 10,000 XNUMX відгуків від Rotten Tomatoes у форматі файлу HTML | посилання |
НЛП | текст | Twitter Настрої авіакомпанії США | авіакомпанія | Аналіз почуттів | Твіти 2015 року про авіакомпанію US Airlines розділилися на позитивні, негативні та нейтральні тони | посилання |
CV | зображення | Марковані обличчя в дикій природі | Загальне | Розпізнавання обличчя | Набір даних містить понад 13,000 XNUMX обрізаних облич із двома різними зображеннями для навчання розпізнавання облич. | посилання |
CV | Відео, зображення | Набір даних UMDFaces | Загальне | Розпізнавання обличчя | Анотований набір даних, що містить понад 367,000 8,000 облич із понад XNUMX XNUMX об’єктів, що включає фотографії та відеозображення. | посилання |
CV | зображення | Imagenet | Загальне | Набір даних із понад 14 млн. зображення в різних форматах файлів, організованих відповідно до ієрархії WordNet. | посилання | |
CV | зображення | Відкриті зображення Google | Загальне | 9 Мн. URL-адреси для класифікації загальнодоступних зображень із понад 6,000 категорій. | посилання | |
НЛП | текст | База даних реанімації MIMIC | Охорона здоров'я | Набори даних комп’ютерної фізіології з деідентифікованими даними від 40,000 XNUMX пацієнтів реанімації. Набір даних містить таку інформацію, як демографічні дані, життєві показники, ліки тощо. | посилання | |
CV | зображення | Національне бюро подорожей і туризму США | туризм | Надає широкі фотографії туристичної індустрії з надійними базами даних, які охоплюють такі теми, як в’їзні та виїзні подорожі та інформація про міжнародні туристи. | посилання | |
НЛП | текст | Відділ транспорту | туризм | Набори туристичних даних, які включають національні парки, реєстри водіїв, інформацію про мости та залізниці тощо. | посилання | |
НЛП | аудіо | Корпус аудіо субтитрів Flickr | Загальне | Понад 40 тисяч голосових підписів із 8,000 фотографій, розроблених для неконтрольованих мовленнєвих моделей | посилання | |
НЛП | аудіо | Набір даних мовних команд | Загальне | Розпізнавання мовлення, аудіоанотація | Вислови тривалістю 1 секунда від тисяч людей, щоб створити основний голосовий інтерфейс. | посилання |
НЛП | аудіо | Набори екологічних аудіоданих | Загальне | Набори звукових даних середовища, що містять таблиці звуку подій і таблиці акустичних сцен. | посилання | |
НЛП | текст | Набір даних відкритих досліджень COVID-19 | Охорона здоров'я | Медичний ШІ | Набір даних досліджень, що складається з 45,000 19 наукових статей про COVID-XNUMX і сімейство вірусів коронавірусу. | посилання |
CV | зображення | Відкритий набір даних Waymo | автомобільний | Найрізноманітніші набори даних автономного водіння, випущені Waymo | посилання | |
CV | зображення | Labelme | Громадська влада | Великий набір анотованих зображень, доступних через Labelme Matlab | посилання | |
CV | зображення | Набір даних Stanford Dogs | Загальне | Понад 20,500 120 зображень, розділених на набір зображень XNUMX різних порід собак | посилання | |
CV | зображення | Розпізнавання сцени в приміщенні | Загальне | Розпізнавання сцени | Спеціальний набір даних, що складається з 15620 зображень із 67 категорій приміщень для створення моделей розпізнавання сцени | посилання |
CV | зображення | VisualQA | Загальне | Набір даних, який містить відкриті запитання щодо 265,016 XNUMX фотографій, на які для відповіді потрібно розуміти зір і мову. | посилання | |
НЛП | текст | Набір даних аналізу багатодоменних настроїв | Електронна торгівля | Аналіз почуттів | Набір даних, що містить огляди продуктів від Amazon | посилання |
НЛП | текст | Огляди IMDB | Розваги | Аналіз почуттів | Набір даних містить 25000 XNUMX оглядів фільмів для аналізу настроїв | посилання |
НЛП | текст | Корпус блогера | Загальне | Аналіз Keyprase | Набір даних, що містить 681,288 200 дописів у блозі від blogger.com, що містить мінімум XNUMX поширених англійських слів. | посилання |
НЛП | текст | Небезпека | Загальне | Навчання чат-бота | Набір даних із понад 200,000 XNUMX запитань, які можна використовувати для навчання моделей машинного навчання розумно автоматично відповідати | посилання |
НЛП | текст | Збір SMS-спаму англійською мовою | Telecom | Розпізнавання спаму | Набір даних про спам, що складається з 5,574 SMS-повідомлень англійською мовою | посилання |
НЛП | текст | Yelp Огляди | Загальне | Аналіз почуттів | Набір даних із понад 5 мільйонами оглядів, опублікований Yelp | посилання |
НЛП | текст | Спам-база UCI | підприємство | Розпізнавання спаму | Великий набір спам-листів, корисний для фільтрації спаму. | посилання |
CV | Відео, зображення | Berkeley DeepDrive BDD100k | автомобільний | Автономні транспортні засоби | Один з найбільших наборів даних для штучного інтелекту для самостійного водіння, що містить 1,100 годин водіння в понад 100,000 XNUMX відео з Нью-Йорка та Сан-Франциско в різний час доби. | посилання |
CV | Відео | Comma.ai | автомобільний | Автономні транспортні засоби | Набір даних про 7-годинну їзду по шосе, що містить інформацію про швидкість, прискорення, кут повороту та GPS-координати автомобіля | посилання |
CV | Відео, зображення | Набір даних міського пейзажу | автомобільний | Семантична етикетка для автономного транспортного засобу | Набір даних із 5,000 анотацій на рівні пікселів плюс більший набір із 20,000 50 слабо анотованих кадрів у стереопоследовательності відео, записаних з XNUMX різних міст | посилання |
CV | зображення | Набір даних про дорожні знаки KUL Belgium | автомобільний | Автономні транспортні засоби | Понад 10000 XNUMX анотацій дорожніх знаків з регіону Фландрії на основі фізично відмінних дорожніх знаків з усієї Бельгії. | посилання |
CV | зображення | LISA: Лабораторія інтелектуальних і безпечних автомобілів, UC San Diego Datasets | автомобільний | Автономні транспортні засоби | Багатий набір даних, що містить дорожні знаки, виявлення транспортних засобів, світлофори та шаблони траєкторій. | посилання |
CV | зображення | ЦИФАР-10 | Загальне | Розпізнавання об'єктів | Набір даних, що складається з 50,000 10,000 зображень і 60,000 32 тестових зображень (тобто 32 10 кольорових зображень XNUMX×XNUMX в XNUMX класах) для розпізнавання об’єктів. | посилання |
CV | зображення | Мода МНІСТ | мода | Набір даних зображень, що складається з 60,000 10,000 прикладів і тестового набору з 28 28 прикладів у зображеннях у відтінках сірого 10×XNUMX, пов’язаних з міткою з XNUMX класів. | посилання | |
CV | зображення | Набір даних IMDB-Wiki | Розваги | Розпізнавання обличчя | Великий набір даних зображень обличчя з такими мітками, як стать та вік. Із загальної кількості 523,051 460,723 зображення облич 20,284 62,328 зображення отримано від XNUMX XNUMX знаменитостей з IMDB і XNUMX XNUMX з Вікіпедії. | посилання |
CV | Відео | Кінетика-700 | Загальне | Для кожного класу дій високоякісний набір даних складається з 650,000 700 відеокліпів і охоплює 600 класів дій людини з принаймні 10 відеокліпами. Тут кожен кліп триває приблизно XNUMX секунд. | посилання | |
CV | зображення | М. С. Коко | Загальне | Виявлення об'єктів, сегментація | Набір даних містить 328 тис. зображень і містить 2.5 млн екземплярів і 91 зображення об’єктів для навчання моделей ML для виявлення великомасштабних об’єктів, сегментації та підписів даних. | посилання |
CV | зображення | Набір даних про позу людини MPII | Загальне | Близько 25 40 фотографій, що містять понад 410 XNUMX людей з анотованими суглобами тіла, включені в набір даних, який використовується для артикуляції оцінки пози людини. Загалом набір даних охоплює XNUMX видів діяльності людини, і кожне зображення має позначку діяльності. | посилання | |
CV | зображення | Відкрийте зображення | Загальне | Анотації про розташування об’єктів | Набір даних зображень із близько 9 мільйонів зображень, анотованих мітками на рівні зображення, обмежуючими рамками об’єктів, сегментацією об’єктів тощо. Набір даних також складається з 16 мільйонів. обмежувальні рамки для 600 класів об’єктів на 1.9 млн зображень. | посилання |
CV | Відео, зображення | Арго, Арго, США | автомобільний | Обмежувальна рамка, оптичний потік, поведінкова мітка, семантична мітка, розмітка смуги | Набір даних для самостійного водіння, який складається з карт високої чіткості з геометричними та семантичними метаданими, тобто осьовими лініями смуги руху, напрямком смуги та зоною руху. Набір даних використовується для навчання моделей ML, для створення більш точних алгоритмів сприйняття, які допоможуть безпілотним транспортним засобам безпечно пересуватися. | посилання |
CV | Відео | Маленькі світлофори Bosch, дослідження Bosch North America | автомобільний | Обмежувальний ящик | Набір даних, що складається з 13427 зображень камери з роздільною здатністю 1280*720, для створення системи виявлення світлофора на основі зору. Набір даних містить понад 24000 анотованих світлофорів. | посилання |
CV | Відео | Brain4Cars, Корнельський університет, США | автомобільний | Поведінковий ярлик | Набір даних, що складається з набору датчиків салону (камери, тактильні датчики, розумні пристрої тощо), щоб отримати корисну статистику про пильність водія. Наші алгоритми можуть виявляти водіїв, які сонливі або розсіяні, і посилювати необхідні сигнали для покращення захисту. | посилання |
CV | зображення | CULane, китайський ун-т. Гонконгу, Пекіна, Китай | автомобільний | Розмітка смуги | Набір даних Computer Vision щодо визначення смуги руху, що складається з 55 годин відео, з яких було вилучено 133,235 88880 (9675 навчальний набір, 34680 набір для перевірки та XNUMX тестових) кадрів. Його збирають камери, встановлені на шести різних автомобілях, якими керують різні водії в Пекіні. | посилання |
CV | Відео | ДЕВІС, ун-т. Цюріх, ETH ¨ Цюріх, Німеччина, Швейцарія | автомобільний | Набір даних для навчання водінню автомобіля від кінця до кінця, який використовує камеру DAVIS event+frame. Дані автомобіля, такі як рульове керування, дросель, GPS тощо, використовуються для оцінки поєднання кадрів і даних про події для автомобільних програм. | посилання | |
CV | Відео | DBNet, Шанхайський університет Цзяо Туна, Сяменьський університет, Китай | автомобільний | Хмара точок, Лідар | Реальні дані про водіння 1000 км, які включають узгоджене відео, хмару точок, GPS і поведінку водія для поглибленого дослідження поведінки водія. | посилання |
CV | Відео | Dr(eye)ve, ун-т. Модени і Реджо-Емілія, Модена, Італія | автомобільний | Поведінковий ярлик | Набір даних містить 74 відеопослідовності по 5 хвилин кожна, які були анотовані в понад 500,000 XNUMX кадрів. Набір даних складається з географічних місць розташування, швидкості руху, курсу, а також міток фіксації погляду водія та їх тимчасової інтеграції, що забезпечує карти для конкретних завдань. | посилання |
CV | Відео | ETH Pedestrian (2009), ETH Zurich, Цюріх, Швейцарія | Загальне | Обмежувальний ящик | Набір даних із 74 відеопослідовностей по 5 хвилин кожна, анотованих у понад 500,000 XNUMX кадрів. Набір даних надає географічні прив’язки, швидкість руху, напрямок руху, а також фіксує погляди водіїв та їх тимчасову інтеграцію, включаючи карти для певних завдань. | посилання |
CV | Відео | Форда (2009), унів. Мічиган, Мічиган, США | автомобільний | Обмежувальна коробка, , LiDAR | Набір даних, зібраний автоматизованим наземним транспортним засобом, озброєним 3D-лідарним сканером Velodyne, двома передними лідарами Rieg, технічним і споживчим інерційним вимірювальним блоком (IMU) і всенаправленою системою камер Point Grey Ladybug3. | посилання |
CV | Відео | HCI Challenging Stereo, дослідження Bosch Corporation, Хільдесхайм, Німеччина | Загальне | Набір даних із кількох мільйонів кадрів із знятих відео сцен, які включають широкий діапазон різноманітних погодних умов, кілька шарів руху та глибини; ситуації в місті та селі тощо. | посилання | |
CV | Відео | JAAD, Йоркський університет, Україна, Канада | автомобільний | Обмежувальна рамка, поведінкова мітка | "JAAD - це набір даних для вивчення спільної уваги в контексті автономного водіння. Основна увага зосереджена на поведінці пішоходів і водіїв у точці перетину та факторах, які на них впливають. З цією метою набір даних JAAD надає багато анотовану колекцію з 346 коротких відео. кліпи (довжиною 5–10 секунд), отримані з більш ніж 240-годинного відеоматеріалу з кількох місць у Північній Америці та Східній Європі. Обмежувальні рамки з тегами оклюзії використовуються для всіх пішоходів, що робить цей набір даних придатним для виявлення пішоходів. Анотації щодо поведінки визначають поведінку пішоходів які взаємодіють з водієм або вимагають уваги. Для кожного відео є кілька тегів (погода, розташування тощо) і мітки поведінки з мітками часу (наприклад, зупинився, йшов, дивився тощо). Крім того, список демографічних атрибутів надається для кожного пішохода (наприклад, вік, стать, напрямок руху тощо), а також список видимих елементів сцени дорожнього руху (наприклад, знак зупинки, сигнал світлофора тощо) у кожному кадрі». | посилання |
CV | зображення | Дорожній знак LISA, ун-т. Каліфорнії, Сан-Дієго, США | автомобільний | Обмежувальний ящик | Набір даних, що містить відео та анотовані кадри, що містять дорожні знаки США. Він випускається в два етапи, один із лише зображеннями, а другий — із зображеннями та відео. | посилання |
CV | зображення | Mapillary Vistas, Mapillary AB, Global | автомобільний | Семантична мітка | Набір даних про фотографію на рівні вулиці для інтерпретації вуличних сцен по всьому світу з точними в пікселях і конкретними людськими анотаціями. | посилання |
CV | Відео, зображення | Semantic KITTI, Університет Бонна, Карлсруе, Німеччина | автомобільний | Обмежувальна рамка, семантична мітка, розмітка смуги | Набір даних, який містить семантичну анотацію для всіх послідовностей тесту одометрії. Набір даних анотує різні типи рухомого та нерухомого транспорту: у тому числі автомобілі, велосипеди, велосипеди, пішоходів і велосипедистів, що дозволяє вивчати об’єкти на сцені. | посилання |
CV | Відео | Stanford Track, Стенфордський університет, США | автомобільний | Виявлення об'єктів / Класифікація LiDAR, GPS, коди | Набір даних, що включає 14,000 64 мічених треків об’єктів, які спостерігаються за допомогою Velodyne HDL-2E S3 LIDAR у природних вуличних сценах, які можна використовувати для навчання моделей машинного навчання для XNUMXD-розпізнавання об’єктів. | посилання |
CV | Відео, зображення | Набір даних Boxy, Bosch, Сполучені Штати | автомобільний | Обмежувальна рамка / Виявлення транспортних засобів | Набір даних виявлення транспортних засобів, що містить 2 мільйони анотованих транспортних засобів для навчання та аналізу стратегій розпізнавання об’єктів для самокерованих автомобілів на автомагістралях. | посилання |
CV | Відео | Автомагістраль TME, Чеський технічний університет, Північна Італія | автомобільний | Обмежувальний ящик | Набір даних із 28 кліпів загалом тривалістю 27 хвилин розділений на понад 30,000 XNUMX кадрів анотацій транспортних засобів. Анотація виготовлялася напівавтоматично з використанням даних лазерного сканера. Цей збір даних включає різні сценарії руху, кількість смуг, кривизну дороги та освітлення, що охоплює більшу частину умов повного одержання. | посилання |
CV | Відео | Лами без нагляду, Bosch, Сполучені Штати | автомобільний | Розмітка смуги, LiDAR | Набір даних Unsupervised Llamas був анотований шляхом створення автоматичних карт водіння високої чіткості, включаючи маркери смуги руху на основі Lidar. Автономний автомобіль можна вирівняти за цими картами, а розмітка смуги спроектувати на рамку камери. 3D-проекція оптимізована за рахунок мінімізації розбіжностей між уже спостережуваними і прогнозованими маркерами зображення. | посилання |
НЛП | аудіо | Facebook AI Багатомовний LibriSpeech (MLS) | Загальне | Аудіо анотація / Розпізнавання мовлення | Facebook AI Multilingual LibriSpeech (MLS) — це великомасштабний набір даних з відкритим вихідним кодом, призначений для просування досліджень у сфері автоматичного розпізнавання мовлення (ASR). MLS забезпечує понад 50,000 8 годин аудіо XNUMX мовами: англійською, німецькою, нідерландською, французькою, іспанською, італійською, португальською та польською. | посилання |