Відкрийте набори даних

Відкрийте для себе набори даних з відкритим вихідним кодом, які допоможуть вам навчати моделі ML

Відкриті набори даних

Набори даних з відкритим вихідним кодом, щоб почати роботу з моделями AI/ML

Результати ваших моделей штучного інтелекту та машинного навчання настільки ж якісні, як і дані, які ви використовуєте для їх навчання, тому точність, яку ви застосовуєте до агрегації даних, а також тегування й ідентифікація цих даних є важливою!

Отже, якщо ви хочете розпочати нову ініціативу AI/ML, і тепер ви швидко розумієте, що пошук високоякісних навчальних даних буде одним із найскладніших аспектів вашого проекту, оскільки високоякісні набори даних є паливом, який підтримує AI/ Двигун ML працює. Ми зібрали список відкритих наборів даних, які можна безкоштовно використовувати та навчати ваших моделей AI/ML майбутнього.

СпеціалізаціяТип данихНазва набору данихПромисловість / Каф.Анотація/Приклад використанняОписпосилання
НЛПтекстВідгуки АмазонкиЕлектронна торгівляАналіз почуттівНабір із 35 мільйонів оглядів і рейтингів за останні 18 років у вигляді простого тексту з відомостями про користувача та продукт.посилання
НЛПтекстДані про посилання ВікіпедіїЗагальнеБільше 4 млн. статей, що містять 1.9 млрд. слово, яке складається зі слів і фраз, а також абзаців.посилання
НЛПтекстStandford Sentiment TreebankРозвагиАналіз почуттівНабір даних анотацій настроїв для понад 10,000 XNUMX відгуків від Rotten Tomatoes у форматі файлу HTMLпосилання
НЛПтекстTwitter Настрої авіакомпанії СШАавіакомпаніяАналіз почуттівТвіти 2015 року про авіакомпанію US Airlines розділилися на позитивні, негативні та нейтральні тонипосилання
CVзображення Марковані обличчя в дикій природіЗагальнеРозпізнавання обличчяНабір даних містить понад 13,000 XNUMX обрізаних облич із двома різними зображеннями для навчання розпізнавання облич.посилання
CVВідео, зображенняНабір даних UMDFacesЗагальнеРозпізнавання обличчяАнотований набір даних, що містить понад 367,000 8,000 облич із понад XNUMX XNUMX об’єктів, що включає фотографії та відеозображення.посилання
CVзображення ImagenetЗагальнеНабір даних із понад 14 млн. зображення в різних форматах файлів, організованих відповідно до ієрархії WordNet.посилання
CVзображення Відкриті зображення GoogleЗагальне9 Мн. URL-адреси для класифікації загальнодоступних зображень із понад 6,000 категорій.посилання
НЛПтекстБаза даних реанімації MIMICОхорона здоров'яНабори даних комп’ютерної фізіології з деідентифікованими даними від 40,000 XNUMX пацієнтів реанімації. Набір даних містить таку інформацію, як демографічні дані, життєві показники, ліки тощо.посилання
CVзображенняНаціональне бюро подорожей і туризму СШАтуризмНадає широкі фотографії туристичної індустрії з надійними базами даних, які охоплюють такі теми, як в’їзні та виїзні подорожі та інформація про міжнародні туристи.посилання
НЛПтекстВідділ транспортутуризмНабори туристичних даних, які включають національні парки, реєстри водіїв, інформацію про мости та залізниці тощо.посилання
НЛПаудіоКорпус аудіо субтитрів FlickrЗагальнеПонад 40 тисяч голосових підписів із 8,000 фотографій, розроблених для неконтрольованих мовленнєвих моделейпосилання
НЛПаудіоНабір даних мовних командЗагальнеРозпізнавання мовлення, аудіоанотаціяВислови тривалістю 1 секунда від тисяч людей, щоб створити основний голосовий інтерфейс.посилання
НЛПаудіоНабори екологічних аудіоданихЗагальнеНабори звукових даних середовища, що містять таблиці звуку подій і таблиці акустичних сцен.посилання
НЛПтекстНабір даних відкритих досліджень COVID-19 Охорона здоров'яМедичний ШІНабір даних досліджень, що складається з 45,000 19 наукових статей про COVID-XNUMX і сімейство вірусів коронавірусу.посилання
CVзображенняВідкритий набір даних Waymo автомобільнийНайрізноманітніші набори даних автономного водіння, випущені Waymoпосилання
CVзображенняLabelme Громадська владаВеликий набір анотованих зображень, доступних через Labelme Matlabпосилання
CVзображенняНабір даних Stanford DogsЗагальнеПонад 20,500 120 зображень, розділених на набір зображень XNUMX різних порід собакпосилання
CVзображенняРозпізнавання сцени в приміщенніЗагальнеРозпізнавання сцениСпеціальний набір даних, що складається з 15620 зображень із 67 категорій приміщень для створення моделей розпізнавання сценипосилання
CVзображенняVisualQAЗагальнеНабір даних, який містить відкриті запитання щодо 265,016 XNUMX фотографій, на які для відповіді потрібно розуміти зір і мову.посилання
НЛПтекстНабір даних аналізу багатодоменних настроївЕлектронна торгівляАналіз почуттівНабір даних, що містить огляди продуктів від Amazonпосилання
НЛПтекстОгляди IMDBРозвагиАналіз почуттівНабір даних містить 25000 XNUMX оглядів фільмів для аналізу настроївпосилання
НЛПтекстКорпус блогераЗагальнеАналіз KeypraseНабір даних, що містить 681,288 200 дописів у блозі від blogger.com, що містить мінімум XNUMX поширених англійських слів.посилання
НЛПтекстНебезпекаЗагальнеНавчання чат-ботаНабір даних із понад 200,000 XNUMX запитань, які можна використовувати для навчання моделей машинного навчання розумно автоматично відповідатипосилання
НЛПтекстЗбір SMS-спаму англійською мовоюTelecomРозпізнавання спамуНабір даних про спам, що складається з 5,574 SMS-повідомлень англійською мовоюпосилання
НЛПтекстYelp ОглядиЗагальнеАналіз почуттівНабір даних із понад 5 мільйонами оглядів, опублікований Yelpпосилання
НЛПтекстСпам-база UCIпідприємствоРозпізнавання спамуВеликий набір спам-листів, корисний для фільтрації спаму.посилання
CVВідео, зображенняBerkeley DeepDrive BDD100kавтомобільнийАвтономні транспортні засобиОдин з найбільших наборів даних для штучного інтелекту для самостійного водіння, що містить 1,100 годин водіння в понад 100,000 XNUMX відео з Нью-Йорка та Сан-Франциско в різний час доби.посилання
CVВідеоComma.aiавтомобільнийАвтономні транспортні засоби Набір даних про 7-годинну їзду по шосе, що містить інформацію про швидкість, прискорення, кут повороту та GPS-координати автомобіляпосилання
CVВідео, зображенняНабір даних міського пейзажуавтомобільнийСемантична етикетка для автономного транспортного засобуНабір даних із 5,000 анотацій на рівні пікселів плюс більший набір із 20,000 50 слабо анотованих кадрів у стереопоследовательності відео, записаних з XNUMX різних містпосилання
CVзображенняНабір даних про дорожні знаки KUL BelgiumавтомобільнийАвтономні транспортні засобиПонад 10000 XNUMX анотацій дорожніх знаків з регіону Фландрії на основі фізично відмінних дорожніх знаків з усієї Бельгії.посилання
CVзображенняLISA: Лабораторія інтелектуальних і безпечних автомобілів, UC San Diego DatasetsавтомобільнийАвтономні транспортні засобиБагатий набір даних, що містить дорожні знаки, виявлення транспортних засобів, світлофори та шаблони траєкторій.посилання
CVзображенняЦИФАР-10ЗагальнеРозпізнавання об'єктівНабір даних, що складається з 50,000 10,000 зображень і 60,000 32 тестових зображень (тобто 32 10 кольорових зображень XNUMX×XNUMX в XNUMX класах) для розпізнавання об’єктів.посилання
CVзображенняМода МНІСТмодаНабір даних зображень, що складається з 60,000 10,000 прикладів і тестового набору з 28 28 прикладів у зображеннях у відтінках сірого 10×XNUMX, пов’язаних з міткою з XNUMX класів.посилання
CVзображенняНабір даних IMDB-WikiРозвагиРозпізнавання обличчяВеликий набір даних зображень обличчя з такими мітками, як стать та вік. Із загальної кількості 523,051 460,723 зображення облич 20,284 62,328 зображення отримано від XNUMX XNUMX знаменитостей з IMDB і XNUMX XNUMX з Вікіпедії.посилання
CVВідеоКінетика-700ЗагальнеДля кожного класу дій високоякісний набір даних складається з 650,000 700 відеокліпів і охоплює 600 класів дій людини з принаймні 10 відеокліпами. Тут кожен кліп триває приблизно XNUMX секунд.посилання
CVзображенняМ. С. КокоЗагальнеВиявлення об'єктів, сегментаціяНабір даних містить 328 тис. зображень і містить 2.5 млн екземплярів і 91 зображення об’єктів для навчання моделей ML для виявлення великомасштабних об’єктів, сегментації та підписів даних.посилання
CVзображенняНабір даних про позу людини MPIIЗагальнеБлизько 25 40 фотографій, що містять понад 410 XNUMX людей з анотованими суглобами тіла, включені в набір даних, який використовується для артикуляції оцінки пози людини. Загалом набір даних охоплює XNUMX видів діяльності людини, і кожне зображення має позначку діяльності.посилання
CVзображенняВідкрийте зображенняЗагальнеАнотації про розташування об’єктівНабір даних зображень із близько 9 мільйонів зображень, анотованих мітками на рівні зображення, обмежуючими рамками об’єктів, сегментацією об’єктів тощо. Набір даних також складається з 16 мільйонів. обмежувальні рамки для 600 класів об’єктів на 1.9 млн зображень.посилання
CVВідео, зображенняАрго, Арго, СШАавтомобільнийОбмежувальна рамка, оптичний потік, поведінкова мітка, семантична мітка, розмітка смугиНабір даних для самостійного водіння, який складається з карт високої чіткості з геометричними та семантичними метаданими, тобто осьовими лініями смуги руху, напрямком смуги та зоною руху. Набір даних використовується для навчання моделей ML, для створення більш точних алгоритмів сприйняття, які допоможуть безпілотним транспортним засобам безпечно пересуватися.посилання
CVВідеоМаленькі світлофори Bosch, дослідження Bosch North AmericaавтомобільнийОбмежувальний ящикНабір даних, що складається з 13427 зображень камери з роздільною здатністю 1280*720, для створення системи виявлення світлофора на основі зору. Набір даних містить понад 24000 анотованих світлофорів.посилання
CVВідеоBrain4Cars, Корнельський університет, СШАавтомобільнийПоведінковий ярликНабір даних, що складається з набору датчиків салону (камери, тактильні датчики, розумні пристрої тощо), щоб отримати корисну статистику про пильність водія. Наші алгоритми можуть виявляти водіїв, які сонливі або розсіяні, і посилювати необхідні сигнали для покращення захисту.посилання
CVзображенняCULane, китайський ун-т. Гонконгу, Пекіна, КитайавтомобільнийРозмітка смугиНабір даних Computer Vision щодо визначення смуги руху, що складається з 55 годин відео, з яких було вилучено 133,235 88880 (9675 навчальний набір, 34680 набір для перевірки та XNUMX тестових) кадрів. Його збирають камери, встановлені на шести різних автомобілях, якими керують різні водії в Пекіні.посилання
CVВідеоДЕВІС, ун-т. Цюріх, ETH ¨ Цюріх, Німеччина, ШвейцаріяавтомобільнийНабір даних для навчання водінню автомобіля від кінця до кінця, який використовує камеру DAVIS event+frame. Дані автомобіля, такі як рульове керування, дросель, GPS тощо, використовуються для оцінки поєднання кадрів і даних про події для автомобільних програм.посилання
CVВідеоDBNet, Шанхайський університет Цзяо Туна, Сяменьський університет, КитайавтомобільнийХмара точок, ЛідарРеальні дані про водіння 1000 км, які включають узгоджене відео, хмару точок, GPS і поведінку водія для поглибленого дослідження поведінки водія.посилання
CVВідеоDr(eye)ve, ун-т. Модени і Реджо-Емілія, Модена, ІталіяавтомобільнийПоведінковий ярликНабір даних містить 74 відеопослідовності по 5 хвилин кожна, які були анотовані в понад 500,000 XNUMX кадрів. Набір даних складається з географічних місць розташування, швидкості руху, курсу, а також міток фіксації погляду водія та їх тимчасової інтеграції, що забезпечує карти для конкретних завдань.посилання
CVВідеоETH Pedestrian (2009), ETH Zurich, Цюріх, ШвейцаріяЗагальнеОбмежувальний ящикНабір даних із 74 відеопослідовностей по 5 хвилин кожна, анотованих у понад 500,000 XNUMX кадрів. Набір даних надає географічні прив’язки, швидкість руху, напрямок руху, а також фіксує погляди водіїв та їх тимчасову інтеграцію, включаючи карти для певних завдань.посилання
CVВідеоФорда (2009), унів. Мічиган, Мічиган, СШАавтомобільнийОбмежувальна коробка, , LiDARНабір даних, зібраний автоматизованим наземним транспортним засобом, озброєним 3D-лідарним сканером Velodyne, двома передними лідарами Rieg, технічним і споживчим інерційним вимірювальним блоком (IMU) і всенаправленою системою камер Point Grey Ladybug3.посилання
CVВідеоHCI Challenging Stereo, дослідження Bosch Corporation, Хільдесхайм, НімеччинаЗагальнеНабір даних із кількох мільйонів кадрів із знятих відео сцен, які включають широкий діапазон різноманітних погодних умов, кілька шарів руху та глибини; ситуації в місті та селі тощо.посилання
CVВідеоJAAD, Йоркський університет, Україна, КанадаавтомобільнийОбмежувальна рамка, поведінкова мітка"JAAD - це набір даних для вивчення спільної уваги в контексті автономного водіння. Основна увага зосереджена на поведінці пішоходів і водіїв у точці перетину та факторах, які на них впливають. З цією метою набір даних JAAD надає багато анотовану колекцію з 346 коротких відео. кліпи (довжиною 5–10 секунд), отримані з більш ніж 240-годинного відеоматеріалу з кількох місць у Північній Америці та Східній Європі. Обмежувальні рамки з тегами оклюзії використовуються для всіх пішоходів, що робить цей набір даних придатним для виявлення пішоходів. Анотації щодо поведінки визначають поведінку пішоходів які взаємодіють з водієм або вимагають уваги. Для кожного відео є кілька тегів (погода, розташування тощо) і мітки поведінки з мітками часу (наприклад, зупинився, йшов, дивився тощо). Крім того, список демографічних атрибутів надається для кожного пішохода (наприклад, вік, стать, напрямок руху тощо), а також список видимих ​​елементів сцени дорожнього руху (наприклад, знак зупинки, сигнал світлофора тощо) у кожному кадрі».посилання
CVзображенняДорожній знак LISA, ун-т. Каліфорнії, Сан-Дієго, СШАавтомобільнийОбмежувальний ящикНабір даних, що містить відео та анотовані кадри, що містять дорожні знаки США. Він випускається в два етапи, один із лише зображеннями, а другий — із зображеннями та відео.посилання
CVзображенняMapillary Vistas, Mapillary AB, GlobalавтомобільнийСемантична міткаНабір даних про фотографію на рівні вулиці для інтерпретації вуличних сцен по всьому світу з точними в пікселях і конкретними людськими анотаціями.посилання
CVВідео, зображенняSemantic KITTI, Університет Бонна, Карлсруе, НімеччинаавтомобільнийОбмежувальна рамка, семантична мітка, розмітка смугиНабір даних, який містить семантичну анотацію для всіх послідовностей тесту одометрії. Набір даних анотує різні типи рухомого та нерухомого транспорту: у тому числі автомобілі, велосипеди, велосипеди, пішоходів і велосипедистів, що дозволяє вивчати об’єкти на сцені.посилання
CVВідеоStanford Track, Стенфордський університет, СШАавтомобільнийВиявлення об'єктів / Класифікація LiDAR, GPS, кодиНабір даних, що включає 14,000 64 мічених треків об’єктів, які спостерігаються за допомогою Velodyne HDL-2E S3 LIDAR у природних вуличних сценах, які можна використовувати для навчання моделей машинного навчання для XNUMXD-розпізнавання об’єктів.посилання
CVВідео, зображенняНабір даних Boxy, Bosch, Сполучені ШтатиавтомобільнийОбмежувальна рамка / Виявлення транспортних засобівНабір даних виявлення транспортних засобів, що містить 2 мільйони анотованих транспортних засобів для навчання та аналізу стратегій розпізнавання об’єктів для самокерованих автомобілів на автомагістралях.посилання
CVВідеоАвтомагістраль TME, Чеський технічний університет, Північна ІталіяавтомобільнийОбмежувальний ящикНабір даних із 28 кліпів загалом тривалістю 27 хвилин розділений на понад 30,000 XNUMX кадрів анотацій транспортних засобів. Анотація виготовлялася напівавтоматично з використанням даних лазерного сканера. Цей збір даних включає різні сценарії руху, кількість смуг, кривизну дороги та освітлення, що охоплює більшу частину умов повного одержання.посилання
CVВідеоЛами без нагляду, Bosch, Сполучені ШтатиавтомобільнийРозмітка смуги, LiDARНабір даних Unsupervised Llamas був анотований шляхом створення автоматичних карт водіння високої чіткості, включаючи маркери смуги руху на основі Lidar. Автономний автомобіль можна вирівняти за цими картами, а розмітка смуги спроектувати на рамку камери. 3D-проекція оптимізована за рахунок мінімізації розбіжностей між уже спостережуваними і прогнозованими маркерами зображення.посилання
НЛПаудіоFacebook AI Багатомовний LibriSpeech (MLS)ЗагальнеАудіо анотація / Розпізнавання мовленняFacebook AI Multilingual LibriSpeech (MLS) — це великомасштабний набір даних з відкритим вихідним кодом, призначений для просування досліджень у сфері автоматичного розпізнавання мовлення (ASR). MLS забезпечує понад 50,000 8 годин аудіо XNUMX мовами: англійською, німецькою, нідерландською, французькою, іспанською, італійською, португальською та польською. посилання