Набір даних НЛП для ML

Найкращі набори даних NLP для вдосконалення ваших моделей машинного навчання

Що таке НЛП?

NLP (обробка природної мови) допомагає комп’ютерам розуміти людську мову. Це як навчити комп’ютери читати, розуміти та реагувати на текст і мову так, як це роблять люди.

Що може НЛП?

  • Перетворіть безладний текст на впорядковані дані
  • Зрозумійте, позитивні чи негативні коментарі
  • Перекладайте між мовами
  • Створюйте резюме довгих текстів
  • І багато іншого!
  • Початок роботи з НЛП:

Щоб побудувати хороші системи НЛП, вам потрібно багато прикладів для їх навчання – так само, як люди вчаться краще з більшою практикою. Доброю новиною є те, що є багато безкоштовних ресурсів, де можна знайти ці приклади: Обіймати обличчя, Згорнути та GitHub

Розмір і зростання ринку НЛП:

Станом на 2023 рік ринок обробки природної мови (NLP) оцінювався приблизно в 26 мільярдів доларів. Очікується, що з 30 по 2023 рр. він значно зросте зі зведеним річним темпом зростання (CAGR) приблизно на 2030%. Це зростання зумовлено зростанням попиту на програми НЛП у таких галузях, як охорона здоров’я, фінанси та обслуговування клієнтів.

Як вибрати хороший набір даних NLP, враховуйте наступні фактори:

  • доречність: переконайтеся, що набір даних відповідає вашому конкретному завданню чи домену.
  • Розмір: більші набори даних зазвичай покращують продуктивність моделі, але збалансовують розмір і якість.
  • різноманітність: шукайте набори даних із різноманітними мовними стилями та контекстами, щоб підвищити надійність моделі.
  • Якість: Перевірте наявність добре позначених і точних даних, щоб уникнути введення помилок.
  • Доступність: Переконайтеся, що набір даних доступний для використання та врахуйте будь-які обмеження ліцензування.
  • Попередня обробка: визначте, чи потребує набір даних значного очищення чи попередньої обробки.
  • Підтримка громади: популярні набори даних часто мають більше ресурсів і підтримку спільноти, що може бути корисним.

Оцінюючи ці фактори, ви можете вибрати набір даних, який найкраще відповідає потребам вашого проекту

Топ 33 відкритих наборів даних для НЛП, які потрібно відвідати

Загальне

  • Спам-база UCI (Посилання)

    База спаму, створена в лабораторіях Hewlett-Packard, містить колекцію спам-листів від користувачів з метою розробки персоналізованого фільтра спаму. Він містить понад 4600 спостережень із повідомлень електронної пошти, з яких близько 1820 є спамом.

  • Набір даних Enron (Посилання)

    Набір даних Enron містить величезну колекцію анонімних «справжніх» електронних листів, доступних громадськості для тренування своїх моделей машинного навчання. Він може похвалитися понад півмільйоном електронних листів від понад 150 користувачів, переважно вищого керівництва Enron. Цей набір даних доступний для використання як у структурованому, так і в неструктурованому форматах. Щоб покращити неструктуровані дані, потрібно застосувати методи обробки даних.

  • Набір даних Recommender Systems (Посилання)

    Набір даних Recommender System — це величезна колекція різноманітних наборів даних, що містять різні функції, наприклад,

    • Відгуки про продукт
    • Оцінки зірок
    • Фітнес-стеження
    • Дані пісні
    • Соціальні мережі
    • Мітки часу
    • Взаємодія користувача/елементу
    • Дані GPS
  • Пенн Трінкбанк (Посилання)

    Цей корпус із Wall Street Journal популярний для тестування моделей маркування послідовностей.

  • НЛТК (Посилання)

    Ця бібліотека Python забезпечує доступ до понад 100 корпусів і лексичних ресурсів для НЛП. Він також містить книгу NLTK, навчальний курс для користування бібліотекою.

  • Універсальні залежності (Посилання)

    UD надає послідовний спосіб анотування граматики, завдяки ресурсам на понад 100 мовах, 200 деревах і підтримці понад 300 членів спільноти.

Аналіз почуттів

  • Словники для фільмів і фінансів (Посилання)

    Аналіз почуттів
    Набір даних Dictionaries for Movies and Finance надає словники для певних доменів для позитивної чи негативної полярності в заповненнях Finance та оглядах фільмів. Ці словники взято з IMDb і заповненої форми US Form-8.

  • Почуття 140 (Посилання)

    Sentiment 140 містить понад 160,000 6 твітів із різноманітними смайликами, розділеними на XNUMX різних полів: дата твіту, полярність, текст, ім’я користувача, ідентифікатор та запит. Цей набір даних дає змогу дізнатися про настрій бренду, продукту чи навіть теми на основі активності в Twitter. Оскільки цей набір даних створюється автоматично, на відміну від інших анотованих твітів, він класифікує твіти з позитивними емоціями та негативними емоціями як несприятливі.

  • Набір даних Multi-Domain Sentiment (Посилання)

    Цей набір даних про мультидоменні настрої є сховищем відгуків Amazon про різні продукти. Деякі категорії продуктів, наприклад книги, мають тисячі відгуків, тоді як інші мають лише кілька сотень відгуків. Крім того, відгуки з рейтингом можна конвертувати в двійкові мітки.

  • Standford Sentiment TreeBank (Посилання)

    Цей набір даних NLP від ​​Rotten Tomatoes містить довші фрази та докладніші текстові приклади.

  • Авторський корпус блогу (Посилання)

    У цій колекції є публікації блогів із майже 1.4 мільйона слів, кожен блог є окремим набором даних.

  • Набір даних OpinRank (Посилання)

    300,000 XNUMX відгуків від Edmunds і TripAdvisor, упорядкованих за моделлю автомобіля або місцем подорожі та готелем.

текст

  • Корпус контролю якості Wiki (Посилання)

    Корпус контролю якості WiKi, створений для допомоги у дослідженні відкритих запитань і відповідей, є одним із найширших загальнодоступних наборів даних. Він складається з журналів запитів пошукової системи Bing і містить пари запитань і відповідей. У ньому понад 3000 запитань і 1500 позначених відповідей.

  • Набір даних звітів про судові справи (Посилання)

    Набір даних Legal Case Reports містить колекцію з 4000 судових справ і може використовуватися для навчання автоматичного узагальнення тексту та аналізу цитат. Використовується кожен документ, крилаті фрази, класи цитування, крилаті фрази тощо.

  • Небезпека (Посилання)

    Набір даних Jeopardy — це набір із понад 200,000 XNUMX запитань, представлених у популярній телешоу-вікторині, зібраній користувачем Reddit. Кожна точка даних класифікується за датою виходу в ефір, номером епізоду, значенням, раундом і запитанням/відповіддю.

  • 20 груп новин (Посилання)

    Колекція з 20,000 20 документів охоплює XNUMX груп новин і тем, детально описуючи теми від релігії до популярного спорту.

  • Набір даних Reuters News (Посилання)

    Вперше з’явившись у 1987 році, цей набір даних було позначено, проіндексовано та скомпільовано для цілей машинного навчання.

  • ArXiv (Посилання)

    Цей значний набір даних розміром 270 ГБ містить повний текст усіх наукових статей arXiv.

  • Паралельний корпус Європейського парламенту (Посилання)

    Пари речень із засідань парламенту включають записи з 21 європейської мови, включаючи деякі менш поширені мови для корпусів машинного навчання.

  • Тест мільярдів слів (Посилання)

    Цей набір даних мовного моделювання, отриманий за результатами WMT 2011 News Crawl, містить майже один мільярд слів для тестування інноваційних методів мовного моделювання.

Аудіо мова

  • Розмовний корпус Вікіпедії (Посилання)

    Аудіо мова Цей набір даних ідеально підходить для всіх, хто хоче вийти за межі англійської мови. Цей набір даних містить колекцію статей голландською, німецькою та англійською мовами. Він має різноманітні теми та набори доповідачів, які розраховані на сотні годин.

  • 2000 HUB5 англ (Посилання)

    Набір даних 2000 HUB5 English містить 40 стенограм телефонних розмов англійською мовою. Дані надає Національний інститут стандартів і технологій, і основна увага приділяється розпізнаванню розмовної мови та перетворенню мови в текст.

  • LibriSpeech (Посилання)

    Набір даних LibriSpeech — це колекція майже 1000 годин мовлення англійською мовою, взятого та правильно сегментованого за темами на розділи з аудіокниг, що робить його ідеальним інструментом для обробки природної мови.

  • Безкоштовний набір даних розмовних цифр (Посилання)

    Цей набір даних NLP містить понад 1,500 записів розмовних цифр англійською мовою.

  • Набір мовних даних M-AI Labs (Посилання)

    Набір даних пропонує майже 1,000 годин аудіо з транскрипцією, що охоплює кілька мов і класифіковано за чоловічими, жіночими та змішаними голосами.

  • База даних шумної мови (посилання)

    Цей набір даних містить паралельні шумові та чисті записи мовлення, призначені для розробки програмного забезпечення для покращення мовлення, але також корисні для навчання мовленню в складних умовах.

Відгуки

  • Yelp Огляди (Посилання)

    Набір даних Yelp містить величезну колекцію з близько 8.5 мільйонів оглядів понад 160,000 200,000 компаній, їхні відгуки та дані користувачів. Огляди можна використовувати для навчання ваших моделей аналізу настроїв. Крім того, цей набір даних також містить понад XNUMX XNUMX зображень, що охоплюють вісім столичних місць.

  • Огляди IMDB (Посилання)

    Огляди IMDB є одними з найпопулярніших наборів даних, що містять інформацію про акторський склад, рейтинги, опис і жанр для понад 50 тисяч фільмів. Цей набір даних можна використовувати для тестування та навчання ваших моделей машинного навчання.

  • Набір даних відгуків і рейтингів Amazon (Посилання)

    Набір даних оглядів і рейтингів Amazon містить цінну колекцію метаданих і оглядів різних продуктів Amazon, зібраних з 1996 по 2014 роки – близько 142.8 мільйонів записів. Метадані включають ціну, опис продукту, бренд, категорію тощо, тоді як відгуки містять якість тексту, корисність тексту, рейтинги тощо.

Питання та відповіді

  • Стенфордський набір даних запитань і відповідей (SQuAD) (Посилання)

    Цей набір даних про розуміння прочитаного містить 100,000 50,000 запитань, на які можна відповісти, і XNUMX XNUMX запитань без відповіді, усі створені крауд-працівниками Вікіпедії.

  • Природні питання (Посилання)

    Цей навчальний набір містить понад 300,000 7,800 навчальних прикладів, 7,800 XNUMX прикладів для розробки та XNUMX XNUMX тестових прикладів, кожен із яких містить запит Google і відповідну сторінку у Вікіпедії.

  • TriviaQA (Посилання)

    Цей складний набір запитань містить 950,000 XNUMX пар QA, включаючи перевірені людиною та згенеровані машиною підмножини.

  • CLEVR (Compositional Language and Elementary Visual Reasoning) (Посилання)

    Цей набір даних із відповідями на візуальні запитання містить тривимірні об’єкти та тисячі питань із детальною інформацією про візуальну сцену.

Отже, який набір даних ви вибрали для навчання своєї моделі машинного навчання?

Коли ми підемо, ми залишимо вас з a про-підказка.

Обов’язково уважно прочитайте файл README, перш ніж вибрати набір даних NLP для своїх потреб. Набір даних міститиме всю необхідну інформацію, яка вам може знадобитися, наприклад вміст набору даних, різні параметри, за якими дані класифіковані, і ймовірні випадки використання набору даних.

Незалежно від моделей, які ви створюєте, є захоплююча перспектива тіснішої інтеграції наших машин у наше життя. Завдяки НЛП можливості для бізнесу, фільмів, розпізнавання мови, фінансів тощо збільшуються в рази.

Соціальна Поділитися