Практичний приклад: Розмовний ШІ

Понад 3 тисячі годин зібраних, сегментованих і транскрибованих даних для створення ASR 8 індійськими мовами

Збірка висловів
Уряд прагне надати своїм громадянам легкий доступ до Інтернету та цифрових послуг їхньою рідною мовою через проект Bhashini.

BHASHINI, індійська платформа мовного перекладу на основі ШІ, є важливою частиною ініціативи Digital India.

Платформа Bhashini, розроблена для надання інструментів штучного інтелекту (ШІ) та обробки природної мови (NLP) ММСП, стартапам і незалежним інноваторам, є загальнодоступним ресурсом. Його мета — сприяти цифровій інтеграції, дозволяючи громадянам Індії взаємодіяти з цифровими ініціативами країни їхньою рідною мовою.

Крім того, він має на меті значно розширити доступність Інтернет-контенту індійськими мовами. Це особливо спрямовано на сфери суспільного інтересу, такі як управління та політика, наука та технології тощо. Отже, це стимулюватиме громадян користуватися Інтернетом своєю рідною мовою, сприяючи їх активній участі.

Використовуйте НЛП, щоб увімкнути різноманітну екосистему співавторів, організацій-партнерів і громадян з метою подолання мовних бар’єрів, забезпечуючи таким чином цифрове залучення та розширення можливостей

Рішення реального світу

Розкриття потужності локалізації за допомогою даних

Індії потрібна була платформа, яка зосередилася б на створенні багатомовних наборів даних і мовних технологічних рішень на основі ШІ, щоб надавати цифрові послуги індійськими мовами. Щоб запустити цю ініціативу, Індійський технологічний інститут, Мадрас (IIT Madras) співпрацював із Shaip для збору, сегментування та транскрипції наборів даних індійської мови для створення багатомовних моделей мовлення.

Виклики

Щоб допомогти клієнту розробити дорожню карту мовленнєвих технологій для індійських мов, команді потрібно було отримати, сегментувати та транскрибувати великі обсяги навчальних даних для створення моделі ШІ. Критичними вимогами клієнта були:

Збір даних

  • Отримайте 3000 годин навчальних даних з 8 індійських мов із 4 діалектами на мову.
  • Для кожної мови постачальник збирає Extempore Speech і
    Розмовне мовлення вікових груп 18-60 років
  • Забезпечте різноманітне поєднання мовців за віком, статтю, освітою та діалектами
  • Забезпечте різноманітне поєднання середовищ запису відповідно до специфікацій.
  • Кожен аудіозапис має бути принаймні 16 кГц, але краще 44 кГц

Сегментація даних

  • Створюйте сегменти мовлення по 15 секунд і розміщуйте аудіо з точністю до мілісекунд для кожного мовця, типу звуку (мова, лепет, музика, шум), поворотів, висловлювань і фраз у розмові
  • Створіть кожен сегмент для цільового звукового сигналу з відступом 200–400 мілісекунд на початку та в кінці.
  • Для всіх сегментів необхідно заповнити такі об’єкти, як-от час початку, час закінчення, ідентифікатор сегмента, рівень гучності, тип звуку, код мови, ідентифікатор динаміка тощо.

Транскрипція даних

  • Дотримуйтесь вказівок із транскрипції щодо символів і спеціальних символів, орфографії та граматики, великої літери, абревіатур, скорочень, окремих промовистих літер, цифр, знаків пунктуації, акронімів, нерозбірливого мовлення, мовлення, нерозбірливого мовлення, нецільових мов, немовлення тощо.

Перевірка якості та відгук

  • Усі записи підлягають оцінці та перевірці якості, лише підтверджені виступи

рішення

Завдяки нашому глибокому розумінню розмовного штучного інтелекту ми допомогли клієнту збирати, сегментувати та транскрибувати дані за допомогою команди експертів-колекціонерів, лінгвістів і анотаторів для створення великого корпусу аудіоданих 8 індійськими мовами

Обсяг роботи для Шайпа включав, але не обмежувався, отримання великих обсягів аудіонавчальних даних, сегментування аудіозаписів на кілька, транскрипцію даних і доставку відповідних файлів JSON, що містять метадані [SpeakerID, Age, Gender, Language, Dialect,
Рідна мова, кваліфікація, професія, домен, формат файлу, частота, канал, тип аудіо, кількість мовців, кількість іноземних мов, використовувані налаштування, вузькосмуговий або широкосмуговий аудіо тощо]. 

Шайп зібрав 3000 годин аудіоданих у великому масштабі, зберігаючи бажаний рівень якості, необхідний для навчання технології мовлення для складних проектів. Форма чіткої згоди була взята від кожного з учасників.

1. Збір даних