Практичний приклад: Розмовний ШІ

Понад 3 тисячі годин зібраних, сегментованих і транскрибованих даних для створення ASR 8 індійськими мовами
Розмовний ай
Уряд прагне надати своїм громадянам легкий доступ до Інтернету та цифрових послуг їхньою рідною мовою через проект Bhashini.

BHASHINI, індійська платформа мовного перекладу на основі ШІ, є важливою частиною ініціативи Digital India.

Платформа Bhashini, розроблена для надання інструментів штучного інтелекту (ШІ) та обробки природної мови (NLP) ММСП, стартапам і незалежним інноваторам, є загальнодоступним ресурсом. Його мета — сприяти цифровій інтеграції, дозволяючи громадянам Індії взаємодіяти з цифровими ініціативами країни їхньою рідною мовою.

Крім того, він має на меті значно розширити доступність Інтернет-контенту індійськими мовами. Це особливо спрямовано на сфери суспільного інтересу, такі як управління та політика, наука та технології тощо. Отже, це стимулюватиме громадян користуватися Інтернетом своєю рідною мовою, сприяючи їх активній участі.

Рішення реального світу

Розкриття потужності локалізації за допомогою даних

Індії потрібна була платформа, яка зосередилася б на створенні багатомовних наборів даних і мовних технологічних рішень на основі ШІ, щоб надавати цифрові послуги індійськими мовами. Щоб запустити цю ініціативу, Індійський технологічний інститут, Мадрас (IIT Madras) співпрацював із Shaip для збору, сегментування та транскрипції наборів даних індійської мови для створення багатомовних моделей мовлення.

Виклики

Щоб допомогти клієнту розробити дорожню карту мовленнєвих технологій для індійських мов, команді потрібно було отримати, сегментувати та транскрибувати великі обсяги навчальних даних для створення моделі ШІ. Критичними вимогами клієнта були:

Збір даних

  • Отримайте 3000 годин навчальних даних з 8 індійських мов із 4 діалектами на мову.
  • Для кожної мови постачальник збирає Extempore Speech і
    Розмовне мовлення вікових груп 18-60 років
  • Забезпечте різноманітне поєднання мовців за віком, статтю, освітою та діалектами
  • Забезпечте різноманітне поєднання середовищ запису відповідно до специфікацій.
  • Кожен аудіозапис має бути принаймні 16 кГц, але краще 44 кГц

Сегментація даних

  • Створюйте сегменти мовлення по 15 секунд і розміщуйте аудіо з точністю до мілісекунд для кожного мовця, типу звуку (мова, лепет, музика, шум), поворотів, висловлювань і фраз у розмові
  • Створіть кожен сегмент для цільового звукового сигналу з відступом 200–400 мілісекунд на початку та в кінці.
  • Для всіх сегментів необхідно заповнити такі об’єкти, як-от час початку, час закінчення, ідентифікатор сегмента, рівень гучності, тип звуку, код мови, ідентифікатор динаміка тощо.

Транскрипція даних

  • Дотримуйтесь вказівок із транскрипції щодо символів і спеціальних символів, орфографії та граматики, великої літери, абревіатур, скорочень, окремих промовистих літер, цифр, знаків пунктуації, акронімів, нерозбірливого мовлення, мовлення, нерозбірливого мовлення, нецільових мов, немовлення тощо.

Перевірка якості та відгук

  • Усі записи підлягають оцінці та перевірці якості, лише підтверджені виступи

Рішення

Завдяки нашому глибокому розумінню розмовного штучного інтелекту ми допомогли клієнту збирати, сегментувати та транскрибувати дані за допомогою команди експертів-колекціонерів, лінгвістів і анотаторів для створення великого корпусу аудіоданих 8 індійськими мовами

Обсяг роботи для Шайпа включав, але не обмежувався, отримання великих обсягів аудіонавчальних даних, сегментування аудіозаписів на кілька, транскрипцію даних і доставку відповідних файлів JSON, що містять метадані [SpeakerID, Age, Gender, Language, Dialect,
Рідна мова, кваліфікація, професія, домен, формат файлу, частота, канал, тип аудіо, кількість мовців, кількість іноземних мов, використовувані налаштування, вузькосмуговий або широкосмуговий аудіо тощо].

Шайп зібрав 3000 годин аудіоданих у великому масштабі, зберігаючи бажаний рівень якості, необхідний для навчання технології мовлення для складних проектів. Форма чіткої згоди була взята від кожного з учасників.

1. Збір даних

2. Сегментація даних

  • Зібрані аудіодані були поділені на сегменти мовлення по 15 секунд кожен із мітками часу з точністю до мілісекунд для кожного мовця, типу звуку, поворотів, висловлювань і фраз у розмові.
  • Створено кожен сегмент для цільового звукового сигналу з відступом 200–400 мілісекунд на початку та в кінці звукового сигналу.
  • Для всіх сегментів були присутні та заповнені такі об’єкти, як-от час початку, час закінчення, ідентифікатор сегмента, рівень гучності (голосно, нормально, тихо), основний тип звуку (мова, лепет, музика, шум, перекриття), мовний код динаміка ID, транскрипція тощо.

3. Перевірка якості та відгук

  • Усі записи було оцінено на якість, і було доставлено лише підтверджені записи мови з WER 90% і TER 90%
  • Контрольний список якості:
    » Максимальна довжина сегмента – 15 секунд
    » Транскрипція з певних доменів, а саме: погода, різні типи новин, здоров’я, сільське господарство, освіта, робота чи фінанси
    » Низький фоновий шум
    » Без аудіокліпу вимкнено – немає спотворень
    » Правильна сегментація аудіо для транскрипції

4. Транскрипція даних
Усі вимовлені слова, включаючи вагання, слова-заповнювачі, фальстарти та інші вербальні тики, були точно зафіксовані в транскрипції. Ми також дотримувалися вказівок щодо транскрипції деталей щодо великих і малих літер, правопису, великої літери, скорочень, скорочень, цифр,
пунктуація, акроніми, нерівне мовлення, немовні шуми тощо. Крім того, робочий процес, який дотримується для збирання та транскрипції, такий:

Результат

Високоякісні аудіодані від експертів-лінгвістів дозволять Індійському технологічному інституту в Мадрасі точно навчити та створити багатомовні моделі розпізнавання мовлення 8 індійськими мовами з різними діалектами за встановлений час. Моделі розпізнавання мовлення можна використовувати для:

  • Подолайте мовний бар’єр для цифрової інклюзії, підключивши громадян до ініціатив їхньою рідною мовою.
  • Сприяє цифровому врядуванню
  • Каталізатор для формування екосистеми послуг і продуктів індійськими мовами
  • Більше локалізованого цифрового контенту в сферах суспільного інтересу, зокрема, управління та політики
Голден-5-зірковий

Ми були вражені досвідом Шайпа в розмовному просторі ШІ. Їхня загальна компетенція щодо виконання проекту з пошуку, сегментації, транскрипції та надання необхідних навчальних даних від експертів-лінгвістів 8 мовами в суворі часові рамки та вказівки; зберігаючи при цьому прийнятний стандарт якості».

Прискоріть розробку розмовної програми AI на 100%

Рекомендовані клієнти

Розширення можливостей команд для створення провідних у світі продуктів штучного інтелекту.