У такій культурно різноманітній та лінгвістично багатій країні, як Індія, створення інклюзивного ШІ починається зі збору репрезентативних високоякісних наборів даних. Це бачення позаду Проект Ваані— широкомасштабна ініціатива з відкритим кодом під керівництвом АРТПАРК, IISc Бенгалуру та Google, прагнучи дати голос кожній індійській мові та діалекту.
Амбітна мета? Збирати 150,000 XNUMX+ годин промови та 15,000 XNUMX+ годин транскрипцій від 1 мільйонів чоловік через 773 райони Індії
Як один із ключових постачальників цієї національної місії, Шаїп відіграв ключову роль у куруванні даних спонтанного мовлення, транскрипції та зборі метаданих, заклавши основу для справедливих голосових технологій, які справді представляють справжню Індію.
Бачення проекту Vaani
Проект Vaani покликаний подолати розрив у включенні ШІ шляхом створення найбільший мультимодальний, багатомовний набір даних з відкритим кодом в Індії. Ці дані є основою для розробки точного розпізнавання мовлення, перекладу та генеративних систем штучного інтелекту рідними мовами Індії, багато з яких недостатньо представлені в глобальних технологічних екосистемах.
Довгострокове бачення полягає в створенні ефективних програм у:
- Охорона здоров'я – Голосова телемедицина
- Освіта – Народні навчальні платформи
- Управління – Розмовні інтерфейси для обслуговування громадян
- Доступність – Голосові інструменти для користувачів з різними можливостями
- Відповідь на катастрофи – Спілкування в реальному часі на місцевих діалектах
Як Шайп допоміг створити найбільший в Індії набір даних про мовлення з відкритим кодом для проєкту Vaani
Шаіпу було доручено збирання 8,000 годин спонтанної мови та 800 годин транскрипцій, перевірених вручну. Наша відповідальність охоплювала підготовку доповідача, запис аудіо, тегування метаданих, координацію транскрипції та контроль якості.
8,000 годин спонтанних звукових даних
Записи з 400+ носіїв мови на округ, представники різних вікових груп, статей і діалектів
80 районів, покритий
Забезпечення підказок на основі зображень природне, контекстне мовлення
Ось що зробило наш підхід унікальним:
Різноманітність районного рівня
Ми отримали записи з 80 районів, розкиданих по таких штатах, як Біхар, Уттар-Прадеш, Карнатака, Західна Бенгалія та Махараштра. Кожен район надав 100 годин аудіоданих, забезпечуючи регіональний баланс. Ми залучили носіїв мови, забезпечивши репрезентацію регіональних акцентів і діалектів, які часто не помічаються в основних наборах даних ШІ.
Мовне та демографічне представлення
Ми отримали записи з 80 районів, розкиданих по таких штатах, як Біхар, Уттар-Прадеш, Карнатака, Західна Бенгалія та Махараштра. Кожен район надав 100 годин аудіоданих, забезпечуючи регіональний баланс. Ми залучили носіїв мови, забезпечивши репрезентацію регіональних акцентів і діалектів, які часто не помічаються в основних наборах даних ШІ.
Мовлення за образами
Щоб стимулювати спонтанний і природний словниковий запас, учасникам показували 45–90 зображень за сеанс і просили їх описати. Учасникам було запропоновано використовувати різноманітні зображення — від культурних символів до повсякденних предметів — щоб викликати природні, спонтанні відповіді їхньою рідною мовою. Це гарантувало, що записи відображають реальне контекстне мовлення, що є необхідним для навчання передових систем НЛП.
Високоякісні стандарти транскрипції
Лише 10% мовних даних було транскрибовано — це 800 годин. Транскрипцію виконували місцеві лінгвісти в радіусі 20–50 км від мовця, забезпечуючи знайомство з діалектами та нюансами. Перевірка другого рівня забезпечила <5% рівня помилок у словах (WER).
Суворий контроль якості
Аудіодані мали відповідати високій планці: відсутність фонового шуму, відлуння, вібрації телефону чи спотворень. Аудіо було записано в тихому середовищі без луни. Файли пройшли ретельну перевірку на відповідність вимогам щодо чіткості мовлення, рівня шуму, точності метаданих і перевірки мовця. Теги метаданих мали бути точними для всіх файлів, а всі записи перевірялися на відповідність динаміку та місцеположенню.
Виклики, які ми вирішили
- Віддалена логістика – Керівництво командами у 80 районах
- Різноманітність мовців – Підключення 32,000 XNUMX+ перевірених спікерів у віддалених місцях
- Культурна чутливість – Поважати місцеві звичаї та діалекти
- Цілісність даних – Відповідність стандартам якості та відповідності
- Контроль якості – у багатьох мовних і культурних контекстах
Наш успіх зводився до ретельного планування, перевірки на основі технологій і партнерства з місцевими командами, які розуміли культурні нюанси кожного регіону.
Вплив і застосування
Внесок Шайпа не тільки прискорив прогрес проекту Vaani, але й заклав основу інклюзивного ШІ в Індії. Підібраний набір мовних даних уже використовується для створення та точного налаштування моделей ШІ для:
- Народні голосові помічники
- Регіональні системи перекладу
- Доступні засоби спілкування для людей із вадами зору
- Платформи edtech на основі ШІ для сільських студентів
- Сільська телемедицина
- Голосові послуги для громадян
- Переклад і транскрипція в реальному часі
Висновок
Проект Vaani — це сміливий крок до інклюзивного, доступного штучного інтелекту, і Шаїп має честь відіграти основоположну роль. Робота Шайпа над проектом Vaani підтверджує нашу відданість створенню етичних інклюзивних систем штучного інтелекту, заснованих на різноманітності та представленні. Маючи понад 8,000 годин зібраних промов і 800 годин транскрибованих, ми пишаємося тим, що взяли участь в одному з найбільш перспективних індійських проектів цифрового залучення.
У той час як проект Vaani продовжує досягати своєї більшої мети — понад 150,000 XNUMX годин даних, ми готові підтримати наступний рубіж інновацій штучного інтелекту, який розмовляє — і для — кожного індійця.
Хочете співпрацювати з нами, щоб створити AI, який розуміє реальний світ? www.shaip.com