Збір голосових даних в автомобілі

Практичний приклад: колекція ключових фраз для автомобільних систем голосового керування
Колекція ключових фраз

В автомобільній промисловості зростає попит на автомобільні системи з голосовим керуванням, що переосмислює наш спосіб роботи з нашими транспортними засобами.

Автомобільна промисловість швидко запровадила системи з голосовою активацією, а великі гравці, такі як Ford, Tesla та BMW, інтегрували вдосконалене розпізнавання голосу у свої автомобілі. За оцінками, до 2022 року понад 50% нових автомобілів мали функцію розпізнавання голосу. Ці інтеграції спрямовані на підвищення безпеки, дозволяючи водіям керувати функціями навігації, розваг і зв’язку, не відволікаючись.

За прогнозами, ринкова вартість розпізнавання голосу в автомобілях перевищить 1 мільярд доларів до 2023 року, що свідчить про зростаючий попит на інтелектуальну взаємодію в автомобілі без використання рук.

автомобільний

Дослідження показують, що до 2022 року 73% водіїв використовуватимуть голосовий помічник в автомобілі.

У 2.01 році ринок автомобільних систем розпізнавання голосу оцінювався в 2021 мільярда доларів США, а до 3.51 року очікується, що він досягне 2027 мільярда доларів США, зареєструвавши CAGR близько 8.07%.

Рішення реального світу

Дані, які живлять системи з голосовою активацією

Голосові системи в автомобілях підвищують безпеку та зручність. Вони дозволяють водіям отримувати доступ до навігації, здійснювати дзвінки, надсилати текстові повідомлення та керувати музикою, не відриваючи рук від керма чи очей від дороги. Реагуючи на словесні команди, ці системи зменшують відволікання, сприяють багатозадачності та забезпечують безперервну зосередженість на водінні. 

Клієнт є світовим лідером розмовного інтелекту, який пропонує голосові рішення AI, які дозволяють компаніям пропонувати неймовірні розмовні враження своїм клієнтам. Вони працювали з провідними автомобільними компаніями, щоб навчити свої голосові системи з використанням фірмових ключових фраз, і потребували досвіду Шайпа у зборі аудіоданих.

Реальне рішення
Виклики

Виклики

  • Краудсорсинг: Залучіть понад 2800 носіїв кожної мови в усьому світі.
  • Збір даних: Захистіть понад 200 тисяч підказок 12 мовами протягом встановленого періоду часу.
  • Розпізнавання контексту та наміру: щоб правильно розуміти запити користувачів, системи повинні пройти навчання на різних варіантах однієї і тієї ж ключової фрази.
  • Обробка фонового шуму: Звертайте увагу на фоновий шум реального світу для точності моделі ML.
  • Зменшення зміщення: Отримайте зразки голосу з різних демографічних груп, щоб забезпечити інклюзивність.
  • Специфікації аудіо: 16 кГц 16 біт PCM, моно, одноканальний, WAV; без обробки.
  • Середовище запису: Записи мають мати чистий звук без фонового шуму чи перешкод. Ключові фрази для запису звичайною мовою.
  • Перевірка якості:  Усі записи мовлення проходитимуть оцінку якості та перевірку, доставлятимуться лише перевірені записи мовлення. Якщо Shaip не відповідає погодженим стандартам якості, Shaip повторно надасть дані без додаткових витрат

Рішення

Shaip зі своїм досвідом у сфері розмовного штучного інтелекту дозволив клієнту:

  • Збір даних: 208 тис. ключових фраз/підказок бренду, зібраних 12 глобальними мовами від 2800 носіїв протягом встановленого періоду часу
  • Різноманітні акценти та діалекти: Набрані спеціалісти з усього світу, які володіють бажаними акцентами та діалектами.
  • Розпізнавання контексту та наміру: кожному доповідачу було доручено записати ключові фрази в 20 різних варіаціях, що дало змогу моделям ML точно вловлювати запити користувачів з точки зору контексту та наміру.
  • Обробка фонового шуму: щоб забезпечити бездоганну якість аудіо, ми переконалися, що ключові фрази були записані в спокійному середовищі з рівнем шуму нижче 40 дБ, без фонових перешкод, таких як телебачення, радіо, музика, мова чи вуличні звуки.
  • Зменшення зміщення: Щоб мінімізувати упередженість, ми залучали людей з різних регіонів і підтримували збалансоване демографічне представництво з 50% чоловіків і 50% жінок, що охоплювали вікові групи від 18 до 60 років.
  • Правила запису: Ключові фрази були зафіксовані в послідовному нормальному мовленні без будь-яких варіацій, таких як швидкий або повільний темп. 2-секундна тиша як на початку, так і в кінці, щоб гарантувати, що жодна частина мови не була випадково вирізана.
  • Форма запису: Аудіо було записано на частоті 16 кГц, 16-біт PCM у монофонічному режимі з використанням одного каналу та збережено у форматі WAV. Аудіо залишається необробленим, тобто не було застосовано стиснення, реверберацію чи еквалайзер.
  • Якість: Кожен запис промови піддавався суворій перевірці якості та підтвердження. Було доставлено лише записи, які пройшли цю оцінку. Будь-які файли, які не відповідали узгодженим стандартам якості, були перезаписані та надані без жодної додаткової плати
Рішення
Результат

Результат

Високоякісні звукові дані ключової фрази бренду або голосові підказки дозволять автомобільним компаніям та їхнім клієнтам:

  1. Брендінг та ідентифікація: Голосові підказки з конкретною фразою бренду допомагають компаніям створити прямий і незабутній зв’язок між користувачем і брендом, що покращує запам’ятовуваність бренду.
  2. Простота використання: Голосові команди полегшують водіям взаємодію з транспортним засобом, не відриваючи рук від керма або очей від дороги, тим самим підвищуючи безпеку на дорозі.
  3. Функціональні можливості: Голосові команди роблять доступ до функцій автомобіля та керування ними інтуїтивно зрозумілішим. Будь то навігація, відтворення медіа чи клімат-контроль.
  4. Інтеграція з іншими системами: Багато систем із голосовою активацією інтегровано зі смартфонами, пристроями розумного дому та іншими пристроями Інтернету речей. Наприклад, користувач може попросити свій автомобіль увімкнути світло вдома, коли він наближається до дому.
  5. конкурентні переваги: Пропозиція передових систем із голосовим керуванням може бути перевагою та перевагою. Купуючи новий автомобіль, покупці шукають найновіші технології.
  6. Забезпечення майбутнього: Оскільки технології розвиваються та IoT стає все більш інтегрованим у повсякденне життя, наявність надійної голосової системи дозволяє автомобільним компаніям бути більш адаптованими до майбутніх технологій.
  7. Можливості отримання доходу: Додаткові можливості монетизації, наприклад, голосові системи пропонують рекомендації або інтегрований досвід електронної комерції (наприклад, замовлення їжі або пошук найближчих послуг), які можуть забезпечувати прибуток партнерів.
Голден-5-зірковий

Коли ми розпочали пошук голосових підказок для автомобільного сектору, викликів було багато. Вловлення різноманітності мови, акцентів і тонів було життєво важливим для представлення глобальної клієнтури наших клієнтів. Шайп виділявся не просто як постачальник, а як справжній партнер. Їхня прагнення забезпечити різноманітність голосів з різних регіонів заслуговує похвали. Вони вийшли за рамки простого збору голосів; вони вловили нюанси потреб нашого проекту, гарантуючи першокласний запис. Їх бездоганне дотримання стандартів аудіоколекції продемонструвало їхній професіоналізм і відданість проекту.

Прискоріть розробку розмовної програми AI на 100%