Дані навчання AI

Війни даних 2024: етичні та практичні проблеми навчання ШІ

Якщо ви попросили модель Gen AI написати слова до пісні, подібної до Бітлз, і якщо вона виконала вражаючу роботу, на це є причина. Або, якщо ви попросили модель написати прозу в стилі вашого улюбленого автора і вона точно повторила стиль, на це є резон.

Навіть просто, ви перебуваєте в іншій країні, і коли ви хочете перекласти назву цікавої закуски, яку ви знайдете в супермаркеті, ваш смартфон розпізнає етикетки та безперешкодно перекладає текст.

Штучний інтелект стоїть у центрі всіх таких можливостей, і це насамперед тому, що моделі штучного інтелекту були б навчені величезними обсягами таких даних – у нашому випадку, сотнями пісень The Beatles і, можливо, книгами вашого улюбленого письменника.

З появою Generative AI кожен став музикантом, письменником, художником або всім цим. Моделі Gen AI створюють індивідуальні витвори мистецтва за лічені секунди залежно від підказок користувача. Вони можуть творити Ван Гог витвори мистецтва і навіть Аль Пачіно зачитує Умови надання послуг без його присутності.

Не дивлячись на захоплення, важливим аспектом тут є етика. Чи справедливо, що такі творчі роботи використовувалися для навчання моделей ШІ, які поступово намагаються замінити художників? Чи була отримана згода власників такої інтелектуальної власності? Чи отримали вони справедливу компенсацію?

Ласкаво просимо в 2024 рік: рік війн даних

За останні кілька років дані ще більше стали магнітом, який привертає увагу компаній до тренування своїх моделей Gen AI. Як немовля, моделі штучного інтелекту наївні. Їх треба вчити, а потім тренувати. Ось чому компаніям потрібні мільярди, якщо не мільйони, даних, щоб штучно навчити моделей імітувати людей.

Наприклад, GPT-3 був навчений на мільярдах (сотнях) токенів, що у вільній перекладі означає слова. Однак джерела показують, що трильйони таких жетонів були використані для навчання новіших моделей.

Куди подітися великим технологічним фірмам із такими величезними обсягами необхідних наборів даних для навчання?

Гостра нестача даних для навчання

Амбіції та обсяг йдуть рука об руку. Оскільки підприємства розширюють свої моделі та оптимізують їх, їм потрібно ще більше навчальних даних. Це може бути викликано вимогами представити наступні моделі GPT або просто забезпечити покращені та точні результати.

Незалежно від випадку, потреба у великій кількості навчальних даних неминуча.

Саме тут підприємства стикаються з першою перешкодою. Простіше кажучи, Інтернет стає занадто малим, щоб моделі штучного інтелекту могли на ньому тренуватися. Це означає, що у компаній закінчуються наявні набори даних для живлення та навчання своїх моделей.

Цей виснажливий ресурс лякає зацікавлених сторін і технічних ентузіастів, оскільки він потенційно може обмежити розробку та еволюцію моделей штучного інтелекту, які здебільшого тісно пов’язані з тим, як бренди позиціонують свої продукти, і тим, як вважають, що деякі проблемні питання у світі потрібно вирішувати за допомогою ШІ. рішення.

У той же час є також надія у формі синтетичних даних або цифрового інбридингу, як ми це називаємо. З точки зору неспеціаліста, синтетичні дані – це навчальні дані, створені ШІ, які знову використовуються для навчання моделей.

Хоча це звучить багатообіцяюче, технічні експерти вважають, що синтез таких навчальних даних призведе до того, що називається Габсбурзьким штучним інтелектом. Це викликає серйозне занепокоєння для підприємств, оскільки такі інбредні набори даних можуть містити фактичні помилки, упередженість або просто тарабарщину, що негативно впливає на результати моделей ШІ.

Вважайте це грою в китайський шепіт, але єдина особливість полягає в тому, що перше передане слово також може бути безглуздим.

Гонка за отриманням навчальних даних ШІ

Отримання даних навчання ШІ Ліцензування — ідеальний спосіб отримати дані про навчання. Хоча бібліотеки та сховища потужні, вони є обмеженими джерелами. Це означає, що вони не можуть задовольнити вимоги до обсягу великомасштабних моделей. Цікава статистика свідчить про те, що до 2026 року у нас можуть закінчитися високоякісні дані для навчання моделей, зваживши доступність даних нарівні з іншими фізичними ресурсами в реальному світі.

Одне з найбільших фотосховищ – Shutterstock налічує 300 мільйонів зображень. Хоча цього достатньо, щоб розпочати навчання, для тестування, перевірки та оптимізації знову знадобиться велика кількість даних.

Однак є й інші доступні джерела. Єдина заковика тут у тому, що вони позначені сірим кольором. Мова йде про загальнодоступні дані з Інтернету. Ось кілька інтригуючих фактів:

  • Щодня публікується понад 7.5 мільйонів дописів у блозі
  • Понад 5.4 мільярда людей користуються такими соціальними мережами, як Instagram, X, Snapchat, TikTok тощо.
  • В Інтернеті існує понад 1.8 мільярда веб-сайтів.
  • Тільки на YouTube щодня завантажується понад 3.7 мільйона відео.

Крім того, люди публічно діляться текстами, відео, фотографіями та навіть предметною експертизою за допомогою лише аудіоподкастів.

Це явно доступні частини вмісту.

Отже, використання їх для навчання моделей штучного інтелекту має бути справедливим, чи не так?

Це сіра зона, про яку ми згадували раніше. На це питання немає однозначної думки, оскільки технологічні компанії, які мають доступ до таких величезних обсягів даних, розробляють нові інструменти та вносять зміни до політики, щоб задовольнити цю потребу.

Деякі інструменти перетворюють аудіо з відео YouTube на текст, а потім використовують їх як маркери для навчання. Підприємства переглядають політику конфіденційності та навіть використовують загальнодоступні дані для навчання моделей із заздалегідь визначеним наміром зіткнутися з судовими позовами.

Зустрічні механізми

У той же час компанії також розробляють так звані синтетичні дані, де моделі ШІ генерують тексти, які можна знову використовувати для навчання моделей як цикл.

З іншого боку, щоб протидіяти видаленню даних і запобігти використанню підприємствами лазівок у законодавстві, веб-сайти впроваджують плагіни та коди, щоб пом’якшити дії ботів, які сканують дані.

Що таке остаточне рішення?

Вплив штучного інтелекту на вирішення проблем реального світу завжди підтримувався благородними намірами. Тоді чому пошук наборів даних для навчання таких моделей повинен покладатися на сірі моделі?

Оскільки розмови та дебати щодо відповідального, етичного та підзвітного штучного інтелекту набувають популярності та сили, компаніям будь-якого масштабу необхідно перейти до альтернативних джерел, які використовують методи білого капелюха для надання навчальних даних.

Це де Шаїп перевершує в. Розуміючи поширені занепокоєння щодо джерел даних, Шайп завжди виступав за етичні методи та постійно практикував вдосконалені та оптимізовані методи збору та компіляції даних із різноманітних джерел.

Методології пошуку наборів даних White Hat

Методології пошуку наборів даних Hat Наш власний інструмент збору даних містить людей у ​​центрі циклів ідентифікації та доставки даних. Ми розуміємо чутливість випадків використання, над якими працюють наші клієнти, і вплив наших наборів даних на результати їхніх моделей. Наприклад, набори даних охорони здоров’я мають свою чутливість порівняно з наборами даних для комп’ютерного зору для автономних автомобілів.

Саме тому наш спосіб роботи передбачає ретельну перевірку якості та методи визначення та компіляції відповідних наборів даних. Це дозволило нам надати компаніям ексклюзивні навчальні набори даних Gen AI у різних форматах, таких як зображення, відео, аудіо, текст та інші вимоги.

Наша філософія

Ми працюємо на основі таких основних принципів, як згода, конфіденційність і справедливість у зборі наборів даних. Наш підхід також забезпечує різноманітність даних, щоб уникнути несвідомого упередження.

Оскільки сфера штучного інтелекту готується до початку нової ери, позначеної чесними практиками, ми в Shaip маємо намір бути прапороносцями та попередниками таких ідеологій. Якщо ви шукаєте безсумнівно чесні та якісні набори даних для навчання своїх моделей ШІ, зв’яжіться з нами сьогодні.

Соціальна Поділитися