Набори даних рукописного вводу

22 найкращі набори даних оптичного розпізнавання та рукописного тексту з відкритим кодом для навчання ваших моделей ML

Зростання використання оптичного розпізнавання символів можна насамперед пояснити збільшенням виробництва систем автоматичного розпізнавання. У результаті глобальна ринкова вартість технології OCR прив'язана до 8.93 млрд доларів у 2021 році, прогнозується, що CAGR зросте на 15.4% між 2022 та 2030 роками.

Але що таке технологія OCR? І чому це змінило правила гри для компаній, що розробляють ефективні моделі ШІ? Давай дізнаємось.

Що таке OCR (оптичне розпізнавання символів)?

OCR – це технологія, яка перетворює різні типи документів, як-от скановані паперові документи, PDF-файли чи зображення тексту, у дані, які можна редагувати та шукати. Він працює за допомогою:

  • Аналіз структури тексту на зображенні
  • Розбиття тексту на рядки та знаки
  • Перетворення цих візуальних символів у машиночитаний текст

Загальні способи використання включають:

  • Перетворення сканованих документів у редаговані текстові файли
  • Оцифрування друкованих книг
  • Вилучення тексту з фотографій
  • Перетворення рукописних рецептів у цифровий текст
  • Розпізнавання номерних знаків

Навчальні дані OCR

Переваги та проблеми відкритих наборів даних

Підприємствам потрібно порівняти переваги та проблеми, щоб зрозуміти, чи варто їм обирати безкоштовні дані для своїх програм ML.

Переваги

  • Дані легко доступні. Завдяки доступності даних вартість розробки програми значно знижується.
  • Час і зусилля, витрачені на збір даних для програми, значно скорочуються, оскільки набір даних є легкодоступним.
  • Існує велика кількість форумів спільноти або довідкових груп, які допомагають вивчати, адаптувати та оптимізувати набір даних.
  • Одна з головних переваг набору даних з відкритим кодом полягає в тому, що він не накладає жодних обмежень на налаштування.
  •   Дані з відкритим кодом доступні для великої частини населення, що робить аналіз та інновації можливими без грошових бар’єрів.

Виклики

  • Дані, специфічні для проекту, важко отримати. Крім того, існує ймовірність відсутності інформації та некоректного використання наявних даних.
  • Отримання конфіденційних даних потребує часу, зусиль і є дорогим
  • Хоча отримати дані може бути простіше, витрати на знання та аналіз можуть переважити початкову перевагу.
  • Інші розробники також використовують ці дані для розробки програм.
  • Ці набори даних дуже вразливі до порушень безпеки, конфіденційності та згоди.

22 найкращих наборів даних рукописного тексту та OCR для машинного навчання

Набори даних OCR з відкритим кодом

Для розробки програм розпізнавання тексту доступно багато наборів даних з відкритим кодом. Деякі з 22 найкращих

  1. База даних NIST

    NIST або Національний інститут науки пропонує безкоштовну колекцію з понад 3600 зразків рукописного тексту з понад 810,000 XNUMX зображень символів

  2. База даних MNIST

    База даних MNIST, отримана зі спеціальної бази даних 1 і 3 NSIT, являє собою скомпільовану колекцію з 60,000 10,000 рукописних номерів для навчального набору та XNUMX XNUMX прикладів для тестового набору. Ця база даних із відкритим кодом допомагає навчити моделі розпізнавати шаблони, витрачаючи менше часу на попередню обробку.

  3. Розпізнавання тексту

    База даних із відкритим вихідним кодом, набір даних розпізнавання тексту, містить близько 500 зображень вивісок, табличок на дверях, табличок із застереженнями для приміщень і на вулиці тощо.

  4. Стенфордське OCR

    Цей безкоштовний набір даних, опублікований Стенфордським університетом, є рукописним набором слів Групи розмовних мовних систем MIT.

  5. Текст перегляду вулиць

    Цей набір даних, зібраний із зображень Google Street View, містить зображення для виявлення тексту, переважно дощок і дорожніх знаків.

  6. База даних документів

    База даних документів — це колекція 941 рукописного документа, включаючи таблиці, формули, малюнки, діаграми, списки тощо, від 189 авторів.

  7. Математичні вирази

    Математичні вирази — це база даних, яка містить 101 математичний символ і 10,000 XNUMX виразів.

  8. Перегляд вулиць Номери будинків

    База даних номерів будинків Street View, зібрана з Google Street View, містить 73257 цифр номерів будинків.

  9. Природне середовище OCR

    Природне середовище OCR — це набір даних із майже 660 зображень у всьому світі та 5238 текстових анотацій.

  10. Математичні вирази

    Понад 10,000 101 виразів із XNUMX+ математичними символами.

  11. Рукописні китайські ієрогліфи

    Набір даних із 909,818 10 рукописних зображень китайських ієрогліфів, що еквівалентно приблизно XNUMX новинним статтям.

  12. Арабський друкований текст

    Лексикон із 113,284 10 слів із використанням XNUMX арабських шрифтів.

  13. Рукописний англійський текст

    Рукописний англійський текст на дошці з понад 1700 записами.

  14. 3000 зображень середовищ

    3000 зображень з різних середовищ, включаючи сцени на вулиці та в приміщенні при різному освітленні.

  15. Дані Chars74K

    74,000 XNUMX зображень англійських і каннадських цифр.

  16. IAM (Рукописне введення IAM)

    База даних IAM містить 13,353 657 зображення рукописного тексту XNUMX авторів з Корпусу британської англійської мови Ланкастер-Осло/Берген.

  17. FUNSD (Розуміння форми в шумних відсканованих документах)

    FUNSD включає 199 анотованих, відсканованих форм із різноманітним і шумним виглядом, складним для розуміння форми.

  18. OCR тексту

    TextOCR перевіряє розпізнавання тексту сцени довільної форми в природних зображеннях.

  19. Twitter 100 тис

    Twitter100k — це великий набір даних для слабко контрольованого крос-медійного пошуку.

  20. SSIG-SegPlate – сегментація символів номерних знаків (LPCS)

    Цей набір даних оцінює сегментацію номерних знаків (LPCS) за допомогою 101 денного зображення автомобіля.

  21. 105,941 12 зображення природних пейзажів, дані OCR XNUMX мовами

    Дані містять 12 мов (6 азіатських, 6 європейських) і різні природні сцени та ракурси. Він містить обмежувальні рамки на рівні рядків і транскрипцію тексту. Це корисно для багатомовних завдань OCR.

  22. Набір зображень індійської вивіски

    Набір даних містить індійські зображення дорожніх знаків для класифікації та виявлення, зроблені за різних погодних умов удень, ввечері та вночі.

Це були деякі з найкращих наборів даних із відкритим вихідним кодом для навчання моделей ML для програм виявлення тексту. Вибір того, що відповідає потребам вашого бізнесу та програми, може зайняти час і зусилля. Однак ви повинні поекспериментувати з цими наборами даних, перш ніж вибрати відповідний.

[Читайте також: Інфографіка OCR – визначення, переваги, проблеми та випадки використання]

Щоб допомогти вам просунутися до надійної та ефективної програми виявлення тексту, Shaip – ​​високопоставлений постачальник технологічних рішень. Ми використовуємо наш технічний досвід для створення настроюваних, оптимізованих і ефективних наборів даних для навчання OCR для різних проектів клієнтів. Щоб повністю зрозуміти наші можливості, зв’яжіться з нами сьогодні.

Соціальна Поділитися