Аналіз структурованих даних може допомогти в кращій діагностиці та догляді за пацієнтами. Однак аналіз неструктурованих даних може сприяти революційним медичним проривам і відкриттям.
Це суть теми, яку ми сьогодні обговоримо. Дуже цікаво спостерігати, що так багато радикальних досягнень у сфері технологій охорони здоров’я відбулося лише з 10-20% придатних для використання даних охорони здоров’я.
Статистика показує, що понад 90% даних у цьому спектрі є неструктурованими, що означає дані, які менш зручні для використання та важчі для розуміння, інтерпретації та застосування. Від аналогових даних, таких як рецепт лікаря, до цифрових даних у формі медичних зображень і аудіовізуальних даних, неструктуровані дані бувають різних типів.
Такі величезні масиви неструктурованих даних є домом для неймовірних ідей, які можуть пришвидшити розвиток охорони здоров’я на десятиліття. Незалежно від того, чи йдеться про допомогу у відкритті ліків від критично важких аутоімунних захворювань до даних, які можуть допомогти страховим компаніям охорони здоров’я в оцінці ризиків, неструктуровані дані можуть прокласти шлях до невідомих можливостей.
Коли такі амбіції є, інтерпретація та сумісність даних охорони здоров’я стають вирішальними. З суворими вказівками та дотриманням відповідність законодавству наприклад, GDPR і HIPAA, що стає неминучим деідентифікація медичних даних.
Ми вже розглянули велику статтю про демістифікацію структуровані дані охорони здоров'я та неструктуровані дані охорони здоров'я. Про це є спеціальна (читайте обширна) стаття деідентифікація медичних даних також. Ми закликаємо вас прочитати їх, щоб отримати цілісну інформацію, оскільки ця стаття буде спеціальною темою деідентифікація неструктурованих даних.
Проблеми деідентифікації неструктурованих даних
Як випливає з назви, неструктуровані дані не впорядковані. Він розкиданий за форматами, типами файлів, розмірами, контекстом тощо. Сам факт існування неструктурованих даних у формі аудіо, тексту, медичних зображень, аналогових записів тощо ще більше ускладнює розуміння ідентифікаторів персональної інформації (PII), що є важливим для деідентифікація неструктурованих даних.
Щоб дати вам уявлення про основні проблеми, ось короткий список:

- Контекстне розуміння – де зацікавленій стороні зі штучним інтелектом важко зрозуміти конкретний контекст, що стоїть за певною частиною чи аспектом неструктурованих даних. Наприклад, розуміння того, чи є ім’я назвою компанії, ім’ям особи чи назвою продукту, може стати причиною дилеми щодо того, чи слід його деідентифікувати.
- Нетекстові дані – де ідентифікація слухових або візуальних підказок для імен або ідентифікаційних даних може бути складним завданням, оскільки зацікавленій стороні, можливо, доведеться сидіти протягом багатьох годин відеоматеріалів або записів, намагаючись деідентифікувати критичні аспекти.
- Неоднозначність – це особливо вірно в контексті аналогових даних, таких як рецепт лікаря або запис про лікарню в реєстрі. Це може зробити деідентифікацію даних складним завданням, починаючи від рукописного тексту й закінчуючи обмеженнями вираження природною мовою.
Найкращі методи деідентифікації неструктурованих даних
Процес видалення ідентифікаційної інформації з неструктурованих даних суттєво відрізняється від деідентифікація структурованих даних але не неможливо. Завдяки систематичному та контекстному підходу потенціал неструктурованих даних може бути безперешкодно використаний. Давайте розглянемо різні способи цього досягти.

Редакція зображення: Це стосується даних медичних зображень і передбачає видалення ідентифікаторів пацієнтів і розмивання анатомічних посилань і частин із зображень. Вони замінюються спеціальними символами, щоб зберегти діагностичні функції та корисність даних зображень.
Зіставлення шаблону: Деякі з найпоширеніших ідентифікаційних даних, таких як імена, контактні дані та адреси, можна виявити та видалити за допомогою мудрості вивчення попередньо визначених шаблонів.
Диференціальна конфіденційність або порушення даних: це передбачає включення контрольованого шуму для приховування даних або атрибутів, які можна відстежити до особи. Цей ідеальний метод забезпечує не тільки деідентифікацію даних, але й збереження статистичних властивостей набору даних для аналізу.
Деідентифікація даних: Це один із найнадійніших і найефективніших способів видалення ідентифікаційної інформації з неструктурованих даних. Це можна реалізувати одним із двох способів:
- Контрольоване навчання – коли модель навчена класифікувати текст або дані як ідентифікаційну інформацію чи не ідентифікаційну
- Непідконтрольне навчання – коли модель навчена автономно виявляти закономірності в ідентифікації ідентифікаційної інформації
Цей спосіб забезпечує збереження конфіденційність пацієнта зберігаючи втручання людини для найбільш зайвих аспектів завдання. Зацікавлені сторони та постачальники даних у сфері охорони здоров’я, які використовують методи ML для деідентифікації неструктурованих даних, можуть просто мати процес перевірки якості за допомогою людини, щоб забезпечити справедливість, доречність і точність результатів.
Маскування даних: Маскування даних — це цифрова гра слів для деідентифікації даних охорони здоров’я, де конкретні ідентифікатори стають загальними або розпливчастими за допомогою спеціальних методів, таких як:
- Токенізація – передбачаючи заміну ідентифікаційної інформації на символи або маркери
- Узагальнення – шляхом заміни конкретних значень ідентифікаційної інформації на загальні/розпливчасті
- Перемішування – шляхом перемішування ідентифікаційних даних, щоб зробити їх неоднозначними
Однак цей метод має обмеження: за допомогою складної моделі чи підходу дані можна повторно ідентифікувати.
Аутсорсинг для гравців ринку
Єдино правильний підхід до забезпечення процесу о деідентифікація неструктурованих даних є герметичним, безпомилковим і дотримується вказівок HIPAA – передавати завдання надійному постачальнику послуг, наприклад Шаїп. Завдяки передовим моделям і суворим протоколам забезпечення якості ми гарантуємо людський нагляд за конфіденційністю даних завжди пом’якшується.
Будучи роками домінуючим підприємством на ринку, ми розуміємо критичність ваших проектів. Отже, зв’яжіться з нами сьогодні, щоб оптимізувати свої амбіції щодо охорони здоров’я за допомогою даних про охорону здоров’я, деідентифікованих Shaip.