Описание исходной ситуации:
- существующие пайплайны обучения моделей заказчика долго обучаются;
- прирост качества моделей несет увеличение сложности моделей, а также увеличение времени работы и стоимости обучения модели;
- целевая задача использует личные данные клиентов.
Цели проекта:
- оценка эффективности существующих методов при переносе их на область целевой задачи;
- анонимизация данных методами оптимизации датасетов.
Решение MIL Team: проведение исследования в области Data Optimization с концентрацией на манипуляции с данными, аугментацией, дистиляцией данных (увеличение информативности отдельной картинки). Предоставление кода исследований и рекомендуемого пайплайна, ускоряющего процесс обучения модели.
Для построения модели были использованы: открытые датасеты изображений, использующиеся в публикациях.
Результаты проекта: under NDA
Заказчик: under NDA
Технологический стек: PyTorch, DVC, PyTorch Lightning