Сбор и разметка данных для машинного обучения

Собираем и размечаем данные любых типов — изображения, видео, речь, текст — для создания и совершенствования ваших решений на основе ИИ.

Вам больше не нужно осваивать сложные платформы для разметки данных, общаться с крауд-разметчиками и самостоятельно проверять данные.

Оказываем услуги по сбору и разметке тренировочных ML-данных под ключ

Изображения

Разметка и классификация данных
Классификация, разметка bounding box

Текст

Классификация, named entity recognition (NER)

Видео

Речь

Распознавание и обнаружение объектов, классификация
Расшифровка на 150+ языках, разметка тайм-кодами
Тестирование

Тестирование ASR

Юзабилити тесты

Images

Speech

Videos

Работаем по всему миру
Сергей Кузнецов, CEO
Берем на себя все заботы по сбору и разметке данных, чтобы вы могли сосредоточиться на внедрении продуктов и решений на основе ИИ.

Почему Zapisano?

Быстрые старт
и масштабирование

Время — деньги: чем быстрее вы получите первые результаты, тем быстрее сможете проверить работоспособность модели и перейти к следующей итерации.
Мы располагаем как собственной инхаус-командой, так и доступом к международному пулу разметчиков, насчитывающему более миллиона человек. Это позволяет быстро начать проект, а затем легко масштабировать команду на лету.

Детали под контролем

Менеджеры проектов и специалисты по сбору и разметке работают в тесной связи, чтобы не упускать важных деталей.
При составлении ТЗ всегда начинаем с обсуждения конечной цели клиента. Это позволяет спроектировать оптимальный процесс сбора и разметки, гибко управлять бюджетом и контролировать сроки выполнения проекта.
Clockwork
Saturn

Глубокий и разносторонний опыт

Мы выполнили более 360 проектов в сфере сбора и разметки данных: от простой классификации до сложнейших задач по сбору данных «в полях» и многоэтапной разметке.
Понимаем все тонкости и проблемные места разных типов проектов. Для выполнения сложных и уникальных задач собираем выделенные команды разметчиков, тестировщиков и аналитиков.
Swiss knife

Кейсы

Разметка речи
Расшифровали и разметили тайм-кодами 2 700 часов видеозаписей стримов на четырех языках для обучения сервиса синхронного видеоперевода AliExpress.
Сбор речевых данных
Собрали12 800 часов речевых данных (более 5,7 млн фраз) на пяти языках для разработки голосового помощника для вьетнамского автопроизводителя VinFast.
Сбор изображений
Собрали и разметили 25 000 изображений содержащих текст объектов на трех языках в 15 странах для создания функции Live Text в iOS от Apple.
  • Оценка релевантности поисковых запросов музыкального сервиса

    Аннотаторы-эксперты прослушивают музыкальные треки и оценивают их релевантность поисковым запросам пользователей, выставляя или корректируя оценки модели ранжирования. Полученные оценки используются для того, чтобы улучшить модель и повысить степень соответствия выдачи ожиданиям пользователей сервиса.

    Клиент: Онлайн-сервис потокового аудио для прослушивания музыки, аудиокниг, подкастов (Россия)
    Объем: 500 тысяч строк
    Тип задачи: ранжирование, оценка соответствия
  • Атрибутивная разметка рекламных креативов для аналитической системы

    Аннотаторы просматривают рекламные креативы в различных форматах (видео, аудио, баннеры и билборды) и заполняют атрибутивную таблицу, присваивая каждому креативу значения по 15+ параметрам. На основе размеченных данных рекламное агентство анализирует эффективность креативов и помогает своим клиентам принимать стратегические решения.

    Клиент: Крупное агентство рекламной аналитики (Россия)
    Объем: 10 000 креативов с 15+ атрибутами
    Тип задачи: классификация, атрибутивная разметка
  • NER-разметка товарных запросов для e-commerce-аналитики

    Разметили названия товаров на уровне токенов с присвоением каждому токену соответствующей сущности (бренд, модель, цвет, объём памяти и т. д.) в формате задачи извлечения именованных сущностей (Named Entity Recognition). Размеченные данные используются в маркетинговой аналитической системе для структурирования товарной информации и поддержки решений по рекламе и рекомендациям.

    Клиент: Крупная международная e-commerce-платформа (США)
    Тип задачи: NER-разметка (Named Entity Recognition)
  • Расшифровка и классификация эмоций сотрудников колл-центра

    Транскрибировали записи разговоров сотрудников колл-центра и классифицировали эмоции по 5 классам с расстановкой специальных тегов по тексту. Данные использовались для разработки системы распознавания эмоций сотрудников.

    Клиент: Сервис для аренды, покупки и оценки стоимости недвижимости (Россия)
    Объем: 600 часов
    Длительность фрагмента: 4 минуты, сегментация по предложениям: 10-15 секунд
  • Панорамная видеосъемка интерьеров квартир

    Нашли и произвели видеосъемку интерьеров 20 квартир в трех классах (одно-, двух- и трехкомнатных) камерой с обзором 360 градусов. Материалы использовались для разработки MVP системы создания 3D-моделей жилых помещений по одному видео.

    Клиент: Инновационный департамент банка (Россия)
    Объем: 20 квартир
  • Расшифровка переговоров железнодорожных диспетчеров

    Транскрибировали записи переговоров железнодорожных диспетчеров для идентификации внештатных ситуаций.

    Клиент: Оператор железнодорожных перевозок (Россия)
    Объем: 150 часов
    Длительность фрагмента: 30 секунд, сегментация по фразам: 5-10 секунд
  • Расшифровка переговоров менеджеров по бронированию

    Транскрибировали записи переговоров сотрудников отдела бронирования билетов для контроля ошибок и мониторинга конфликтных ситуаций.

    Клиент: Авиаперевозчик (Россия)
    Объем: 100 часов
    Длительность фрагмента: 5 минут, сегментация по фразам: 5-10 секунд


  • Расшифровка диалогов консультантов с клиентами

    Дословно и с идентификацией по голосам транскрибировали записи разговоров специалистов сервисного отдела сети магазинов бытовой техники, записанных на аудиобейджи.

    Клиент: Отдел ремонта ритейлера бытовой техники (Россия)
    Объем: 300 часов
    Длительность фрагмента: 5 минут, сегментация по предложениям: 10-15 секунд
  • Видеосъемка достопримечательностей в Лондоне

    Произвели видеосъемку Тауэрского моста, улицы Пикадилли и Трафальгарской площади в Лондоне на специальное оборудование по техническим гайдлайнам клиента. Видео использовались для разработки приложения дополненной реальности.

    Клиент: Инновационный департамент банка (Россия)

Частые вопросы
Какие виды услуг по сбору и разметке данных вы предоставляете?
Мы предоставляем полный спектр услуг по сбору и разметке данных для обучения и улучшения ML-алгоритмов. Ниже — основные направления нашей работы.

📷 Разметка данных для компьютерного зрения

Сегментация объектов
Разметка поверхности изображения с точным выделением объектов и фона, включая отдельную сегментацию объектов одного класса.

Прямоугольники (bounding boxes)
Быстрая и эффективная разметка целевых объектов с помощью ограничивающих рамок.

Полигоны
Точная разметка контуров объектов сложной формы.

Точки (landmark annotation)
Разметка ключевых ориентиров — например, на лицах, телах, предметах.

Маски (mask annotation)
Создание масок объектов для задач instance segmentation, на изображениях и в видео.

Трекинг объектов на видео
Пометка и отслеживание объектов на видеокадрах (tracking).

Классификация изображений и объектов
Присвоение изображению или объекту одной или нескольких категорий.



📝 Разметка текстов и данные для NLP

Оценка релевантности
Анализ и оценка качества поисковой выдачи, улучшение алгоритмов ранжирования.

Классификация текстов
Разметка текстов по тематикам, признакам или пользовательским сценариям.

Анализ тональности
Разметка эмоциональной окраски высказываний (позитивная / негативная / нейтральная).

Классификация намерений
Разметка пользовательских запросов для диалоговых систем, чат-ботов, голосовых помощников.

Распознавание именованных сущностей (NER)
Выделение в тексте имен, названий, дат и других значимых сущностей.


🔊 Работа со звуком и речью

Транскрибация (расшифровка) аудио в текст
Перевод аудиофайлов в текст, с указанием спикеров и временных меток.

Классификация аудио
Разметка аудиофрагментов по темам, эмоциям или событиям.

Разметка фраз тайм-кодами (контейнирование)
Разметка аудиофайлов точными временными метками по словам или предложениям.


Помимо разметки, мы предоставляем услуги по сбору и предварительной обработке данных различного типа — от живой речи до изображений, видео и текстов.


📦 Сбор и обработка данных

Запись речи
Организация сбора голосовых записей от людей с разными тембрами, акцентами и в разных условиях (шум, тишина, улица и др.).

Сбор медиа-коллекций
Организация сбора фото- и видеоданных по заданным критериям и сценариям.

Контент-модерация
Проверка и фильтрация пользовательского контента по заданным критериям (например, на соответствие политике платформы или законам страны).

OCR-разметка для сканов
Распознавание текста на отсканированных документах и изображениях.

Очистка и структурирование данных (data processing)
Приведение сырых данных в пригодный для машинного обучения формат: удаление шума, нормализация, структурирование.

Валидация решений моделей
Ручная проверка и подтверждение гипотез, принятых ML-моделями — например, оценка предсказаний или классификаций.

Тестирование и сравнение моделей
Создание контрольных выборок и сценариев для сравнения разных моделей или версий одной модели.

Все работы выполняются в соответствии с требованиями проекта, с возможностью масштабирования, быстрой адаптации под новые задачи и строгим контролем качества.

Если вам требуется кастомная разметка или нестандартный сбор данных — свяжитесь с нами, и мы подберем решение под ваш проект.
Как определяется цена сбора и разметки единицы данных?
Цену сбора / разметки единицы данных по каждому проекту мы определяем по результатам обработки пилотного датасета: замеряем общее время на его сбор или разметку и рассчитываем цену за единицу данных, исходя из почасовой ставки разметчиков требуемой квалификации, расчетного количества проектных менеджеров и сотрудников ОКК. При необходимости подключаем специалистов узкого профиля и консультируем по тому, как оптимальнее всего решить вашу задачу.

Преимущество такого подхода — гибкое ценообразование, привязанное к реальной сложности задачи. Команда собирается под проект в соответствии с необходимыми компетенциями: в результате бюджет не перерасходуется на простые (чаще всего типовые) задачи, а более сложные проекты получают больше ресурса и внимания для обеспечения высокого качества.
Какие вы контролируете качество данных?
В наши процессы сбора и разметки данных внедрены регламенты контроля качества, включающие как автоматические проверки (quality gates), так и ручную оценку (human-in-the-loop) на разных этапах выполнения задач. Описанные в регламенте процедуры помогают своевременно обнаруживать и исправлять ошибки и тем самым обеспечивать стабильно высокое качество результатов и соответствие требованиям ТЗ клиента в течение всего времени работы над проектом.
Какие метрики вы отслеживаете для оценки работы аннотаторов?
Мы контролируем качество разметки и ход проекта с помощью различных KPI и QA-метрик, таких как:

  • точность и полнота разметки;
  • уровень ошибок (ER);
  • консистентность (согласованность) разметки между специалистами, работающими над одним проектом;
  • скорость разметки (в количестве размеченных единиц в час, день или неделю);
  • соблюдение сроков выполнения планов, а также других в зависимости от специфики проекта.

В зависимости от масштаба проекта мы собираем и анализируем метрики вручную (для небольших задач) или с помощью специализированных инструментов (для крупных проектов) — например, дашбордов в Label Studio. Автоматические инструменты позволяют не тратить дополнительное время на построение отчетов и отслеживать показатели в режиме реального времени.
Как выглядит система контроля за аннотаторами?
Система контроля включает многоуровневый мониторинг, в ходе которого мы используем:

  • регулярные выборочные проверки корректности разметки руководителями групп (старшими специалистами);
  • кросс-валидацию (выполнение разметки с перекрытием) на отдельных фрагментах датасетов;
  • проверку через сравнение разметки аннотаторов с золотым стандартом (особенно актуально на этапе обучения команды инструкциям по новым задачам);
  • автоматизированные системы проверки.
Как вы обеспечиваете безопасность данных?
Мы серьезно относимся к вопросам защиты данных и обеспечиваем строгое соблюдение стандартов безопасности на всех проектах.

Если проект выполняется в контуре клиента, мы следуем предоставленным протоколам и стандартам безопасности, включая управление доступом и защиту данных в инфраструктуре клиента. Когда работаем в собственном контуре, все данные обрабатываются на защищенных серверах с ограниченным доступом для наших сотрудников.

Мы стремимся обеспечить соответствие наших бизнес-процессов лучшим практикам безопасности, включая шифрование данных при передаче и хранении и соблюдение минимизации доступа к ним (к данным имеют доступ только те люди, которым они необходимы для выполнения задач). Каждый аннотатор перед началом сотрудничества подписывает соглашение о неразглашении (NDA).
В чем преимущества вашего менеджмента проектов?
Одно из ключевых преимуществ работы с нами — проактивный подход клиентских и аккаунт-менеджеров.

Довольно часто по мере разработки ML-решений изначальное ТЗ претерпевает изменения, и на это необходимо гибко реагировать — адаптировать процессы, обновлять гайдлайны и инструкции, а иногда и полностью пересматривать подход к задаче и методы (особенно это актуально для задач по сбору данных). Наши менеджеры регулярно инициируют встречи с клиентом для того, чтобы обсудить ключевые метрики, возникающие проблемы или изменения в ходе реализации проекта.

Кроме того, мы мониторим обратную связь от клиентов и на основе выявленных рисков заблаговременно предлагаем потенциальные решения. Для нас крайне важно быть в постоянном контакте с клиентом и обеспечивать полную, регулярную и прозрачную коммуникацию — особенно на этапе запуска проекта, когда мы изучаем требования клиента к результатам и синхронизируем видение.
Какие услуги вы не предоставляете?
Для проектов по сбору данных оффлайн у нас есть ограничения по минимальному объему проекта. Также выполнение таких проектов зависит от технического задания и локации, в которой необходимо провести сбор данных.
Отправить запрос
Пожалуйста, заполните поля ниже — мы свяжемся с вами для обсуждения проекта.
Загрузите файл
Прикрепите ТЗ, инструкцию, пилотный датасет, золотой стандарт или любые другие файлы