Сбор и разметка данных для машинного обучения

Собираем и размечаем изображения, видео, речь, аудио и тексты для обучения, тестирования и улучшения ML-моделей и AI-продуктов.

Оказываем услуги по сбору и разметке тренировочных ML-данных под ключ

Берем на себя организацию сбора и разметки данных: собираем команду, настраиваем процесс, контролируем качество и передаем результат в согласованном формате.
Работаем как с видами разметки ниже, так и с другими задачами по ТЗ клиента.
01
Computer Vision

Разметка данных для компьютерного зрения

01
Bounding boxes

Разметка объектов прямоугольными рамками для задач детекции и обучения моделей компьютерного зрения.

02
Полигоны, маски и сегментация

Точное выделение объектов, контуров и областей изображения для semantic и instance segmentation.

03
Точки / landmark annotation

Разметка ключевых ориентиров на лицах, телах, предметах и других объектах.

04
Классификация изображений и объектов

Присвоение изображению или объекту одной или нескольких категорий.

02

Разметка текстов и данные для NLP

01
Классификация текстов

Разметка текстов по темам, признакам, категориям или пользовательским сценариям.

02
NER / распознавание именованных сущностей

Выделение в тексте имен, названий, дат, организаций и других значимых сущностей.

03
Оценка релевантности

Оценка качества поисковой выдачи, рекомендаций, ответов моделей и результатов ранжирования.

04
Тональность и намерения

Разметка эмоциональной окраски и пользовательских намерений для NLP-моделей, чат-ботов и голосовых помощников.

03

Разметка видео и событий

01
Разметка видео тайм-кодами

Фиксация временных меток для сцен, событий, действий и других значимых фрагментов видео.

02
Детекция и трекинг объектов

Обнаружение, маркировка и отслеживание объектов в видеопотоке.

03
Разметка событий и действий

Классификация видеосцен по типу происходящего события, действия или сценария.

04
Speech

Работа со звуком, речью и музыкой

01
Транскрибация аудио в текст

Расшифровка аудио и речи в текст с указанием спикеров и временных меток.

02
Разметка тайм-кодами

Разметка фраз, слов или реплик точными временными метками.

03
Классификация аудио

Разметка аудиофрагментов по темам, эмоциям, событиям или другим признакам.

Сергей Кузнецов, CEO
Помогаем пройти путь от сырого датасета и чернового ТЗ до проверенной разметки, которую можно использовать для обучения и оценки модели.

Почему Zapisano?

Быстрый старт
и масштабирование

Запускаем проект с пилотного датасета: быстро погружаемся в ТЗ, проверяем процесс на реальных данных и фиксируем правила разметки.

Затем масштабируем команду под требуемый объем, сроки и требования к качеству — от небольшой выделенной группы до распределенной команды разметчиков.

Детали под контролем

В сложных задачах важны не только классы и форматы, но и спорные случаи: как трактовать пограничные примеры, что считать ошибкой, когда передавать вопрос заказчику.

Мы фиксируем эти правила перед масштабированием и сопровождаем проект так, чтобы разметчики, менеджер и контроль качества работали по одному стандарту.
Clockwork
Saturn

Универсальный подход к разным задачам

Работаем с разными типами проектов: от простой классификации до многоэтапной разметки, сбора данных, оценки релевантности и валидации результатов моделей.

Для каждого проекта используем одну понятную логику расчета: на пилоте измеряем фактическое время работы специалистов и переводим его в цену за единицу данных с учетом менеджмента и контроля качества.
Swiss knife

Клиенты о работе с нами

Надежда Глебко,
стриминговый сервис Zvuk.com
«Записано» помогает нам в разметке музыкального и немузыкального контента.
Задачи выполняются точно в срок, команда внимательно относится к деталям и быстро реагирует на новые требования.
Мы делегировали Zapisano задачу по разметке рекламных креативов в рамках конкурентного анализа рынка. При передаче разметки на аутсорс нам было крайне важно сохранить ее высокую точность и мы рады, что этого удалось достичь.
Анна Русова, рекламное агентство Mera (by Okkam)

Наши проекты

Разметка речи
Расшифровали и разметили тайм-кодами 2 700 часов видеозаписей стримов на четырех языках для обучения сервиса синхронного видеоперевода AliExpress.
Сбор речевых данных
Собрали 12 800 часов речевых данных (более 5,7 млн фраз) на пяти языках для разработки голосового помощника для вьетнамского автопроизводителя VinFast.
Сбор изображений
Собрали и разметили 25 000 изображений объектов с текстом на трех языках в 15 странах для создания функции Live Text в iOS от Apple.
  • Оценка релевантности поисковых запросов музыкального сервиса
    Аннотаторы-эксперты прослушивают музыкальные треки и оценивают их релевантность поисковым запросам пользователей, выставляя или корректируя оценки модели ранжирования. Полученные оценки используются для того, чтобы улучшить модель и повысить степень соответствия выдачи ожиданиям пользователей сервиса.

    Клиент: Онлайн-сервис потокового аудио для прослушивания музыки, аудиокниг, подкастов (Россия)
    Объем: 500 тысяч строк
    Тип задачи: ранжирование, оценка соответствия
  • Атрибутивная разметка рекламных креативов для аналитической системы
    Аннотаторы просматривают рекламные креативы в различных форматах (видео, аудио, баннеры и билборды) и заполняют атрибутивную таблицу, присваивая каждому креативу значения по 12+ параметрам. На основе размеченных данных рекламное агентство анализирует эффективность креативов и помогает своим клиентам принимать стратегические решения.

    Клиент: Крупное агентство рекламной аналитики (Россия)
    Объем: 10 000 креативов с 12+ атрибутами
    Тип задачи: классификация, атрибутивная разметка
  • Разметка видеозаписей боксерских боев
    Разметили видеозаписи 20 раундов, снятых с трех камер, по финализированному ТЗ: аннотаторы покадрово просмотрели видео и тэгами отметили необходимые объекты и события в инструменте клиента. Разметка используется для обучения и проверки модели компьютерного зрения, которая анализирует спортивные видеозаписи и распознает действия боксеров в кадре.

    Клиент: Стартап в сфере ИИ
    Объем: 120 000 кадров
    Тип задачи: разметка видео, покадровая аннотация
  • NER-разметка товарных запросов для e-commerce-аналитики
    Разметили названия товаров на уровне токенов с присвоением каждому токену соответствующей сущности (бренд, модель, цвет, объём памяти и т. д.) в формате задачи извлечения именованных сущностей (Named Entity Recognition). Размеченные данные используются в маркетинговой аналитической системе для структурирования товарной информации и поддержки решений по рекламе и рекомендациям.

    Клиент: Крупная международная e-commerce-платформа (США)
    Тип задачи: NER-разметка (Named Entity Recognition)
  • Расшифровка и классификация эмоций сотрудников колл-центра
    Транскрибировали записи разговоров сотрудников колл-центра и классифицировали эмоции по 5 классам с расстановкой специальных тегов по тексту. Данные использовались для разработки системы распознавания эмоций сотрудников.

    Клиент: Сервис для аренды, покупки и оценки стоимости недвижимости (Россия)
    Объем: 600 часов
    Длительность фрагмента: 4 минуты, сегментация по предложениям: 10−15 секунд
  • Панорамная видеосъемка интерьеров квартир
    Нашли и произвели видеосъемку интерьеров 20 квартир в трех классах (одно-, двух- и трехкомнатных) камерой с обзором 360 градусов. Материалы использовались для разработки MVP системы создания 3D-моделей жилых помещений по одному видео.

    Клиент: Инновационный департамент банка (Россия)
    Объем: 20 квартир
  • Расшифровка переговоров железнодорожных диспетчеров
    Транскрибировали записи переговоров железнодорожных диспетчеров для идентификации внештатных ситуаций.

    Клиент: Оператор железнодорожных перевозок (Россия)
    Объем: 150 часов
    Длительность фрагмента: 30 секунд, сегментация по фразам: 5−10 секунд
  • Расшифровка переговоров менеджеров по бронированию
    Транскрибировали записи переговоров сотрудников отдела бронирования билетов для контроля ошибок и мониторинга конфликтных ситуаций.

    Клиент: Авиаперевозчик (Россия)
    Объем: 100 часов
    Длительность фрагмента: 5 минут, сегментация по фразам: 5−10 секунд

  • Расшифровка диалогов консультантов с клиентами
    Дословно и с идентификацией по голосам транскрибировали записи разговоров специалистов сервисного отдела сети магазинов бытовой техники, записанных на аудиобейджи.

    Клиент: Отдел ремонта ритейлера бытовой техники (Россия)
    Объем: 300 часов
    Длительность фрагмента: 5 минут, сегментация по предложениям: 10−15 секунд
  • Видеосъемка объектов в Лондоне
    Произвели видеосъемку достопримечательности столицы Великобритании — Тауэрского моста, улицы Пикадилли и Трафальгарской площади — на специальное оборудование по техническим гайдлайнам клиента. Видео использовались для разработки приложения дополненной реальности.

    Клиент: Инновационный департамент банка (Россия)

Отправить заявку

Пожалуйста, заполните поля ниже — мы свяжемся с вами для обсуждения проекта.
Прикрепить файлы
Сюда можно загрузить ТЗ, инструкцию, пилотный датасет, образец разметки и другие файлы.
Частые вопросы
Подробнее о сборе и разметке данных
Сколько стоит разметка данных?
Стоимость разметки данных зависит от типа данных, сложности ТЗ, объема проекта и требований к квалификации разметчиков и контролю качества.

Обычно мы рассчитываем цену по прозрачной процедуре через пилот: измеряем фактическое время работы специалистов и переводим его в стоимость одной единицы разметки.

Для большинства проектов мы организуем работу в три этапа:

1. Изучаем ТЗ и тестовые сэмплы, чтобы дать предварительную экспертную оценку: понять примерную вилку бюджета, сроки и сверить их с ожиданиями заказчика.

2. Если предварительная оценка подходит, мы запускаем небольшой оплачиваемый пилот. На пилоте специалисты детально разбирают техническое задание, размечают тестовый объем данных, согласуют результат с заказчиком, вносят корректировки и формируют «золотой стандарт» — эталон разметки, по которому дальше можно масштабировать работу.

В ходе пилота мы измеряем фактическое время, которое уходит на разметку одной единицы данных: строки, изображения, аудиофрагмента, видеофрагмента, объекта, класса или другой единицы проекта. Затем пересчитываем это время в стоимость единицы разметки. В итоговую цену входит не только работа исполнителя, но и работа клиентского и проектного менеджеров, контроль качества, налоги и прочие проектные расходы.

3. С учетом финализированных и согласованных параметров подписываем договор и запускаем основной датасет в работу.

Такой подход делает расчет прозрачным: цена привязана к реальной трудоемкости задачи, а не к абстрактному прайсу.
Что нужно для проведения пилота?
Для проведения пилота потребуются детальное ТЗ, примеры корректной разметки и небольшой репрезентативный датасет примерно на 1−2 часа работы специалиста. Хорошо, если в ТЗ также есть примеры ошибочной разметки и спорных случаев.

После выполнения пилота важна обратная связь от заказчика: какие ответы считать правильными, где нужны уточнения, какие спорные случаи встречаются в данных. На основе этой обратной связи мы финализируем ТЗ, формируем «золотой стандарт» разметки и рассчитываем цену разметки одной единицы данных для основного проекта.
Можете ли вы помочь с ТЗ для разметки данных?
Да. Если у вас есть задача и примеры данных, но нет готовой инструкции для разметчиков, мы можем помочь описать классы, правила разметки, спорные случаи и формат результата. Обычно финализируем ТЗ на пилоте: размечаем небольшой датасет, собираем вопросы, разбираем спорные случаи и вместе с заказчиком фиксируем рабочий стандарт или «золотой стандарт» разметки.
Как вы обеспечиваете безопасность данных?
Мы заранее обсуждаем с заказчиком, где и как будут обрабатываться данные: в инфраструктуре клиента или на нашей стороне. Если проект выполняется в контуре клиента, мы работаем по его правилам безопасности: используем выданные доступы, соблюдаем ограничения по скачиванию, хранению и передаче файлов.

Если данные обрабатываются на нашей стороне, мы ограничиваем доступ только тем сотрудникам, которые участвуют в проекте. Файлы не передаются лишним людям, доступы выдаются по необходимости, а каждый участник проекта подписывает NDA до начала работы.

Для проектов с чувствительными данными отдельно фиксируем требования до старта пилота: порядок хранения файлов, запрет на выгрузку данных, работу через VPN, обезличивание данных или выполнение разметки только в среде клиента.
В каких форматах вы передаете результат разметки?
Формат результата зависит от задачи и инструмента разметки. Обычно передаем данные в таблицах, JSON, CSV, COCO, YOLO, XML или в формате платформы клиента. Для пилота заранее согласуем структуру полей, названия классов, правила экспорта и пример итогового файла.
Можете ли вы работать в инструменте заказчика?
Да, можем работать в инструменте заказчика или предложить собственный процесс. Если у вас уже есть платформа, классы, инструкция и примеры разметки, мы подключаем команду к существующему пайплайну. Если процесса еще нет, помогаем подготовить пилот, уточнить ТЗ и выбрать удобный формат передачи данных.
Как вы контролируете качество разметки данных?
Качество разметки мы контролируем на нескольких уровнях: сначала уточняем ТЗ и примеры правильной разметки на пилоте, затем обучаем команду на этих примерах и дальше проверяем результат в процессе работы.

В зависимости от задачи используем выборочную проверку старшими специалистами, повторную разметку части датасета несколькими исполнителями, сравнение с «золотым стандартом», автоматические проверки формата и логики данных. Если в данных появляются спорные случаи, мы фиксируем их в инструкции и согласуем с заказчиком, чтобы вся команда работала по единым правилам.

Такой подход помогает не просто находить ошибки в конце проекта, а управлять качеством разметки во время работы.
Какие метрики качества вы отслеживаете?
Набор метрик зависит от типа данных и задачи. Обычно отслеживаем точность, полноту разметки, уровень ошибок, согласованность между разметчиками, скорость обработки единиц данных и соблюдение сроков.

Для проектов с эталонной выборкой можем сравнивать ответы разметчиков с «золотым стандартом». Для задач с несколькими исполнителями проверяем расхождения между специалистами. Для крупных проектов используем таблицы, отчеты или дашборды, чтобы видеть динамику качества и производительности по команде.

Метрики нужны не ради отчетности, а для управления проектом: они помогают понять, где требуется уточнить инструкцию, дообучить команду, усилить контроль качества или изменить процесс разметки.
Как устроена работа менеджера проекта?
Менеджер проекта отвечает за то, чтобы ТЗ, сроки, команда и контроль качества были связаны в один рабочий процесс. На старте он помогает уточнить требования, организует пилот, собирает вопросы от разметчиков и передает заказчику спорные случаи для согласования.

Во время основного проекта менеджер следит за ходом работ, объемами, сроками и обратной связью. Если Т З меняется, появляются новые типы данных или растет количество спорных случаев, менеджер обновляет инструкции, синхронизирует команду и заранее сообщает клиенту о рисках.

Для заказчика это означает, что у проекта есть ответственный человек, который держит контекст, следит за изменениями в ТЗ и помогает довести разметку до требуемого качества.
Какие проекты вы не берете в работу?
Мы не берем в работу проекты, по которым невозможно подготовить понятное, финализированное ТЗ, проверить качество результата или легально получить необходимые данные. Также у нас есть минимальный бюджет проекта как для сбора данных, так и для разметки.

Для офлайн-сбора данных дополнительно есть ограничения по локации, объему и техническому заданию. Возможность выполнения таких проектов мы оцениваем индивидуально: важно понимать, где планируется собирать данные, какие требования к участникам или объектам, какие нужны согласия и какой объем необходимо получить.