Яндекс открывает датасеты Толоки для исследователей

Толока — крупнейший источник размеченных людьми данных для задач машинного обучения.

Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях. Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.

Интересный факт: чем сложнее технология искусственного интеллекта, тем больше ей нужна помощь человека.

Люди размечают изображения по категориям:

  • чтобы натренировать компьютерное зрение;
  • люди оценивают релевантность страниц поисковым запросам;
  • люди преобразуют речь в текст, чтобы голосовой помощник научился понимать и говорить.

Человеческие оценки нужны машине, чтобы дальше она работала без людей и лучше людей. Раньше многие компании собирали такие оценки исключительно с помощью специально обученных сотрудников — асессоров. Но со временем задач в области машинного обучения стало слишком много, а сами задачи в массе своей перестали требовать особых знаний и опыта. Так появился спрос на помощь «толпы» (crowd). Но самостоятельно найти большое количество случайных исполнителей и работать с ними не каждому под силу. Краудсорсинговые платформы решают эту проблему.

Яндекс.Толока? (правильно произносить именно так, с ударением на последний слог) — одна из крупнейших в мире краудсорсинговых платформ. У нас более 4 млн зарегистрированных пользователей. Более 500 проектов каждый день собирают оценки с нашей помощью.

Приятный факт: в этом году на секции Data Labeling на конференции Data Fest все шесть докладчиков из разных компаний упоминали Толоку как источник разметки для своих проектов.

О применении Толоки в бизнесе уже много сказано. Сегодня мы поговорим о другом нашем направлении, которое считаем не менее полезным. Исследования в Толоке Краудсорсинг и вообще задача массового сбора человеческих разметок существует примерно столько же, сколько и промышленное применение машинного обучения. Это область, на которую во всех технологических компаниях тратятся огромные деньги. Но при этом почему-то именно она сильно недоинвестирована с точки зрения исследований: о работе с краудом, в отличие от других областей ML, относительно мало серьёзных исследований и статей. 

Мы бы хотели это изменить. Наша команда видит Толоку не только как инструмент для решения прикладных задач, но и как площадку для научных исследований в разных предметных областях. Публичные датасеты Толоки Мы хотим поддержать научное сообщество и привлечь исследователей в Толоку, поэтому начинаем публиковать наборы данных для некоммерческих, академических целей.

Они могут быть интересны исследователям разных направлений: здесь и чат-боты, и данные для тестирования моделей агрегации вердиктов толокеров, для лингвистических исследований, для задач компьютерного зрения.

Расскажем о них: Toloka Persona Chat RusДатасет из 10 тыс. диалогов поможет исследователям диалоговых систем отработать подходы к обучению чат-ботов. Мы подготовили его совместно с iPavlov — проектом лаборатории нейронных систем и глубокого обучения МФТИ, который проводит исследования в области разговорного искусственного интеллекта и разрабатывает DeepPavlov, открытую библиотеку для создания диалоговых ассистентов. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования.

Как собирались данные

На первом этапе с помощью пользователей Толоки мы собрали профили, содержащие сведения о человеке, его увлечениях, профессии, семье и событиях жизни, и отобрали те, что подходят для диалогов.

На втором этапе мы предложили участникам сыграть роль человека, описанного одним из таких профилей, и пообщаться друг с другом в мессенджере.

Цель диалога — узнать больше о собеседнике и рассказать о себе. Полученные диалоги проверили другие исполнители. Toloka Aggregation Relevance 2Датасет позволяет исследовать методы контроля качества в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок исполнителей, собранных на проекте «Релевантность (2 градации)» в 2016 году. Вы найдёте здесь как обезличенные оценки толокеров, так и эталонные оценки, которые помогут измерить качество ответов. Изучение этих данных позволит проследить, как мнение исполнителей влияет на качество итоговой оценки, какие методы агрегации результатов лучше использовать и сколько мнений нужно собрать, чтобы получить достоверный ответ.

Как собирались данные Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов:

«Релевантен»,

«Нерелевантен»,

«Не отображается».

Toloka Aggregation Relevance 5 Этот датасет такой же, как предыдущий, только оценки здесь собирались не по бинарной, а по пятибалльной шкале в проекте «Релевантность (5 градаций)». Датасет содержит более миллиона оценок. Как собирались данные Оценка документов по пяти градациям более сложная и требует большей квалификации. Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа:

«Витальный»,

«Полезный»,

«Релевантный +»,

«Релевантный –»,

«Нерелевантный».

Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов). У некоторых заданий в датасете не один, а несколько правильных ответов. Любой из таких ответов считается правильным. Точность по основным методам агрегации:  

Мнение большинства — 89,92%. 

Dawid-Skene — 90,72%. 

GLAD — 90,16%.

Lexical Relations from the Wisdom of the Crowd (LRWC)Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима).

Собран исследователем Дмитрием Усталовым в 2017 году. Как собирались данные Для исследования взято 300 наиболее употребляемых в современном русском языке существительных. С помощью тезаурусов (РуТез, RuWordNet) и автоматизированных методов образования гиперонимов (Watset, Hyperstar) получено 10?600 родо-видовых пар (типа «котёнок» — «млекопитающее»). Участникам исследования нужно было ответить на вопрос: «Правда ли, что котёнок — это разновидность млекопитающего?» Чтобы грамотно сформулировать вопрос, гиперонимы поставили в родительный падеж при помощи морфологического анализатора и генератора pymorphy2. Каждую пару разметили семь русскоязычных исполнителей старше 20 лет. По результатам, полученным после агрегации всех оценок, 4576 пар слов получили положительные ответы, а 6024 — отрицательные.

Интересно, что участники исследования оказались более единодушны в выборе отрицательного ответа, чем положительного. Human-Annotated Sense-Disambiguated Word Contexts for RussianВ датасете собрано 2562 контекстных значения 20 слов, представляющих наибольшее разнообразие смысловых значений. Исследование проведено Дмитрием Усталовым в 2017 году. Как собирались данные Участникам исследования демонстрировалось слово и пример его употребления в речи. Нужно было определить значение слова в контексте высказывания и выбрать один из вариантов ответа. Toloka Business ID RecognitionДля этого датасета мы подготовили 10 тыс. фотографий информационных табличек организаций и текстовый файл с номерами (ИНН и ОГРН), которые были указаны на табличке. Обучившись на этих данных, модель компьютерного зрения сможет распознавать последовательность цифр на изображении. Датасет предоставлен сервисом Яндекс.Справочник.

Как собирались данные? 

Сначала мы запустили задание в мобильном приложении Толоки: исполнителям предлагалось приехать по адресу, отмеченному на карте, найти организацию и сфотографировать её информационную табличку. Это и другие полевые задания помогают поддерживать актуальной информацию в Яндекс.Справочнике. Затем качество выполненных заданий проверили другие исполнители. Фотографии, на которых указаны ИНН и ОГРН, мы отправили на расшифровку. Толокеры перепечатали эти номера с фотографий, после чего мы обработали результаты и сформировали датасет. Toloka Aggregation Features Датасет содержит около 60 тыс. оценок в 1 тыс. заданий с правильными ответами почти для всех заданий. Исполнители классифицировали сайты по пяти категориям по наличию контента для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории. Выбрать и скачать датасеты можно по ссылке: https://toloka.yandex.ru/datasets/. Мы не планируем останавливаться на этом и призываем исследователей обратить внимание на краудсорсинг и рассказывать о своих проектах.

Источник: https://habr.com/ru/company/yandex/blog/458326/

Подпишись на наши статьи по этим направлениям

В блоге мы постоянно пишем на тему маркетинга, продвижения, разработки веб-сайтов, новых технологиях и много еще другого.