Компания Google запустила бета-версию Dataset Search — поискового сервиса, который позволяет находить наборы данных — датасеты — по всей сети. Сервис, во многом напоминающий Google Scholar, также предоставляет полное описание баз данных и сильно облегчает процесс их использования.
Открытые сервисы, предоставляющие данные, важны для многих целей: научных исследований, машинного обучения или систематизации информации. Один из крупных подобных сервисов, к примеру, — сайт Kaggle; кроме того, свои датасеты обычно предоставляют научно-исследовательские лаборатории и крупные организации, такие как Facebook.
Для того, чтобы найти релевантный датасет, однако, приходится пользоваться обычными поисковыми системами, что может быть не очень удобно. Google решила облегчить эту задачу, разработав Dataset Search — специализированный сервис для поиска датасетов по всей сети. Он напоминает Google Scholar — сервис компании для поиска научных статей.
Особенность сервиса в том, что для каждого датасета доступна полная информация: дата создания базы, ее размер, краткое описание, ссылка на источник, а также количество научных статей, в которых датасет был использован. Разработчики сервиса стремились к стандартизированному описанию данных, предложенных командой schema.org.
Помимо технических датасетов Dataset Search также позволяет искать и данные по социальным наукам. Пока что сервис работает в бета-режиме, опробовать его можно по ссылке.
Разнообразие и объемы использованных для обучения компьютерных алгоритмов данных могут сильно повлиять на результат их работы. Недавно это хорошо продемонстрировали ученые из MIT: они научили нейросеть расшифровывать пятна Роршаха, а для обучения использовали цитаты из темы Reddit, посвященной разговорам о смерти. В результате нейросеть стала выдавать ответы, напоминающие мысли психопата.
Иллюстрация к статье:
Обсуждение