Новости о развитии машинного обучения появляются достаточно часто. Тем не менее совершенствовать разработки в данной сфере не так уж и просто. Чтобы улучшать алгоритмы, которые позволяют предугадывать данные, необходима большая база идентифицированной информации. За создание такого источника взялась компания Google, которая представила два архива Open Images и YouTube8-M, содержащих данные с аннотацией для тренировки машинного обучения.
База Open Images была разработана Google в сотрудничестве с университетом Карнеги-Меллон и Корнелльским университетом. За основу были взяты 9 миллионов записей, которые были прокомментированы компьютером, прежде чем они прошли проверку человеком. Google заявляет, что базы хватит для создания нейронной сети "с нуля", поэтому все желающие могут создать лучшую версию Google Photos или аналог редактора Prisma, который также использует машинное обучение.
YouTube8-M хранит 8 миллионов видео общей длительностью 500 000 часов. Группа разработчиков отметила, что создание проекта стало большим прорывом в сравнении с уже имеющимися базами видео. Интересно, что с помощью YouTubeM-8 также извлекали изображения для Open Images.
Источник: engadget.com