Когда мы создавали big data платформу MaximaTelecom STATMAxima для обработки данных Wi-Fi Московского метро и систему профилирования
абонентов, у нас практически не было источников данных для нее.
У нас не было данных, на основе которых система могла бы делать вывод о пользователях Wi-Fi.
Единственным источником данных были логи BIND DNS.
Для того, чтобы обучить систему предсказывать пол, возраст, интересы и уровень доходов пользователя, нам
пришлось
дополнительно собрать свой корпус данных.
Мы использовали открытые профили пользователей VK.com и ряд других источников.
Мы также научили систему определять, где пользователь живет, работает, проводит досуг и другие места интереса.
Об этом расскажем в другой раз.
На этой странице мы выкладываем обезличенные базы данных с публичной информацией о пользователях ВКонтакте и
инструменты для получения этих данных.
Обновление 06.11.2017
По запросу предоставляем данные, собранные в 2014 году. База в формате SQLite. В ней 208 130 605 записей.
206.6 GB на диске, 24.2 GB в заархивированном виде.
Скачайте
сэмпл БД - 1000 записей. Хотя по законам РФ мы не
обязаны обезличивать эти данные, мы убрали информацию об имени, фотографиях и номерах телефонов.
Для того, чтобы получить БД (это беплатно),
напишите
нам. Опишите проект, для которого будут использоваться данные.
На адреса академических учреждений будет выслана ссылка на полную БД (без удаленных полей).
Пример записей.
Мы продолжаем заниматься подготовкой материалов (актуальная БД с дополнительными полями и утилиты для сбора
данных). Оставьте свой имейл, чтобы мы сообщили вам, когда они станут доступны (или просто подпишитесь на один
из наших каналов):