10 октября в МЦИИР прошел семинар "MediaNetRats или как работать с данными из Telegram?"
В рамках семинара была представлена база данных всех публичных каналов Telegram, которая включает информацию о постах, текстах, просмотрах, подписчиках, языке, на котором пишут авторы, политической ориентации каналов и других метаданных.
В рамках семинара была представлена база данных всех публичных каналов Telegram, которая включает информацию о постах, текстах, просмотрах, подписчиках, языке, на котором пишут авторы, политической ориентации каналов и других метаданных.
На семинаре в МЦИИР выступили стажеры-исследователи Aртеми Артивуа и Григорий Кирюхов. Они рассказали о том, какие данные Телеграм доступны и как можно с ними работать. Артеми и Григорий разработали систему, которая позволяет в реальном времени отслеживать изменения в контенте каналов, автоматически обновлять базу данных, сохранять удалённые посты и фиксировать динамику активности. В отличие от аналогов в данном проекте возможен полный доступ к данным через API для некоммерческого использования и применены технологии обработки естественного языка (NLP) для автоматического извлечения информации о каналах.
В продолжение встречи состоялась оживленная дискуссия о работе с данными и из других социальных сетей в разном формате. Молодые исследователи и сотрудники центра обменялись идеями о том, как эти данные могут быть использованы в научных работах.