ВНУГ Интернет-исследования Руководитель: Олеся Кольцова Высшая школа экономики – Санкт-Петербург

Содержание

Слайд 2

О ВНУГе
ВНУГ вырос из проекта «Учитель-ученики», грант Научного фонда НИУ-ВШЭ 11040006, 2011-2012

О ВНУГе ВНУГ вырос из проекта «Учитель-ученики», грант Научного фонда НИУ-ВШЭ 11040006,
гг.
После получения гранта ЦФИ на 2012-2013 год преобразуется во временную лабораторию интернет-исследований
Участники:
Олеся Кольцова (руководитель)
Анастасия Кинчарова (сетевой анализ)
Кирилл Маслинский (анализ текстов)
Елизавета Терещенко (анализ текстов - стажер)
Юлия Павлова (анализ текстов – стажер)
Татьяна Ефимова (анализ текстов, администратор)
Сергей Кольцов (постановщик задач, математик)
Руслан Бахмудов (программист)
Виктория Сенева (сетевой анализ - стажер)
Алиса Баснарева (анализ текстов – волонтер)

Слайд 3

ЗАДАЧИ ЛАБОРАТОРИИ
выявление спектров мнений в сети по социально значимым темам, изучение структуры

ЗАДАЧИ ЛАБОРАТОРИИ выявление спектров мнений в сети по социально значимым темам, изучение
и динамики сообществ, характера распространения информации в сети, предикция социальной мобилизации через интернет
Разработка методов решения этих задач, в т.ч. адаптация матметодов, решение проблем сбора данных, создание баз данных

Слайд 4

МЕТОДЫ
Автоматизированные методы анализа текстов, основанные на подходе bag of words: кластеризация, выявление

МЕТОДЫ Автоматизированные методы анализа текстов, основанные на подходе bag of words: кластеризация,
тем (topic detection, topic modeling), sentiment analysis
Методы сетевого анализа сетей комментирования
*большие массивы данных

Слайд 5

ЗАДАЧИ ВНУГа
Доработка программного обеспечения Koltran BlogMiner
Продолжение выявления тематической структуры блогосферы с на

ЗАДАЧИ ВНУГа Доработка программного обеспечения Koltran BlogMiner Продолжение выявления тематической структуры блогосферы
основе Латентной Дирихле-аллокации (инструмент Stanford Topic Modelling Toolbox)
Адаптация методов sentiment analysis для выявления эмоциональной заряженности групп блогов.
Волонтерский проект: освещение протестов декабря 2011 – тексты и сообщества комментирования

Слайд 6

ДАННЫЕ

Сплошная закачка постов, комментариев и метаданных ЖЖ на основе собственного ПО Koltran

ДАННЫЕ Сплошная закачка постов, комментариев и метаданных ЖЖ на основе собственного ПО
Blogminer
На данный момент: несколько тестовых выборок за август – декабрь из топ-2000 блоггеров.

Слайд 7

Спасибо за внимание!
koltsova@hse.spb.ru
blogruresearch@gmail.com

Спасибо за внимание! koltsova@hse.spb.ru blogruresearch@gmail.com

Слайд 8

Дополнительные слайды

Дополнительные слайды

Слайд 9

UNIT OF SEMANTIC ANALYSIS

Entire blogs are multi-topical and can not be clusterized

UNIT OF SEMANTIC ANALYSIS Entire blogs are multi-topical and can not be
except by fuzzy clustering
Problem A: still much noise
Single posts are usually uni-topical and can be divided into strict clusters with low noise
Problem B: juxtaposing with SNA results
Populations of topic-relevant posts from each blog can be units to be fuzzily clusterized with low noise
Problem C: blogs with more posts will have lower coefficients of belonging to clusters than single-post blogs

Слайд 10

PROBLEM C

A

B

C

D

E

A: 50%;
E: 100%

PROBLEM C A B C D E A: 50%; E: 100%

Слайд 11

UNIT OF NETWORK ANALYSIS

Entire blogs: network is easily interpreted
Problem 1.1: uncomparable with

UNIT OF NETWORK ANALYSIS Entire blogs: network is easily interpreted Problem 1.1:
semantic clusters of posts
Problem 1.2: structure of intext and friending links in the Russian blogosphere (fusion of blogplatforms and social network platforms; platform dependence)
Posts: data comparable
Problem 2.1: too few links between posts
Problem 2.2: too many links to non-blog resources
Posts and comments: detects real conversational networks
Problem 3.1: star-like loosely connected subgraphs with unhomogeneous nodes and ties

Слайд 12

PROBLEM 3.1.

PROBLEM 3.1.

Слайд 13

SOLUTION & NEW PROBLEMS

A

B

C

D

E

Multiplex graph analysis is needed?

SOLUTION & NEW PROBLEMS A B C D E Multiplex graph analysis is needed?

Слайд 14

PROBLEM OF SUBGROUP / COMMUNITY DETECTION

Problem 1: choice of definition
Traditional (n-cliques /

PROBLEM OF SUBGROUP / COMMUNITY DETECTION Problem 1: choice of definition Traditional
n-clans, k-plexes / k-cores, LS-sets / λ-sets)
Definitions based on comparison with random graphs
Definitions based on vertex similarity
Problem 2: choice of algorithms
Problem 3: choice of software
It should work with large datasets
It should contain applicable algorythms