Ассоциативная сеть понятий, образующихзапросы к Интернету

Содержание

Слайд 2

Резюме

В базе пользовательских запросов поисковиков Google и Яндекс выявлена обширная совокупность

Резюме В базе пользовательских запросов поисковиков Google и Яндекс выявлена обширная совокупность
сочиненных пар существительных. На их основе построена и описана ассоциативная сеть понятий, из которых часто формируются русскоязычные запросы к Интернету. Показано, что выявленные пары существительных представительно входят и в текстовые массивы Интернета. Исследована полученная ассоциативная сеть и составляющие ее понятия.

Слайд 3

Задачи данного сообщения

Описать имеющуюся коллекцию сочиненных именных пар до и после пополнения

Задачи данного сообщения Описать имеющуюся коллекцию сочиненных именных пар до и после
ее данными из Google и Яндекса;
Дать приближенную интерпретацию ряда характерных запросов в виде сочиненных пар, показав на примерах несводимость возникающих ассоциаций к семантическим связям типа WordNet
На основе статистических данных показать, что новые пары понятий встречаются и на сайтах Интернета, а потому могут считаться принадлежащими русскому языку в целом
Бегло описать созданную из компонентов сочиненных пар ассоциативную сеть понятий, которыми оперирует русскоязычный пользователь в запросах к Интернету
Проанализировать построенную сеть глубже, выявив понятия с максимальным количеством ассоциативных связей, вычленив и описав связные компоненты сети и др.

Слайд 4

Связи внутри сочиненных пар в прежней коллекции пар

Когипонимы в некой родовидовой иерархии (руки

Связи внутри сочиненных пар в прежней коллекции пар Когипонимы в некой родовидовой
и ноги, аксиомы и теоремы, труд и капитал, акушерство и гинекология);
Синонимы, квазисинонимы и повторы (траур и скорбь, горести и несчастья, тысячи и тысячи);
Антонимы, квазиантонимы, противоположные понятия и конверсивы (бедные и богатые, актив и пассив, Бог и дьявол, купля и продажа, действие и противодействие);
Парные названия и исторически связанные имена (Босния и Герцеговина, Адам и Ева).
Редко: соучастники некой ситуации (писатель и читатели, закон и порядок, кожа и косметика) или понятия, связанные причинно-следственными связями (война и разруха, преступление и наказание, штормы и наводнения).

Слайд 5

Методика пополнения коллекции

Для пар Хi и Yi исходной коллекции (0-й версии) делается

Методика пополнения коллекции Для пар Хi и Yi исходной коллекции (0-й версии)
попытка найти все новые пары Хi и ? и Yi и ? в БДЗ. Этим создается 1-я версия.
Для пар Хi и Yi 1-й версии делается попытка найти все новые пары Yi и ? Этим создается 2-я версия.
Для пар Хi и Yi 2-й версии делается попытка найти все новые пары Yi и ? Этим создается 3-я версия. …………………………………………..
Проверяются и отдельные случаи вхождения в основные массивы Интернета пар «и Хi »

Слайд 6

Примеры связей внутри новых сочиненных пар

Запрос X и цены эквивалентен предикату цены(Х)?

Примеры связей внутри новых сочиненных пар Запрос X и цены эквивалентен предикату
(Но: цены и комплектация / наличие / скидки / ценообразование)
При Y = беременность или здоровье запрос представим в виде влияние(X,Y)?
При Х или Y = СМИ запрос представим симметрич-ным предикатом взаимодействие(X,Y)?
При Х = йога, Y = православие / христианство / буддизм имеем симметричный предикат совместимость(йога,Y)?
Пара ангина и керосин предполагает структуру с двумя вложенными предикатами: эффективность(лечение(ангина, керосин))?

Слайд 7

Статистика образцов запросов и ответов VQ – число запросов, VS – число прямых

Статистика образцов запросов и ответов VQ – число запросов, VS – число
ответов, VF – число косвенных ответов, все в тысячах

Сочиненная пара VQ VS VF
беременность и роды 1470.0 1380.0 1720.0
беременность и простуда 219.0 249.0 263.0
беременность и компьютер 784.0 99.2 834.0
беременность и месячные 271.0 201.0 251.0
беременность и курение 494.0 52.0 499.0
беременность и питание 1450.0 37.8 1470.0
беременность и грипп 460.0 258.0 593.0
беременность и молочница 171.0 125.0 163.0
здоровье и красота 99700.0 2110.0 144000.0
здоровье и материнство 108.0 118.0 195.0
здоровье и спорт 315000.0 173.0 261000.0
здоровье и комфорт 915.0 178.0 926.0
здоровье и здоровый образ жизни 1960.0 81.6 1180.0
здоровье и долголетие 243000.0 40.1 310000.0
здоровье и окружающая среда 558.0 121.0 426.0

Слайд 8

Соотношения статистик в базе данных запросов и в Интернете

Сопоставление векторов статистик велось

Соотношения статистик в базе данных запросов и в Интернете Сопоставление векторов статистик
по известной формуле косинуса
что дало
СOS(VQ,VF) = 0,95 - вектора БДЗ и косвенных ответов коллинеарны
СOS(VS,VQ) = 0,26 - вектор прямых ответов идет
СOS(VS,VF) = 0,27 - под углом к векторам БДЗ и косвенных ответов

Слайд 9

Наша ассоциативная сеть - это

неориентированный граф с вершинами, помеченными понятиями, входящими

Наша ассоциативная сеть - это неориентированный граф с вершинами, помеченными понятиями, входящими
в сочиненные пары. Ребра графа соединяют вершины X и Y, если последние образуют сочиненную пару X и Y и/или Y и Х.

Слайд 10

Понятия теории графов

Степень вершины это число ребер, которым она принадлежит
Висячая вершина это

Понятия теории графов Степень вершины это число ребер, которым она принадлежит Висячая
вершина степени 1
Мощностью графа это число узлов в нем
Диаметр графа это длина самой длинной из кратчайших цепей, связывающих какие-либо две вершины графа
Мост это ребро, разрыв которого увеличивает число связных подграфов
Точка сочленения это вершина, удаление которой ведет к увеличению числа связных подграфов

Слайд 11

Примеры вершин сети с их ассоциациями

аденоиды: аллергия, бассейн, гланды, гомеопатия, кашель, лазеротерапия,

Примеры вершин сети с их ассоциациями аденоиды: аллергия, бассейн, гланды, гомеопатия, кашель,
миндалины, слух
ангина: антибиотики, беременность, гомеопатия, грудное вскармливание, кашель, керосин, мороженое, прополис, сердце, фарингит
аргументация: доказательство, контраргументация, опровержение, риторика
аритмия: алкоголь, армия, беременность, остеохондроз, роды, спорт, тахикардия
астрономия: астрология, астрофизика, космонавтика, космос, непознанное, общество, телескопостроение, физика
безработица: бедность, занятость, инфляция, кризис, рынок труда
биотехнология: генная инженерия, медицина, микробиология, окружающая среда, селекция, сельское хозяйство, энергетика

Слайд 12

Степени D наиболее популярных понятий

D Понятие D Понятие D Понятие
302 беременность 36

Степени D наиболее популярных понятий D Понятие D Понятие D Понятие 302
право 27 власть
110 здоровье 34 температура 27 реклама
87 алкоголь 34 характер 27 экология
87 цены 33 бизнес 26 структура
54 спорт 33 дизайн 25 философия
52 культура 32 кризис 24 контроль
51 похудение 32 развитие 24 наука
49 дети 31 политика 24 пиво
48 человек 31 ремонт 24 христианство
41 диабет 29 армия 23 водка
40 диета 29 методы 23 государство
39 курение 29 экономика 23 деньги
39 любовь 28 давление 23 Интернет
37 общество 28 лечение 23 искусство
37 религия 28 функции 23 православие
37 Россия 27безопасность 23 прыщи

Слайд 13

Степени D популярных многословных понятий

D Понятие D Понятие
22 окружающая среда

Степени D популярных многословных понятий D Понятие D Понятие 22 окружающая среда
9 заработная плата
20 щитовидная железа 9 культура речи
16 кормление грудью 9 Новый год
14 лунный календарь 9 общественное мнение
13 грудное вскармливание 9 социальный контроль
12 социальная политика 8 бронхиальная астма
12 характерные черты 8 зеленый чай
11 государственное управление 8 знаки зодиака
11 группа крови 8 информационные технологии
11 международное право 8 образ жизни
11 охрана окружающей среды 8 оливковое масло
10 охрана природы 8 охрана труда
10 рынок труда 8 рыночная экономика
10 экономический рост 8 социальная справедливость
9 витамин С 8 тепловые двигатели
9 глобальные проблемы 7 валютный курс

Слайд 14

Общая характеристика сети (на январь 2010 г.)

Число понятий в сети 9200
Суммарное число связанных

Общая характеристика сети (на январь 2010 г.) Число понятий в сети 9200
с ними понятий 25300
Всего связных подсетей 870
Доминирующая подсеть включает 56% всех вершин сети
В доминирующей сети висячие вершины («торчащие иголки») составляют 52%
Следующая по мощности подсеть в 24 раза меньше доминирующей
Подсетей из двух вершин 75%
Среднее число связей у вершины 2,75

Слайд 15

Наиболее крупные подсети

Мощ- Под- Длина ность сетей диам. Примеры диаметров Примеры мостов Точки

Наиболее крупные подсети Мощ- Под- Длина ность сетей диам. Примеры диаметров Примеры
сочл. Тематика 5129 1 14+ продавцы–покупатели гололедица–снег; цены; снег; общежитейский –поставщики–закупки комплектация вода; водка; универсум –снабжение– –цены; комплектация–цены –ламинат–вода– ветер –снег–грозы– дожди; 21 1 10 любители–профессионалы специалисты–ЕГЭ; вузы; ЕГЭ; воспитательно- –дилетанты–специалисты ЕГЭ–вузы; детсады; образовательная –ЕГЭ–вузы–школы1– лицеи–гимназии; институты; сфера колледжи–лицеи–гимназии; ясли–детсады; 13 2 7 фасад–кровля–фасады– изоляция–кровли; кровли; (1)детали домов кровли–крыша1– кровли–фасады; крыши; (2)преступность перекрытия–пустоты; 11 3 6-8 диаметр–окружность– диаметр– крест; круг1; (1)геометр. фигуры круг1–крест–шар окружность; (2)фазы изменения –сфера1; (3)стройматериалы

Слайд 16

Некоторые параметры на май 2010 г.

Число сочиненных пар 16942
Из них из существительных 15360

Некоторые параметры на май 2010 г. Число сочиненных пар 16942 Из них

Число понятий в сети 9700
Суммарное число связанных с ними понятий 26838
Среднее число ассоциаций у понятия 2,77

Слайд 17

Общие свойства понятий-компонентов ассоциативной сети

Обычно нейтрального стиля
В большинстве своем широко используются в

Общие свойства понятий-компонентов ассоциативной сети Обычно нейтрального стиля В большинстве своем широко
обычной речи
В рамках ассоциаций имеют четко фиксированное значение (как у терминов)
Однозначно переводятся на иные языки
Порядка 10% состоят из двух и более слов.
Если у понятия есть оба числа, но обычно используется множественное

Слайд 18

Для чего можно использовать сеть?

Автоматизированное составление запроса к Интернету в типовых случаях
Дальнейшие

Для чего можно использовать сеть? Автоматизированное составление запроса к Интернету в типовых
исследования:
Сравнение «профиля» русскоязычного пользователя с общемировым
Построение антологий для Интернета
Сопоставление с другими ассоциативными и идеографическими словарями

Слайд 19

Замечания под конец

Google с 10 марта перестал давать статистику запросов. Это не

Замечания под конец Google с 10 марта перестал давать статистику запросов. Это
первый раз, когда гуглисты показывают лингвистам конфетку и почти тут же убирают!
Развитая нами ассоциативная сеть выложена в Интернете. Если будет интерес, напишите, я выложу самую последнюю версию. При ней дается расшифровка омонимов. Можно выложить и обнаруженные синонимы (их немного).
Имя файла: Ассоциативная-сеть-понятий,-образующихзапросы-к-Интернету.pptx
Количество просмотров: 165
Количество скачиваний: 0