«Зачем», «что» и «как» в исследовании коллокаций. Вопросы и возможные ответы Размышления на тему Елены Ягуновой & Co iagounova.elena@gmail.c

Содержание

Слайд 2

место доклада в миниконференции

В рамках мини-конференции «Коллокации и сочетаемостные особенности: методы исследования» мой

место доклада в миниконференции В рамках мини-конференции «Коллокации и сочетаемостные особенности: методы
доклад взаимосвязан с докладом Л.М. Пивоваровой «Подводные камни статистических мер»:
определяет цели, задачи, гипотезы работы;
задает критерии выбора и описание материала (новостных и научных коллекций);
задает критерии выбора статистических мер;
предлагает обсуждение полученных результатов;
т.е. подготавливает к обсуждению «подводных камней статистических мер» в контексте конктретного цикла работ

Слайд 3

Что -1 (у других)

чаще всего – коллокации как несвободные сочетания, не относящиеся

Что -1 (у других) чаще всего – коллокации как несвободные сочетания, не
к идиомам:
ключевое слово этих сочетаний может появляться в контексте разных языковых единиц,
эти единицы (т.е. контекст ключевого слова) можно перечислить в виде закрытого списка

Слайд 4

Что -2 (у нас)

Коллокации: неслучайное сочетание двух и более лексических единиц, характерное

Что -2 (у нас) Коллокации: неслучайное сочетание двух и более лексических единиц,
как для языка в целом (текстов любого типа), так и определенного типа текстов (или даже (под)выборки текстов).

Слайд 5

Зачем???

Исследование
характеристик единиц языка,
и/или
характеристик текстов и их структурных составляющих

Зачем??? Исследование характеристик единиц языка, и/или характеристик текстов и их структурных составляющих

Слайд 6

Что-1? Зачем-1

рассматриваются большие массивы текстов
изучаются характеристики языка,
исследуемые единицы можно перечислить в виде

Что-1? Зачем-1 рассматриваются большие массивы текстов изучаются характеристики языка, исследуемые единицы можно
закрытого списка,
напр., работы, которые ведутся на базе НКРЯ

Слайд 7

Что-1? Зачем-1 (примеры)

Корпусной словарь неоднословных лексических единиц (оборотов) http://ruscorpora.ru/obgrams.html
При каждом обороте

Что-1? Зачем-1 (примеры) Корпусной словарь неоднословных лексических единиц (оборотов) http://ruscorpora.ru/obgrams.html При каждом
указано количество употреблений в НКРЯ (по данным на сентябрь 2008 г.).
Словарь составлен на основе базы данных частотных коллокаций НКРЯ, с дополнениями из словарей Р.П.Рогожниковой (Толковый словарь сочетаний, эквивалентных слову, М., 2003) и МАС (Словарь русского языка в 4-х томах под ред. А.П.Евгеньевой, М., 1999).
Обороты в функции предлога
Наречные и предикативные обороты
Вводные обороты
Обороты в функции союза и союзного слова
Обороты в функции частиц

Слайд 8

Корпусной словарь неоднословных лексических единиц (оборотов). Плюсы и минусы

Есть закрытый список коллокаций

Корпусной словарь неоднословных лексических единиц (оборотов). Плюсы и минусы Есть закрытый список
(по словарям),
требуется оценить количество – в абсолютных единицах! – соответствующих коллокаций в корпусе,
нет стат. оценки степени связанности коллокаций,
возможен выход на контексты (на запрос в НКРЯ),
но неоднозначность не снимается (напр., может быть, в качестве)
автоматически снять неоднозначность свободное сочетание vs. неоднословная лексическая единица практически невозможно
Вы́явленная осо́бенность мо́жет быть ва́жной при прогнози́ровании исхо́да заболева́ния. (пример свободного сочетания из НКРЯ)

Слайд 9

Что-1? Зачем-1 (примеры)

на http://dict.ruslang.ru/
Г. И. Кустова СЛОВАРЬ РУССКОЙ ИДИОМАТИКИ (выход на

Что-1? Зачем-1 (примеры) на http://dict.ruslang.ru/ Г. И. Кустова СЛОВАРЬ РУССКОЙ ИДИОМАТИКИ (выход
запрос в НКРЯ)
Сочетания слов со значением высокой степени
Алфавитный список всех сочетаний
Алфавитный общий список степенных слов
Алфавитный список прилагательных
Алфавитный список наречий и наречных выражений
Степенное слово: Характеризуемое слово:

ЧАСТЬ РЕЧИ

ЧАСТЬ РЕЧИ

Слайд 10

Пример алфавитного списка всех сочетаний слов со значением высокой степени

абсолютная анархия  абсолютная

Пример алфавитного списка всех сочетаний слов со значением высокой степени абсолютная анархия
бездарность  абсолютная безопасность  абсолютная безысходность  абсолютная бесперспективность  абсолютная беспечность  абсолютная беспомощность  абсолютная беспринципность  абсолютная беспристрастность  абсолютная бессмыслица  абсолютная бесспорность  абсолютная бесцеремонность 

Слайд 11

Что-1? Зачем-1 (примеры)

О. Л. Бирюк, В. Ю. Гусев, Е. Ю. Калинина СЛОВАРЬ

Что-1? Зачем-1 (примеры) О. Л. Бирюк, В. Ю. Гусев, Е. Ю. Калинина
ГЛАГОЛЬНОЙ СОЧЕТАЕМОСТИ  НЕПРЕДМЕТНЫХ ИМЕН РУССКОГО ЯЗЫКА
Выбор параметров:
существительное фазовое значение
прилагательное оценка
глагол количество
абстрактное значение отрицание
конкретное значение порядок слов
синтаксические отношения

Слайд 12

Пример списка (параметры не выбраны), выход на запрос в НКРЯ

(не) ведать стыда

Пример списка (параметры не выбраны), выход на запрос в НКРЯ (не) ведать
действие
(не) видеть логики знание понимание
(не) видеть надобности знание понимание
(не) видеть оснований знание понимание
(не) видеть причины знание понимание
(не) видеть разницы Neg знание понимание
(не) внушать доверия действие каузация
(не) возникает сомнения действие субъект начало
(не) встретить сопротивления действие получатель
(не) встречать сопротивления действие получатель
(не) выдержать напряжения объект оценка соответствие
(не) выдержать характера прерывание демонстрация
(не) выдерживать критики действие объект мало соответствие

Слайд 13

особенности этого подхода

Заданность списка анализируемых коллокаций (частичная или по параметрам)
Отношение к текстовым

особенности этого подхода Заданность списка анализируемых коллокаций (частичная или по параметрам) Отношение
коллекциям
работает
с материалом репрезентативного корпуса (что это такое?)
относится безразлично к типу текстов, входящих в корпус

Слайд 14

Что-2? Зачем-2

рассматриваются большие массивы текстов
тексты разных функциональных стилей и предметных областей,

Что-2? Зачем-2 рассматриваются большие массивы текстов тексты разных функциональных стилей и предметных

список потенциальных коллокаций для них принципиально не задан,
этот список является отражением тех характеристик, которые заложены в анализируемых текстах.

Слайд 15

разные ФС текстов и различие списков коллокаций

http://corpus.leeds.ac.uk/ruscorpora.html
A query to Russian corpora
Выбор:

разные ФС текстов и различие списков коллокаций http://corpus.leeds.ac.uk/ruscorpora.html A query to Russian

Russian National Corpus (2009 version) 
Russian Fiction (disambiguated) 
Russian Newspapers
Russian Internet Corpus RNC+NEWS-RU+I-RU (for rare words)
Russian Business Internet Corpus 

Слайд 16

разные ФС текстов, разные стат. меры и различие списков коллокаций

A query to

разные ФС текстов, разные стат. меры и различие списков коллокаций A query
Russian corpora
Collocation scores:  
Mutual Information  
T-score   
Loglikelihood score
Context:  
? words on the left  ? words on the right
Но
нет порогов отсечения,
практически нет возможности работать со словоформными биграммами,
очень грязная морфологическая разметка

Слайд 17

Зачем-2 и Что-2 и Как-2?

Если коллокации не заданы списком,
если коллокации не заданы

Зачем-2 и Что-2 и Как-2? Если коллокации не заданы списком, если коллокации
правилами, то что такое «коллокация»?
Какова природа коллокации?
Как понимать: неслучайное сочетание двух и более лексических единиц, характерное
для языка в целом (текстов любого типа)?
для определенного типа текстов (или даже (под)выборки текстов)?

Слайд 18

Текст и коллокации

текст есть структурированная последовательность единиц разных уровней,
Коллокации как сложносоставные

Текст и коллокации текст есть структурированная последовательность единиц разных уровней, Коллокации как
подструктуры текста – важный объект при исследовании процедур анализа (и синтеза) текста.
Выделяя и исследуя коллокации мы исследуем текст:
структурные единицы текста разных языковых – и текстовых – уровней
их роль в процедурах анализа и синтеза речи (текстов).

Слайд 19

Текстовые коллекции и коллокации

Мы не привязаны к заданной коллекции или Корпусу
На коллекциях

Текстовые коллекции и коллокации Мы не привязаны к заданной коллекции или Корпусу
разных текстов мы можем изучать характеристики наиболее связанных структурных составляющих, и через них выходить на структуру разных текстов
Прежде всего, текстов разных функциональных стилей (новостные, научные, деловые, художественные)

Слайд 20

Что мы можем получить, на разных коллекциях-корпусах?

Варьируя коллекции, мы можем организовать систему

Что мы можем получить, на разных коллекциях-корпусах? Варьируя коллекции, мы можем организовать
вложенных друг в друга корпусов:
тексты определенного функционального стиля,
тексты определенного источника,
тексты определенной предметной области,
однородная выборка текстов определенных источников и предметной области,
и т.д.

Слайд 21

Что мы можем получить, на разных коллокциях-корпусах?

Например, вложенные друг в друга:
научные тексты,

Что мы можем получить, на разных коллокциях-корпусах? Например, вложенные друг в друга:

лингвистические научные тексты,
научные тексты предметной области «Теоретическая и прикладная лингвистика» (материалы конференции «Диалог»),
научные тексты предметной области «Корпусная лингвистика».

Слайд 22

Что мы можем получить,

используя разные
статистические меры (напр., MI, t-score, LL),
а может где-то

Что мы можем получить, используя разные статистические меры (напр., MI, t-score, LL),
и абсолютные частоты коллокаций?
пороги отсечения,
разные единицы (коллокации из словоформ и/или лексем),
… расстояния между коллокатами

Слайд 23

используя разные параметры,

Мы получаем разные типы коллокаций = типы структурных составляющих текста:
неоднословных

используя разные параметры, Мы получаем разные типы коллокаций = типы структурных составляющих
номинаций
в новостном тексте – наименования персон (Бенедикт XVI, Бритни Спирс, президент Венесуэллы Уго Чавес), организации (РИА Новости, Арбат Престиж), географические наименования (Саудовская Аравия, Соединенные Штаты, Нижнем Новгороде),
в новостном тексте – наименования событий или ?? (умышленное причинение тяжкого вреда здоровью, защищать принадлежащий ему титул чемпиона),
в научном тексте – термины (корпусная лингвистика, часть речи, машинный перевод);

Слайд 24

используя разные параметры, (продолжение)

Мы получаем еще другие типы коллокаций = типы структурных составляющих

используя разные параметры, (продолжение) Мы получаем еще другие типы коллокаций = типы
текста:
составные слова (в качестве, в связи, в результате),
газетные клише (по словам, сообщает РИА, как сообщает или сообщает Интерфакс со ссылкой на),
конструкции с управлением глаголов (зависит от, состоит в, а также – имеет место, обращать внимание), и т.д.

Слайд 25

статистические меры (напр., MI vs. t-score)-1

Новостные тексты (напр., на материале lenta.ru за

статистические меры (напр., MI vs. t-score)-1 Новостные тексты (напр., на материале lenta.ru
2009)
мера MI (порог 40): определение наименования объектов, терминов, сложных номинаций, отражающих предметную область (– как?) ,
мера t-score (порог 40) – выделение:
«общеязыковых устойчивых сочетаний» (производных служебных слов, дискурсивных слов)
«устойчивых конструкций», где и те, и другие характеризуют стилистические особенности новостных текстов

Слайд 26

статистические меры (напр., MI vs. t-score)-2

Научные тексты (напр., на материале «Диалог 2003-2009»

статистические меры (напр., MI vs. t-score)-2 Научные тексты (напр., на материале «Диалог
и «Корпусная лингвистика» (2004, 2006, 2008))
мера MI: «ключевые» неоднословные термины, которые характеризуют предметную область коллекции;
t-score:
«общеязыковых устойчивых сочетаний» (производных служебных слов, дискурсивных слов),
«устойчивых конструкций», где и те, и другие характеризуют стилистические особенности научных текстов,
коллокации, общие для всех (или подавляющего большинства) текстов коллекции
Степень тематической однородности коллекции научных текстов соотносится с однородностью множества выделяемых коллокаций

Слайд 27

Таблица 1. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Материал

Таблица 1. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Материал
конференции «Диалог» (из доклада на симпозиуме "Терминология и знание" -- Пивоварова, Ягунова 2010)

Слайд 28

Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Табл. 1 и

Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Табл. 1 и
2а. Пояснения

Пороги для коллекций «Корпусная лингвистика» и «Диалог»: 16 и 40
Курсивом в таблице выделены сочетания, которые были удалены на этапе выделения терминологических коллокаций с использованием морфологического фильтра.
Подчеркиванием выделены те сочетания, которые на основании формальных критериев должны были быть ошибочно отнесены к терминологическим.

Слайд 29

Таблица 2а. Терминологические биграммы (MI-score), выделяющиеся и для лексем, и для словоформ.

Таблица 2а. Терминологические биграммы (MI-score), выделяющиеся и для лексем, и для словоформ.
Материал конференции «Корпусная лингвистика» (из доклада на симпозиуме "Терминология и знание" -- Пивоварова, Ягунова 2010)

Слайд 30

Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Почему мы выбрали

Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Почему мы выбрали
этот список?

В список 1 попадают составные номинации, характеризуемые максимальной свободой (максимальным разнообразием, минимальной ограниченностью) набора выполняемых ими в предложении семантико-синтаксических ролей.
Примеры: 9 винительный падеж, 17 именительный падеж, 24 актуальный членение, 29 инструментальный среда.
Биграммы списка 2 – номинации в определенной синтаксической позиции.
Примеры: 10 речевой акт, 50 речевых актов, 19 именная группа, 65 именных групп, 27 коммуникативного акта, 62 коммуникативных актов, 77 просодических характеристик, 78 прошедшего времени, 74 речевого сигнала. Кроме того, биграммы этого подкласса могут относиться к части целостной номинации, напр., сочетание речевых актов часто является частью триграммы «теории речевых актов».
У биграмм списка 3 (см.табл.1 и 2а) наиболее простая структура: нет ни закрепленности, ни противоречий между смысловыми, лексическими и синтаксическими связями. Биграммы этого класса занимают в текущем словарном составе некое промежуточное место между биграммами класса «1» и биграммами класса «2».
Анализ разных списков показал, что список 3 является наиболее адекватным при решении задачи определения ключевых тем (неоднословных терминов), характерных для рассматриваемых коллекций.

Слайд 31

Статистические меры (напр., MI vs. t-score)-3. Дельта. Порог

Новостные тексты (напр., на материале

Статистические меры (напр., MI vs. t-score)-3. Дельта. Порог Новостные тексты (напр., на
lenta.ru), в которых представлена коллекция за год и подколлекции за каждый месяц (дельта за месяц)
Дельты за месяц имеют гораздо большую однородность тем!
MI (порог 3): в списках коллокаций за разные месяцы – небольшое число пересечений,
ок. 50% биграмм появляется только в одном списке, менее 50% процентов из первой сотни годового списка попали в первую сотню какого-либо из месячных списков,
мера лучше отражает тематику текстов, а темы новостных текстов непрерывно меняются.
t-score (порог 3): в списках коллокаций за разные месяцы – большое число пересечений,
первые сто биграмм из «года» повторяются в нескольких месячных списках (часто во всех двенадцати списках),
мера лучше отражает стратегию выбора тем (?) и стилистку текстов, а они в рамках одного и того же СМИ меняется сравнительно медленнее

Слайд 32

Выделении основных тем новостной коллекции. Мера. Дельта. Порог

Гипотеза об иерархии используемых мер

Выделении основных тем новостной коллекции. Мера. Дельта. Порог Гипотеза об иерархии используемых
(с учетом дельт (списков по месяцам) и разных порогов) для новостных коллекций:
См. еще раз слайд 26 на материале научных коллекций.
традиционно – использование t-score для выделения основных тем новостных коллекций гораздо хуже MI,
НО пересечения списков коллокаций, полученных для разных месяцев (тематически более однородных выборок) с помощью t-score (Δt-score) --
дают представление о ведущих темах
более, чем списки, традиционно полученные с помощью меры MI;
MI с высоким порогом отсечения – при прочих равных -- более информативна для определения тематики коллекции, чем Δt-score.
Пересечение списков, полученных для разных месяцев с использованием меры MI (ΔMI), – почти пустое

Слайд 33

Дополнительная проверка гипотезы. Дельта. Порог

Еще раз про гипотезу: t-score < MI <

Дополнительная проверка гипотезы. Дельта. Порог Еще раз про гипотезу: t-score Дельта нужда
Δt-score < MIT (подробнее про стат. обоснование в докладе Л.М.Пивоваровой)
Дельта нужда для увеличения тематической однородности выборки. КАК лучше определять дельту?
Порог нужен для отсечения редких для коллекции коллокаций. Он зависит от объема коллекции и степени тематической однородности. КАК определять порог в каждом конкретном случае?

Слайд 34

зачем? что? как?

Сейчас мы не ставим перед собой задачу практически востребованного метода

зачем? что? как? Сейчас мы не ставим перед собой задачу практически востребованного

напр., извлечения всех терминов или тестирования разных методик (см., напр., [Браславский, Соколов 2006]).
Задача – изучение возможности выделения формальных признаков, необходимых для определения предметной области коллекций текстов и ключевых слов, описывающих рассматриваемые коллекции;
формирование наборов информационно значимых для коллекции коллокаций и выделение общих для текстов коллекции коллокаций.

Слайд 35

Зачем-2 и Что-2 и Как-2? продолжение… на будущее

что задано для списка потенциальных коллокаций

Зачем-2 и Что-2 и Как-2? продолжение… на будущее что задано для списка
??
не заданы даже ключевые слова,
ключевые слова заданы, варьируют коллокаты,
задан морфолого-синтаксический шаблон (в комбинации с п.1. или 2),
заданы ключевые слова, вместо слова-коллоката
и т.д.

Слайд 36

Литература

Бирюк О. Л., Гусев В. Ю., Калинина Е. Ю. Словарь глагольной сочетаемости

Литература Бирюк О. Л., Гусев В. Ю., Калинина Е. Ю. Словарь глагольной
непредметных имен русского языка М., 2008 http://dict.ruslang.ru/abstr_noun.php
Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текса // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая – 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. – М.: Изд-во РГГУ, 2006.
Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области // Труды пятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL2003, Санкт-Петербург, 2003
Иорданская Л. Н., Мельчук И. А.. Смысл и сочетаемость в словаре. М.: Языки славянских культур, 2007
Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. Поверхностные фильтры для разрешения семантической омонимии в текстовом корпусе // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог'2005" (Звенигород, 1-6 июня, 2005 г.)/ Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. - М.: Наука, 2005.
Кустова Г. И. Словарь русской идиоматики. Сочетания слов со значением высокой степени М., 2008 http://dict.ruslang.ru/magn.php
Ляшевская О. Н., Шаров С. А. Новый частотный словарь русской лексики 2008 http://dict.ruslang.ru/freq.php

Слайд 37

Литература (продолжение)

Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале

Литература (продолжение) Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на
лингвистических научных текстов. Предварительные наблюдения // Материалы второго Международного симпозиума “Терминология и знание” М., 2010 (в печати)
Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Статистический словарь русской газеты (1990 гг.) М., 1998
Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы. Под ред. А. Мустайоки, М.В. Копотева, Л.А. Бирюлина, Е.Ю. Протасовой. Хельсинки, 2008. С.343–357
Ягунова Е.В. Вариативность стратегий восприятия звучащего текста (экспериментальное исследование на материале русскоязычных текстов разных функциональных стилей). Пермь, 2008.
Ягунова Е.В. Формальные и неформальные критерии вычленения ключевых слов из научных и новостных текстов // Материалы IV Международного конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М., 2010
Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов – Сб. НТИ, Сер.2, №5. М., 2010 (в печати)
Имя файла: «Зачем»,-«что»-и-«как»-в-исследовании-коллокаций.-Вопросы-и-возможные-ответы-Размышления-на-тему-Елены-Ягуновой-&amp;-Co-iagounova.elena@gmail.c.pptx
Количество просмотров: 680
Количество скачиваний: 2