Измерение частотности синтаксических молекул (на материале Генерального корпуса русского языка)

Содержание

Слайд 2

понятие синтаксической молекулы

1. Для грамматического и лексического анализа русского языка оказывается весьма

понятие синтаксической молекулы 1. Для грамматического и лексического анализа русского языка оказывается
полезным понятие синтаксической молекулы (СМ).
СМ есть минимальная синтаксически автономная единица членения речи, то есть минимальный отрезок, способный функционировать в качестве отдельной (быть может и эллиптичной) реплики, отвечающей на какой-либо вопрос.
СМ обычно содержит не более одного полнозначного знаменательного слова;
при этом в её состав может входить одно или несколько служебных (или полуслужебных) слов.

Слайд 3

«синтаксическая молекула» и «фонетическое слово»

2. Единица, близкая синтаксической молекуле, выделяется во многих

«синтаксическая молекула» и «фонетическое слово» 2. Единица, близкая синтаксической молекуле, выделяется во
фонетических работах под названием «фонетического слова» (ФС) или «морфемного комплекса». Особенности предлагаемого подхода к ФС, предполагающего составление частотного словаря фонетических слов – такие: (а) ФС рассматривается не только в синтагматическом, но и в парадигматическом аспекте; (б) ФС трактуется как двусторонняя (знаковая) единица; (в) в центре внимания находится именно инвентарный (словарный, лексикологический, лексикографический) аспект ФС 

Слайд 4

3.0. Три ранга СМ: макротакты, мезотакты и микротакты

3.1. Макротакт – морфемный комплекс

3.0. Три ранга СМ: макротакты, мезотакты и микротакты 3.1. Макротакт – морфемный
между двумя местами потенциальных пауз (в отличие от более крупной единицы - фонетической синтагмы, границы которой отмечены реальными паузами).
3.2. Мезотакт – морфемный комплекс, включающий не более одного «полноударного» ФС. Мезотакт может включать в себя один или несколько «клитикоидов» (то есть «слабоударяемых» ФС и «относительных клитик») – постпозитивных («энклитикоидов») или препозитивных («проклитикоидов»).
3.3. Микротакт – морфемный комплекс, содержащий ровно 1 автономный (характеризуемый единством главного словесного ударения) словесный сегмент. Микротакты бывают простыми и составными. Составные микротакты включают, помимо автономного сегмента, также одну или несколько клитик – единиц, не несущих самостоятельного словесного ударения. Клитики подразделяются на энклитики (постпозитивные) и проклитики (препозитивные).

Слайд 5

способы выявления инвентаря «ментальных СМ»

4.0. Инвентарь ментальных СМ выявляется путём измерения их

способы выявления инвентаря «ментальных СМ» 4.0. Инвентарь ментальных СМ выявляется путём измерения
встречаемости в крупном корпусе текстов и создания частотного инвентаря реальных СМ .
4.1. Эта задача может решаться по-разному. Источником данных был корпус текстов, представленных в орфографической записи -- Генеральный корпус русского языка (ГКРЯ), созданный на основе «Уппсальского корпуса» русского языка (УпКРЯ), составленного под руководством Л. Лённгрена (http://www.slaviska.uu.se/ryska/index.html). В 1995 гг. автором настоящей работы под руководством С. А. Старостина (1953-2005) материалы УпКРЯ были преобразованы в формат текстовой базы данных, получившей название ГКРЯ.

Слайд 6

принципы «грубой» разметкой тактовой делимитации

5.0. В 2005-2008 гг. ГКРЯ был снабжён «грубой»

принципы «грубой» разметкой тактовой делимитации 5.0. В 2005-2008 гг. ГКРЯ был снабжён
разметкой тактовой делимитации. Она устроена так.
5.1. Пробелы письменного текста бывают паузальные (соответствующие границам макротактов в устной речи) и беспаузальные (для транскрибирования которых использован создан набор из 6 искусственных делимитаторов:
{ после проклитик;
} перед энклитикой;
< после проклитикоида;
> перед энклитикоидом;
<> между частями мезотакта с «неустойчивым» центром (то есть сочетания, допускающего двоякую акцентуацию: либо как «клитикоид + полноударное», либо как «полноударное + клитикоид»);
+ между мезотактами, образующими один макротакт.

Слайд 7

таблица «Частотность мезотактов с проклитиками в ЧС макротактов»

6.0. В таблице столбец (А)

таблица «Частотность мезотактов с проклитиками в ЧС макротактов» 6.0. В таблице столбец
указывает на инвентаризуемую СМ (макротакт), (Б) - на её относительную частотность по числу текстов (%), (В) - на её абсолютную частотность по числу текстов, (Г) - на её ранг в ЧС, упорядоченном по числу текстов (этот параметр в таблице является ключевым), (Д) - на её относительную частотность по числу вхождений при измерении общего числа вхождений СМ в корпус (в числе вхождений данной единицы на 10 тыс., (Е) - на её абсолютную частотность по числу вхождений (этот параметр в таблице является побочным), (Ж) - на её ранг в ЧС, упорядоченном по числу вхождений.

Слайд 8

В результате разметки ГКРЯ оказалось возможным извлечь из него сведения о частотах

В результате разметки ГКРЯ оказалось возможным извлечь из него сведения о частотах
СМ.
Сосредоточим внимание на одном из классов СМ – а именно, на СМ, начинающихся с проклитики.
Для наглядности ниже дана лишь частотная «верхушка» одного из полученных словарей 

Слайд 9

Частотность мезотактов с проклитиками в ЧС макротактов

Частотность мезотактов с проклитиками в ЧС макротактов
Имя файла: Измерение-частотности-синтаксических-молекул-(на-материале-Генерального-корпуса-русского-языка).pptx
Количество просмотров: 104
Количество скачиваний: 0