Слайд 2понятие синтаксической молекулы
1. Для грамматического и лексического анализа русского языка оказывается весьма

полезным понятие синтаксической молекулы (СМ).
СМ есть минимальная синтаксически автономная единица членения речи, то есть минимальный отрезок, способный функционировать в качестве отдельной (быть может и эллиптичной) реплики, отвечающей на какой-либо вопрос.
СМ обычно содержит не более одного полнозначного знаменательного слова;
при этом в её состав может входить одно или несколько служебных (или полуслужебных) слов.
Слайд 3«синтаксическая молекула» и «фонетическое слово»
2. Единица, близкая синтаксической молекуле, выделяется во многих

фонетических работах под названием «фонетического слова» (ФС) или «морфемного комплекса». Особенности предлагаемого подхода к ФС, предполагающего составление частотного словаря фонетических слов – такие: (а) ФС рассматривается не только в синтагматическом, но и в парадигматическом аспекте; (б) ФС трактуется как двусторонняя (знаковая) единица; (в) в центре внимания находится именно инвентарный (словарный, лексикологический, лексикографический) аспект ФС
Слайд 43.0. Три ранга СМ: макротакты, мезотакты и микротакты
3.1. Макротакт – морфемный комплекс

между двумя местами потенциальных пауз (в отличие от более крупной единицы - фонетической синтагмы, границы которой отмечены реальными паузами).
3.2. Мезотакт – морфемный комплекс, включающий не более одного «полноударного» ФС. Мезотакт может включать в себя один или несколько «клитикоидов» (то есть «слабоударяемых» ФС и «относительных клитик») – постпозитивных («энклитикоидов») или препозитивных («проклитикоидов»).
3.3. Микротакт – морфемный комплекс, содержащий ровно 1 автономный (характеризуемый единством главного словесного ударения) словесный сегмент. Микротакты бывают простыми и составными. Составные микротакты включают, помимо автономного сегмента, также одну или несколько клитик – единиц, не несущих самостоятельного словесного ударения. Клитики подразделяются на энклитики (постпозитивные) и проклитики (препозитивные).
Слайд 5способы выявления инвентаря «ментальных СМ»
4.0. Инвентарь ментальных СМ выявляется путём измерения их

встречаемости в крупном корпусе текстов и создания частотного инвентаря реальных СМ .
4.1. Эта задача может решаться по-разному. Источником данных был корпус текстов, представленных в орфографической записи -- Генеральный корпус русского языка (ГКРЯ), созданный на основе «Уппсальского корпуса» русского языка (УпКРЯ), составленного под руководством Л. Лённгрена (http://www.slaviska.uu.se/ryska/index.html). В 1995 гг. автором настоящей работы под руководством С. А. Старостина (1953-2005) материалы УпКРЯ были преобразованы в формат текстовой базы данных, получившей название ГКРЯ.
Слайд 6принципы «грубой» разметкой тактовой делимитации
5.0. В 2005-2008 гг. ГКРЯ был снабжён «грубой»

разметкой тактовой делимитации. Она устроена так.
5.1. Пробелы письменного текста бывают паузальные (соответствующие границам макротактов в устной речи) и беспаузальные (для транскрибирования которых использован создан набор из 6 искусственных делимитаторов:
{ после проклитик;
} перед энклитикой;
< после проклитикоида;
> перед энклитикоидом;
<> между частями мезотакта с «неустойчивым» центром (то есть сочетания, допускающего двоякую акцентуацию: либо как «клитикоид + полноударное», либо как «полноударное + клитикоид»);
+ между мезотактами, образующими один макротакт.
Слайд 7таблица «Частотность мезотактов с проклитиками в ЧС макротактов»
6.0. В таблице столбец (А)

указывает на инвентаризуемую СМ (макротакт), (Б) - на её относительную частотность по числу текстов (%), (В) - на её абсолютную частотность по числу текстов, (Г) - на её ранг в ЧС, упорядоченном по числу текстов (этот параметр в таблице является ключевым), (Д) - на её относительную частотность по числу вхождений при измерении общего числа вхождений СМ в корпус (в числе вхождений данной единицы на 10 тыс., (Е) - на её абсолютную частотность по числу вхождений (этот параметр в таблице является побочным), (Ж) - на её ранг в ЧС, упорядоченном по числу вхождений.
Слайд 8В результате разметки ГКРЯ оказалось возможным извлечь из него сведения о частотах

СМ.
Сосредоточим внимание на одном из классов СМ – а именно, на СМ, начинающихся с проклитики.
Для наглядности ниже дана лишь частотная «верхушка» одного из полученных словарей
Слайд 9Частотность мезотактов с проклитиками в ЧС макротактов
