Расширенный поиск в НКРЯ

Содержание

Слайд 2

Примеры запросов к РМ(Г)*: часть 1 *Корпусу СМИ Гродненщины в составе модулы Региональной и

Примеры запросов к РМ(Г)*: часть 1 *Корпусу СМИ Гродненщины в составе модулы
зарубежной прессы НКРЯ: http://www.ruscorpora.ru/search-regional.html

Слайд 3

А. Использование масок и оператора ИЛИ при определении подкорпуса

А. Использование масок и оператора ИЛИ при определении подкорпуса

Слайд 4

А.1. Определение подкорпуса текстов с заголовками, содержащими любую словоформу указанной в фильтре леммы

*лемма*

А.1. Определение подкорпуса текстов с заголовками, содержащими любую словоформу указанной в фильтре
VS *словоформа*
*пособие* SYN *пособию*
*пособие* SYN *пособиям*
!ОДНАКО:
Результаты по фильтру *семья* ⊂ результаты по фильтру *семью*
Фильтр *семью*  ? подкорпус текстов, заголовки которых содержат словоформы леммы семь и / или словоформы леммы семья

Синтаксис фильтра: *лемма*
(без пробелов справа / слева от леммы).

Слайд 6

А.2.  Определение подкорпуса текстов с заголовками, содержащими указанную в фильтре словоформу

SYN
фильтр "словоформа";

А.2. Определение подкорпуса текстов с заголовками, содержащими указанную в фильтре словоформу SYN

фильтр *"словоформа"*;
фильтр * словоформа * (с пробелами справа / слева от словоформы).

Синтаксис фильтра: словоформа
(без пробелов справа / слева от леммы).

Слайд 7

А.3. Определение подкорпуса текстов с заголовками, содержащими любую словоформу леммы1, леммы2, …, леммыi

Синтаксис

А.3. Определение подкорпуса текстов с заголовками, содержащими любую словоформу леммы1, леммы2, …,
фильтра:
*лемма1* | *лемма2* | … | *леммаi* (без пробелов справа / слева от леммы).
! Здесь и далее: с обязательными пробелами справа/слева от вертикального слеша!

<…>

<…>

/ кирмаш И/ИЛИ ярмарка

Слайд 8

А.4. Определение подкорпуса текстов с заголовками, содержащими любую словоформу из указанных в фильтре

А.4. Определение подкорпуса текстов с заголовками, содержащими любую словоформу из указанных в
словоформы1, словоформы2, …, словоформыi

Синтаксис фильтра:
словоформа1 | словоформа2 | … | словоформаi.
(без пробелов справа / слева от леммы).
SYN
фильтр "словоформа1" | "словоформа2" | … | "словоформаi «
фильтр *"словоформа1"* | *"словоформа2"* | … | *"словоформаi"*
фильтр * словоформа1 * | * словоформа2 * | … | * словоформаi *
(с пробелами справа / слева от словоформы).

Слайд 9

Пример к А.4

<…>

<…>

/ кирмаш И/ИЛИ ярмарка

Пример к А.4 / кирмаш И/ИЛИ ярмарка

Слайд 10

А.5. Определение подкорпуса текстов с заголовками, содержащими конструкцию из подряд* идущих элементов

ЭЛЕМЕНТ= лемма
Синтаксис

А.5. Определение подкорпуса текстов с заголовками, содержащими конструкцию из подряд* идущих элементов
фильтра:
*x1*x2*…*xi*

ЭЛЕМЕНТ= словоформа
Синтаксис фильтра:
*"x1"*"x2"*…*"xi"*

<…>

Смешанный фильтр:
*вырасти*"пособие"*
SYN
*вырасти*"пособие"

Слайд 11

А.5’. Определение подкорпуса текстов с заголовками, содержащими все элементы списка

/ 2 элемента-леммы
Синтаксис фильтра:

А.5’. Определение подкорпуса текстов с заголовками, содержащими все элементы списка / 2

*x1*x2* | *x2*x1*
И т.п.
!Однако: число частей, объединенных знаком | :
Pn=n!

Слайд 12

А.6. Определение подкорпуса текстов с заголовками, содержащими несколько конструкций из подряд идущих элементов

А.6. Определение подкорпуса текстов с заголовками, содержащими несколько конструкций из подряд идущих

детский*пособие* | *пособие*на*ребенок*
SYN
*детский*пособие* | *пособие*на*"детей"* | *пособие*на*"ребенка"*
Имена текстов подкорпуса:
Детские пособия на детей с января возрастут вдвое (ОП); Вырастут пенсии и детские пособия (ВГ);
«Имеем ли право на пособие на детей старше 3 лет, если муж служит в армии?» (БГ);
Увеличились размеры пособий на детей (СГ); Районный отдел облуправления Фонда социальной защиты населения.
Пособия из средств государственного социального страхования, на которые имеет право семья, воспитывающая ребенка-инвалида (БГ);
Пособие на ребенка увеличили на 133 рубля (КП) и др.

Слайд 13

! подряд* идущих элементов

При создании маски для словосочетания компоненты маски в запросе

! подряд* идущих элементов При создании маски для словосочетания компоненты маски в
стоит набирать в соответствии с порядком слов в искомом словосочетании, однако стоит учесть, что потенциально в заголовке найдется не ряд, а мешок (неупорядоченное множество) компонентов маски. См. фрагмент выдачи заголовков на запрос *Беларусь*Россия* (словоформы лемм Беларусь и Россия в разном взаиморасположении):
Таким образом, в выдачу по запросу *вырасти*пособие* могли попасть и заголовки с инвертированным порядком слов в искомом словосочетании (например, С нового года пособия на детей выросли). Кроме того, нужно учесть, что при отсутствии сильной лексико-грамматической связи между элементами-основами маски между элементами, найденными в заголовке, может отсутствовать непосредственная синтаксическая связь.

Слайд 14

Б.  Использование масок и операторов в запросе

Б. Использование масок и операторов в запросе

Слайд 15

!

Состав маски: буквенная часть и знак *
(* = ‘0 и более

! Состав маски: буквенная часть и знак * (* = ‘0 и
символов словоформы/леммы’ )
Ср. при задании подкорпуса:
(* = ‘0 и более словоформ и/или разделителей и/или пробельных элементов’)
Оператор НЕ: знак минуса
Оператор ИЛИ: вертикальный слеш (!пробелы справа/слева)
Прямой ввод словоформы в поле СЛОВО: кавычки («бегу»)

Слайд 16

Б.1.  Поиск словоформ леммы, начинающейся на x

Синтаксис запроса: x*
/ Пример-1 запроса: пилигрим*
В

Б.1. Поиск словоформ леммы, начинающейся на x Синтаксис запроса: x* / Пример-1
выдаче: контексты со словоформами лемм пилигримка, пилигрим.
/ Пример-2 запроса (+грам. метка):
В выдаче:
контексты с глаголами на противо-

Слайд 17

(Б.2.  Поиск словоформы, начинающейся на x)

Синтаксис запроса: "x*"
Пример запроса: "пилигримк*".
В

(Б.2. Поиск словоформы, начинающейся на x) Синтаксис запроса: "x*" Пример запроса: "пилигримк*".
выдаче: контексты со словоформами на пилигримк- (но не пилигримок- и др.).
Тип запроса малоприменим.

Слайд 18

Б.3.  Поиск словоформ леммы, заканчивающейся на x

Синтаксис запроса: *x.
Пример запроса: *ировка.

Б.3. Поиск словоформ леммы, заканчивающейся на x Синтаксис запроса: *x. Пример запроса:

В выдаче: контексты со словоформами лемм антиблокировка, бомбардировка, грейдировка и др.
Запросы такого типа удобны для поиска грамматических подклассов.

Слайд 19

Б.4.  Поиск словоформ, заканчивающихся на x

Синтаксис запроса: "*x"
Пример запроса: "*остию"
В выдаче: контексты

Б.4. Поиск словоформ, заканчивающихся на x Синтаксис запроса: "*x" Пример запроса: "*остию"
со словоформами крепостию, милостию, ревностию и др.

Слайд 20

Б.5.  Поиск словоформ с конфиксом/конфиксоидом

Синтаксис запроса: x1*x2
Пример запроса: недо*ся
В выдаче: контексты для

Б.5. Поиск словоформ с конфиксом/конфиксоидом Синтаксис запроса: x1*x2 Пример запроса: недо*ся В
лемм недооткрыться, недосчитаться, недопоститься и др.

Слайд 21

Б.6.  Поиск с исключением элемента x

Синтаксис запроса: -x
Исключаемым элементом (х) может быть

Б.6. Поиск с исключением элемента x Синтаксис запроса: -x Исключаемым элементом (х)
лемма, словоформа, тег грамматической, дополнительной, семантической разметки
Пример-1 запроса:
вело* -велосипед -велосипедный -велосипедист*
В выдаче: контексты со словоформами лемм, начинающихся на вело-, кроме лемм велосипед, велосипедный, велосипедист и велосипедистка (и любых других лемм, начинающихся на велосипедист-)

Слайд 22

!

В запросах синтаксис типа *x* не поддерживается.
В фильтре имени текста (то есть

! В запросах синтаксис типа *x* не поддерживается. В фильтре имени текста
при задании подкорпуса) такой синтаксис поддерживается.
!
Ожидается изменение интерфейса НКРЯ (см. здесь: http://www.ruscorpora.ru/new_design.html)

Слайд 23

Примеры запросов к РМ(Г): часть 2

Примеры запросов к РМ(Г): часть 2

Слайд 25

Ex-2. Поиск ДС структуры ЖИТЕЛЬ | ЖИТЕЛЬНИЦА + топоним (S, Gen)

Точнее: S, Gen

Ex-2. Поиск ДС структуры ЖИТЕЛЬ | ЖИТЕЛЬНИЦА + топоним (S, Gen) Точнее: S, Gen

Слайд 26

Ex-2. Результат (KWIC)

Ex-2. Результат (KWIC)

Слайд 27

Ex-3. СВОБОДА + И + существительное

Ex-3. СВОБОДА + И + существительное

Слайд 28

Ex-3. Результат

Ex-3. Результат

Слайд 29

Ex-3’ (be). Результат

Ex-3’ (be). Результат

Слайд 30

Ex-4. ПРАВО+ И + существительное

Ex-4. ПРАВО+ И + существительное

Слайд 31

Ex-4’ (be).

Ex-4’ (be).

Слайд 32

Ex-5a. Канцелярит

"вопросы"  на расстоянии от 1 до 2 от N, s,

Ex-5a. Канцелярит "вопросы" на расстоянии от 1 до 2 от N, s,
Gen  на расстоянии от 1 до 2 от N, s, Gen  Найдено 28 вхождений.

Слайд 33

Ex-5b.

  *ость  на расстоянии от 1 до 3 от составить |

Ex-5b. *ость на расстоянии от 1 до 3 от составить | составлять Найдено 47 вхождений.
составлять  Найдено 47 вхождений.

Слайд 34

Ex-5c

  по  на расстоянии 1 от "линии"  Найдено 19 вхождений.
Анализ оперативной обстановки по

Ex-5c по на расстоянии 1 от "линии" Найдено 19 вхождений. Анализ оперативной
линии фальшивомонетничества за последние годы свидетельствует …
В семье говорят, что любовь к физкультуре у Даши от отца. Ведь он – неоднократный участник различных соревнований по линии районного узла электросвязи, где работает электромехаником.

Слайд 35

Ex-5d

труженик  на расстоянии 1 от gen  Найдено 43 документа, 53 вхождения.
В упорной борьбе первое

Ex-5d труженик на расстоянии 1 от gen Найдено 43 документа, 53 вхождения.
место завоевали теннисисты из РУП ЖКХ, второе — из ОАО «Акр-Агро», а «бронзовыми» призерами стали труженики УСП «Совхоз «Порозовский».
От имени руководителя открытого акционерного общества и его 11-тысячного коллектива тружеников сельского хозяйства Ивьевщины <…>
Желаю вам, уважаемые труженики сельхозотрасли Ивьевщины <…>
Нынче труженики аграрной отрасли района праздновали <…>
Затронув тему прошедшего профессионального праздника тружеников сельского хозяйства <…>
Тружеников села всегда отличали природная мудрость <…>
Вас, труженики пашен и полей, садов и ферм и вкусных сыроварен <…>

Слайд 36

Ex-6. Отсев омонимичных форм

Ex-6. Отсев омонимичных форм

Слайд 37

Ex-7. Поиск элементов словообразовательного гнезда (смешанная маска)

! При заданном подкорпусе (язык=белорусский)

Ex-7. Поиск элементов словообразовательного гнезда (смешанная маска) ! При заданном подкорпусе (язык=белорусский)

Слайд 38

Представленность элементов словообразовательного гнезда лексемы мяжа в РМ(Г): BE

мяжа (193; 242,2),
замежны

Представленность элементов словообразовательного гнезда лексемы мяжа в РМ(Г): BE мяжа (193; 242,2),
(159; 199,6),
абмежаванне (32; 40,2),
абмежаваць (21; 26,4);
замежжа (18; 22,6);
памежжа (15; 18,8);
бязмежны (12; 15,1);
абмяжоўвацца (11; 13,8);
прамежак (7; 8,8);
абмяжоўваць (6; 7,5);
абмежавацца (4; 5);
неабмежаваны (4; 5);
смежны / сумежны (4; 5);
абмежаваны, прил. (3; 3,8);
абмежак (2; 2,5);
перамяжоўвацца (2; 2,5);
абмежавана, нар, (1; 1,3);
адмежак (1; 1,3);
адмяжоўвацца (1; 1,3);
замежнасць (1; 1,3);
межавацца (1; 1,3);
межаваць (1; 1,3);
перамяжацца (1; 1,3); перамяжоўваць (1; 1,3);
прамежкавы (1; 1,3);
размяжоўваць (1; 1,3).

25 лексем, 503 с/у