АВТОМАТИЧЕСКОЕ РАЗБИЕНИЕ ТЕКСТА НА ПРЕДЛОЖЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА

Содержание

Слайд 2

Вкратце

Зачем и почему
Примеры
Признаки
Эксперименты

Вкратце Зачем и почему Примеры Признаки Эксперименты

Слайд 3

Вкратце

Зачем и почему
Примеры
Признаки
Эксперименты

Вкратце Зачем и почему Примеры Признаки Эксперименты

Слайд 4

Автоматическая обработка текста

синтаксический анализ (парсеры)
системы автоматического реферирования
машинный перевод
экспертные системы
...
Текст,

Автоматическая обработка текста синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные
разбитый на предложения

Слайд 5

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 6

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 7

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 8

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 9

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 10

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 11

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 12

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 13

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 14

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 15

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 16

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 17

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 18

Наивная сегментация

В связи с этим первый интервал пробегов был принят равным

Наивная сегментация В связи с этим первый интервал пробегов был принят равным
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 19

Наивная сегментация

км), второй интервал -- 700.
синтаксический анализ (парсеры)
системы автоматического реферирования

Наивная сегментация км), второй интервал -- 700. синтаксический анализ (парсеры) системы автоматического

машинный перевод
экспертные системы
...

Слайд 20

Практические решения

Эвристики:
Предложение должно содержать буквы
Предложение должно начинаться с заглавной буквы
Сокращения (из списка)

Практические решения Эвристики: Предложение должно содержать буквы Предложение должно начинаться с заглавной
требуют «особого внимания»
...

Слайд 21

Проблемы

Сложно адаптировать к новым данным
Сложно адаптировать к новым задачам
Сложно оценить роль отдельных

Проблемы Сложно адаптировать к новым данным Сложно адаптировать к новым задачам Сложно оценить роль отдельных факторов
факторов

Слайд 22

Вкратце

Зачем и почему
Примеры
Признаки
Эксперименты

Вкратце Зачем и почему Примеры Признаки Эксперименты

Слайд 23

Точка

URL: www.dialog-21.ru
даты, время: 06.06.08
сокращения: тыс. руб.
сокращения в конце предложения
опечатки: Михаил. Бычков
многоточия: эээ...
100...200
форматирование: Введение................1
Данные...................5

Точка URL: www.dialog-21.ru даты, время: 06.06.08 сокращения: тыс. руб. сокращения в конце

Слайд 24

Вопросительный и восклицательный знаки

комментарии: (правда?)
- о ужас! –
комбинации знаков: да ну?!
xxx: ??????
URL: http://maps.google.com/maps?f=q&hl=de&geocode=&q=bekasovo&sll=37.0625,-95.677068&sspn=49.310476,76.640625&ie=UTF8&z=15&iwloc=addr
кодировка: ?Локомотив?

Вопросительный и восклицательный знаки комментарии: (правда?) - о ужас! – комбинации знаков:

Слайд 25

Скобки и кавычки

.) и ). не по правилам
«», „“, ““, ‘ ‘,

Скобки и кавычки .) и ). не по правилам «», „“, ““, ‘ ‘, ‘

Слайд 26

Вкратце

Зачем и почему
Примеры
Признаки
Эксперименты

Вкратце Зачем и почему Примеры Признаки Эксперименты

Слайд 27

Контексты

знак препинания
слово слева
слово справа
«настоящее» слово справа

Контексты знак препинания слово слева слово справа «настоящее» слово справа

Слайд 28


В связи с этим первый интервал пробегов был принят равным 350...700

В связи с этим первый интервал пробегов был принят равным 350...700 тыс.
тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).

Слайд 29

Контексты

знак препинания .
слово слева 700
слово справа .
«настоящее» слово справа 1050

Контексты знак препинания . слово слева 700 слово справа . «настоящее» слово справа 1050

Слайд 30

Признаки

сокращения
«тип» слова
начало и конец абзаца
расстояния до потенциальных границ

Признаки сокращения «тип» слова начало и конец абзаца расстояния до потенциальных границ

Слайд 31

Сокращения

Извлечены автоматически из НКРЯ:
слово . слово_со_строчной
(дополнительно: по разметке)

Сокращения Извлечены автоматически из НКРЯ: слово . слово_со_строчной (дополнительно: по разметке)

Слайд 32

Вектор признаков

знак препинания .
слово слева 700
слово справа .
«настоящее» слово справа 1050
расстояние1 6
расстояние2 1
сокращение справа нет
сокращение слева нет
тип слова

Вектор признаков знак препинания . слово слева 700 слово справа . «настоящее»
слева цифры
тип слова справа пунктуация
тип «настоящего» слова справа цифры
начало абзаца нет
конец абзаца нет

Слайд 33

Вектор признаков

знак препинания .
слово слева 700
слово справа .
«настоящее» слово справа 1050
расстояние1 6
расстояние2 1
сокращение справа нет
сокращение слева нет
тип слова

Вектор признаков знак препинания . слово слева 700 слово справа . «настоящее»
слева цифры
тип слова справа пунктуация
тип «настоящего» слова справа цифры
начало абзаца нет
конец абзаца нет

Слайд 34

Вкратце

Зачем и почему
Примеры
Признаки
Эксперименты

Вкратце Зачем и почему Примеры Признаки Эксперименты

Слайд 35

Данные

НКРЯ, 33 документа:
политика, культура
ремонт локомотивов
Ручная разметка

Данные НКРЯ, 33 документа: политика, культура ремонт локомотивов Ручная разметка

Слайд 36

Данные - статистика

предложений 1639
предложений с .?! 1414
контекстов 5230(=4230+1000)
контекстов с .?! 2048

Данные - статистика предложений 1639 предложений с .?! 1414 контекстов 5230(=4230+1000) контекстов с .?! 2048

Слайд 37

Контрольные эвристики

termpunct:
Предложение должно заканчиваться «.», «?», или «!».
termpunct_cap:
+Предложение должно начинаться с

Контрольные эвристики termpunct: Предложение должно заканчиваться «.», «?», или «!». termpunct_cap: +Предложение
заглавной буквы.
advanced:
+ Предложение не должно заканчиваться сокращением и «.».

Слайд 38

Результаты-1

Результаты-1

Слайд 39

Результаты-2

Результаты-2

Слайд 40

Пример

Был на церемонии момент , когда прозвучала пронзительно высокая и чистая

Пример Был на церемонии момент , когда прозвучала пронзительно высокая и чистая
нота . " Ника " за " Честь и Достоинство "-- вот так , всё с заглавной буквы -- вручалась Петру Ефимовичу Тодоровскому .
Петру Тодоровскому -- оператору и режиссёру , композитору и музыканту , солдату и просто замечательному человеку .
Он молодой , ошалевший от победной весны 45-го , смотрел на нас с экрана в хуциевском фильме " Был месяц май ".
Он вышел на сцену под гром аплодисментов и " Рио-риту ".
Для своих ровесников и друзей так и оставшийся в его - то годы Петей Тодоровским .
Он прошёл через зал ," по главной улице с оркестром ", держа в руках гитару .
Спасибо вам , дорогой Петр Ефимович !
За веру , верность и " Верность ", за всё ваше кино , за то , что вы сделали для нас , за вашу нескончаемую любовь , за то , что вы есть .
За то , что " и вcё-таки , и вcё-таки , и вcё-таки мы победили "!
Той весной .
За то , что у нас есть эта весна .
И это ее семнадцатое мгновение .

Слайд 41

Заключение

статистический подход к задаче определения границ предложений в произвольном тексте на русском

Заключение статистический подход к задаче определения границ предложений в произвольном тексте на
языке:
легко адаптировать к новым данным и задачам
высокая скорость
высокая полнота и точность
В будущем:
лингвистическая экспертиза (сокращения)
новые данные (кавычки)
Имя файла: АВТОМАТИЧЕСКОЕ-РАЗБИЕНИЕ-ТЕКСТА-НА-ПРЕДЛОЖЕНИЯ-ДЛЯ-РУССКОГО-ЯЗЫКА.pptx
Количество просмотров: 160
Количество скачиваний: 0