Слайд 2Вкратце
Зачем и почему
Примеры
Признаки
Эксперименты
![Вкратце Зачем и почему Примеры Признаки Эксперименты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-1.jpg)
Слайд 3Вкратце
Зачем и почему
Примеры
Признаки
Эксперименты
![Вкратце Зачем и почему Примеры Признаки Эксперименты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-2.jpg)
Слайд 4Автоматическая обработка текста
синтаксический анализ (парсеры)
системы автоматического реферирования
машинный перевод
экспертные системы
...
Текст,
![Автоматическая обработка текста синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-3.jpg)
разбитый на предложения
Слайд 5Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-4.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 6Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-5.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 7Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-6.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 8Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-7.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 9Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-8.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 10Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-9.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 11Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-10.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 12Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-11.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 13Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-12.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 14Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-13.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 15Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-14.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 16Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-15.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 17Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-16.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 18Наивная сегментация
В связи с этим первый интервал пробегов был принят равным
![Наивная сегментация В связи с этим первый интервал пробегов был принят равным](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-17.jpg)
350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 19Наивная сегментация
км), второй интервал -- 700.
синтаксический анализ (парсеры)
системы автоматического реферирования
![Наивная сегментация км), второй интервал -- 700. синтаксический анализ (парсеры) системы автоматического](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-18.jpg)
машинный перевод
экспертные системы
...
Слайд 20Практические решения
Эвристики:
Предложение должно содержать буквы
Предложение должно начинаться с заглавной буквы
Сокращения (из списка)
![Практические решения Эвристики: Предложение должно содержать буквы Предложение должно начинаться с заглавной](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-19.jpg)
требуют «особого внимания»
...
Слайд 21Проблемы
Сложно адаптировать к новым данным
Сложно адаптировать к новым задачам
Сложно оценить роль отдельных
![Проблемы Сложно адаптировать к новым данным Сложно адаптировать к новым задачам Сложно оценить роль отдельных факторов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-20.jpg)
факторов
Слайд 22Вкратце
Зачем и почему
Примеры
Признаки
Эксперименты
![Вкратце Зачем и почему Примеры Признаки Эксперименты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-21.jpg)
Слайд 23Точка
URL: www.dialog-21.ru
даты, время: 06.06.08
сокращения: тыс. руб.
сокращения в конце предложения
опечатки: Михаил. Бычков
многоточия: эээ...
100...200
форматирование: Введение................1
Данные...................5
![Точка URL: www.dialog-21.ru даты, время: 06.06.08 сокращения: тыс. руб. сокращения в конце](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-22.jpg)
Слайд 24Вопросительный и восклицательный знаки
комментарии: (правда?)
- о ужас! –
комбинации знаков: да ну?!
xxx: ??????
URL: http://maps.google.com/maps?f=q&hl=de&geocode=&q=bekasovo&sll=37.0625,-95.677068&sspn=49.310476,76.640625&ie=UTF8&z=15&iwloc=addr
кодировка: ?Локомотив?
![Вопросительный и восклицательный знаки комментарии: (правда?) - о ужас! – комбинации знаков:](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-23.jpg)
Слайд 25Скобки и кавычки
.) и ). не по правилам
«», „“, ““, ‘ ‘,
![Скобки и кавычки .) и ). не по правилам «», „“, ““, ‘ ‘, ‘](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-24.jpg)
‘
Слайд 26Вкратце
Зачем и почему
Примеры
Признаки
Эксперименты
![Вкратце Зачем и почему Примеры Признаки Эксперименты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-25.jpg)
Слайд 27Контексты
знак препинания
слово слева
слово справа
«настоящее» слово справа
![Контексты знак препинания слово слева слово справа «настоящее» слово справа](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-26.jpg)
Слайд 28
В связи с этим первый интервал пробегов был принят равным 350...700
![В связи с этим первый интервал пробегов был принят равным 350...700 тыс.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-27.jpg)
тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).
Слайд 29Контексты
знак препинания .
слово слева 700
слово справа .
«настоящее» слово справа 1050
![Контексты знак препинания . слово слева 700 слово справа . «настоящее» слово справа 1050](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-28.jpg)
Слайд 30Признаки
сокращения
«тип» слова
начало и конец абзаца
расстояния до потенциальных границ
![Признаки сокращения «тип» слова начало и конец абзаца расстояния до потенциальных границ](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-29.jpg)
Слайд 31Сокращения
Извлечены автоматически из НКРЯ:
слово . слово_со_строчной
(дополнительно: по разметке)
![Сокращения Извлечены автоматически из НКРЯ: слово . слово_со_строчной (дополнительно: по разметке)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-30.jpg)
Слайд 32Вектор признаков
знак препинания .
слово слева 700
слово справа .
«настоящее» слово справа 1050
расстояние1 6
расстояние2 1
сокращение справа нет
сокращение слева нет
тип слова
![Вектор признаков знак препинания . слово слева 700 слово справа . «настоящее»](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-31.jpg)
слева цифры
тип слова справа пунктуация
тип «настоящего» слова справа цифры
начало абзаца нет
конец абзаца нет
Слайд 33Вектор признаков
знак препинания .
слово слева 700
слово справа .
«настоящее» слово справа 1050
расстояние1 6
расстояние2 1
сокращение справа нет
сокращение слева нет
тип слова
![Вектор признаков знак препинания . слово слева 700 слово справа . «настоящее»](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-32.jpg)
слева цифры
тип слова справа пунктуация
тип «настоящего» слова справа цифры
начало абзаца нет
конец абзаца нет
Слайд 34Вкратце
Зачем и почему
Примеры
Признаки
Эксперименты
![Вкратце Зачем и почему Примеры Признаки Эксперименты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-33.jpg)
Слайд 35Данные
НКРЯ, 33 документа:
политика, культура
ремонт локомотивов
Ручная разметка
![Данные НКРЯ, 33 документа: политика, культура ремонт локомотивов Ручная разметка](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-34.jpg)
Слайд 36Данные - статистика
предложений 1639
предложений с .?! 1414
контекстов 5230(=4230+1000)
контекстов с .?! 2048
![Данные - статистика предложений 1639 предложений с .?! 1414 контекстов 5230(=4230+1000) контекстов с .?! 2048](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-35.jpg)
Слайд 37Контрольные эвристики
termpunct:
Предложение должно заканчиваться «.», «?», или «!».
termpunct_cap:
+Предложение должно начинаться с
![Контрольные эвристики termpunct: Предложение должно заканчиваться «.», «?», или «!». termpunct_cap: +Предложение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-36.jpg)
заглавной буквы.
advanced:
+ Предложение не должно заканчиваться сокращением и «.».
Слайд 40Пример
Был на церемонии момент , когда прозвучала пронзительно высокая и чистая
![Пример Был на церемонии момент , когда прозвучала пронзительно высокая и чистая](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-39.jpg)
нота . " Ника " за " Честь и Достоинство "-- вот так , всё с заглавной буквы -- вручалась Петру Ефимовичу Тодоровскому .
Петру Тодоровскому -- оператору и режиссёру , композитору и музыканту , солдату и просто замечательному человеку .
Он молодой , ошалевший от победной весны 45-го , смотрел на нас с экрана в хуциевском фильме " Был месяц май ".
Он вышел на сцену под гром аплодисментов и " Рио-риту ".
Для своих ровесников и друзей так и оставшийся в его - то годы Петей Тодоровским .
Он прошёл через зал ," по главной улице с оркестром ", держа в руках гитару .
Спасибо вам , дорогой Петр Ефимович !
За веру , верность и " Верность ", за всё ваше кино , за то , что вы сделали для нас , за вашу нескончаемую любовь , за то , что вы есть .
За то , что " и вcё-таки , и вcё-таки , и вcё-таки мы победили "!
Той весной .
За то , что у нас есть эта весна .
И это ее семнадцатое мгновение .
Слайд 41Заключение
статистический подход к задаче определения границ предложений в произвольном тексте на русском
![Заключение статистический подход к задаче определения границ предложений в произвольном тексте на](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/425509/slide-40.jpg)
языке:
легко адаптировать к новым данным и задачам
высокая скорость
высокая полнота и точность
В будущем:
лингвистическая экспертиза (сокращения)
новые данные (кавычки)