Методы искусственного интеллекта

Февраль 22, 2021

Главная
Разное
Методы искусственного интеллекта

Содержание

2. 1. НАПРАВЛЕНИЯ
3. ПОДРАЗДЕЛЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
4. ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА a. Синтаксис b. Поиск c. Семантика d. Векторная модель и машинное обучение
5. СИНТАКСИС Формальные грамматики, грамматики Хомского Прагматика, семантика и синтаксис Применение синтаксиса для токенизации Применения синтаксиса для
6. 21.09.2021 — https://yandex.ru/dev/tomita/ — парсер для русского — https://github.com/natasha/natasha — NLP-библиотека для русского — https://github.com/kmike/pymorphy2 —
7. ПОИСК Предобработка текста Построение поискового индекса Выполнение запроса Закон Ципфа и его влияние на селективность и
8. ПОИСК Предобработка текста Построение поискового индекса Выполнение запроса Закон Ципфа и его влияние на селективность и
9. СЕМАНТИКА Дистрибутивная гипотеза и избыточность языка На небе только и разговоров , что о море и
10. СЕМАНТИКА Векторная модель : концепты , ортогональность и метрика Vector Space Model (VSM) – это математическая
11. 2. ВЕКТОРНЫЕ МОДЕЛИ И МАШИННОЕ ОБУЧЕНИЕ
12. 21.09.2021 ЗАДАЧА Метод главных компонент рассматривает текст как мешок слов . Для коротких текстов это работает
13. 21.09.2021 В УГОДУ СКОРОСТИ Натренированные векторные представления: EN: English word vectors · fastText RU: natasha/navec; RusVectōrēs:
14. 3. GOOGLE COLAB NOTEBOOK
15. ТЕСТ Почему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов сейчас наиболее распространена
16. ТЕСТ Почему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов сейчас наиболее распространена
18. Скачать презентацию

1. НАПРАВЛЕНИЯ

ПОДРАЗДЕЛЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
a. Синтаксис
b. Поиск
c. Семантика
d. Векторная модель и машинное обучение

СИНТАКСИС
Формальные грамматики, грамматики Хомского
Прагматика, семантика и синтаксис
Применение синтаксиса для токенизации
Применения синтаксиса для

задач семантики

21.09.2021
— https://yandex.ru/dev/tomita/ — парсер для русского
— https://github.com/natasha/natasha — NLP-библиотека для русского
— https://github.com/kmike/pymorphy2

— склонения и падежи для русского и украинского
— https://deeppavlov.ai/ — анализ, ответы на вопросы, общение
— https://github.com/nlpub/pymystem3 — стеммер для русского
Стемминг - отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова.
http://snowball.tartarus.org/algorithms/russian/stemmer.html - алгоритм

СИНТАКСИС-ИНСТРУМЕНТЫ

Слайд 7

ПОИСК
Предобработка текста
Построение поискового индекса
Выполнение запроса
Закон Ципфа и его влияние на селективность и

масштабирование

Чтобы понять, что именно ищет пользователь, поисковая система проводит тщательный лингвистический анализ запроса. Сначала определяется язык, на котором был сформулирован запрос. Например, в Яндексе индикатором языка является алфавит, используемый в запросе, а также характерные особенности сочетания букв, присущие различным языковым группам.
Далее проводится работа по трактовке морфологии. Поисковая система различает не только слова из запроса во всех их морфологических формах, но и синонимы, однако при ранжировании предпочтение отдается точному вхождению.
Также поисковым системам приходится разграничивать омонимы (слова с одинаковым написанием, но разным значением).
Например, одно и то же слово может быть истолковано и как глагол, и как существительное.
Определиться с наиболее вероятным списком форм помогает статистика совместной встречаемости слов и грамматических признаков. Для сбора статистики Яндекс использует национальный корпус русского языка и свои собственные корпусы, в которых собрано огромнейшее количество текстов.

Слайд 8

ПОИСК
Предобработка текста
Построение поискового индекса
Выполнение запроса
Закон Ципфа и его влияние на селективность и

масштабирование

Слайд 9

СЕМАНТИКА
Дистрибутивная гипотеза и избыточность языка
На небе только и разговоров , что

о море и о _____. Там говорят о том , как чертовски здорово наблюдать за огромным огненным шаром , как он тает в волнах . И еле видимый свет , словно от свечи , горит где - то в глубине ..

TF-IDF и терм-документная матрица
Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF. Они полезны в области обработки естественного языка, особенно в методах латентно-семантического анализа.
При создании базы данных терминов, используемых в наборе документов, матрица терминов формируется как матрица инцидентности, строки которой соответствуют документам, а элементы строк - наличию соответствующих терминов в этих документах.

Слайд 10

СЕМАНТИКА
Векторная модель : концепты , ортогональность и метрика
Vector Space Model (VSM)

– это математическая модель представления текстов, в которой каждому документу сопоставлен вектор, выражающий его смысл. Такое представление позволяет легко сравнивать слова, искать похожие, проводить классификацию, кластеризацию и многое другое. Но обо всём по порядку.
Метод главных компонент для понижения размерности и выделения ортогональных концептов
Один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретён Карлом Пирсоном в 1901 году. Применяется во многих областях, в том числе, в эконометрике, биоинформатике, обработке изображений, для сжатия данных, в общественных науках.

Слайд 11

2. ВЕКТОРНЫЕ МОДЕЛИ И МАШИННОЕ ОБУЧЕНИЕ

Слайд 12

21.09.2021
ЗАДАЧА
Метод главных компонент рассматривает текст как мешок слов . Для коротких текстов

это работает хорошо , но для длинных текстов это уже не так . Кроме того , разница между “A убил B” и “B убил A” будет потеряна .
Методы *2vec рассматривают слово в маленьком контексте , что привносит элемент порядка в обучение .
Ваша задача построить поисковый движок на базе doc2vec . * Пример обучения модели doc2vec по ссылке

Слайд 13

21.09.2021
В УГОДУ СКОРОСТИ
Натренированные векторные представления:
EN: English word vectors · fastText
RU: natasha/navec; RusVectōrēs:

модели

Слайд 14

3. GOOGLE COLAB NOTEBOOK

Слайд 15

ТЕСТ
Почему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов

сейчас наиболее распространена при обмене решениями в индустрии. Отметьте все верные утверждения:
Позволяет использовать документ с кодом без переключения окон
2. Можно просматривать в браузере
3. Позволяет легко получить скомпилированный бинарный файл
4. Можно исполнять без установки ПО на собственный компьютер

Методы искусственного интеллекта

Содержание

Слайд 2

1. НАПРАВЛЕНИЯ

Слайд 3

ПОДРАЗДЕЛЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Слайд 4

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
a. Синтаксис
b. Поиск
c. Семантика
d. Векторная модель и машинное обучение

Слайд 5

СИНТАКСИС
Формальные грамматики, грамматики Хомского
Прагматика, семантика и синтаксис
Применение синтаксиса для токенизации
Применения синтаксиса для

Слайд 6

21.09.2021
— https://yandex.ru/dev/tomita/ — парсер для русского
— https://github.com/natasha/natasha — NLP-библиотека для русского
— https://github.com/kmike/pymorphy2

Слайд 7

ПОИСК
Предобработка текста
Построение поискового индекса
Выполнение запроса
Закон Ципфа и его влияние на селективность и

Слайд 8

ПОИСК
Предобработка текста
Построение поискового индекса
Выполнение запроса
Закон Ципфа и его влияние на селективность и

Слайд 9

СЕМАНТИКА
Дистрибутивная гипотеза и избыточность языка
На небе только и разговоров , что

Слайд 10

СЕМАНТИКА
Векторная модель : концепты , ортогональность и метрика
Vector Space Model (VSM)

Слайд 11

2. ВЕКТОРНЫЕ МОДЕЛИ И МАШИННОЕ ОБУЧЕНИЕ

Слайд 12

21.09.2021
ЗАДАЧА
Метод главных компонент рассматривает текст как мешок слов . Для коротких текстов

Слайд 13

21.09.2021
В УГОДУ СКОРОСТИ
Натренированные векторные представления:
EN: English word vectors · fastText
RU: natasha/navec; RusVectōrēs:

Слайд 14

3. GOOGLE COLAB NOTEBOOK

Слайд 15

ТЕСТ
Почему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов

Слайд 16

ТЕСТ
Почему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов

Методы искусственного интеллекта

Содержание

1. НАПРАВЛЕНИЯ

ПОДРАЗДЕЛЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА a. Синтаксисb. Поискc. Семантикаd. Векторная модель и машинное обучение

СИНТАКСИСФормальные грамматики, грамматики ХомскогоПрагматика, семантика и синтаксисПрименение синтаксиса для токенизацииПрименения синтаксиса для

21.09.2021— https://yandex.ru/dev/tomita/ — парсер для русского— https://github.com/natasha/natasha — NLP-библиотека для русского— https://github.com/kmike/pymorphy2

ПОИСКПредобработка текстаПостроение поискового индексаВыполнение запросаЗакон Ципфа и его влияние на селективность и

ПОИСКПредобработка текстаПостроение поискового индексаВыполнение запросаЗакон Ципфа и его влияние на селективность и

СЕМАНТИКАДистрибутивная гипотеза и избыточность языка На небе только и разговоров , что

СЕМАНТИКАВекторная модель : концепты , ортогональность и метрика Vector Space Model (VSM)

2. ВЕКТОРНЫЕ МОДЕЛИ И МАШИННОЕ ОБУЧЕНИЕ

21.09.2021ЗАДАЧАМетод главных компонент рассматривает текст как мешок слов . Для коротких текстов

21.09.2021В УГОДУ СКОРОСТИНатренированные векторные представления:EN: English word vectors · fastTextRU: natasha/navec; RusVectōrēs:

3. GOOGLE COLAB NOTEBOOK

ТЕСТПочему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов

ТЕСТПочему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов

Похожие презентации

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
a. Синтаксис
b. Поиск
c. Семантика
d. Векторная модель и машинное обучение

СИНТАКСИС
Формальные грамматики, грамматики Хомского
Прагматика, семантика и синтаксис
Применение синтаксиса для токенизации
Применения синтаксиса для

21.09.2021
— https://yandex.ru/dev/tomita/ — парсер для русского
— https://github.com/natasha/natasha — NLP-библиотека для русского
— https://github.com/kmike/pymorphy2

ПОИСК
Предобработка текста
Построение поискового индекса
Выполнение запроса
Закон Ципфа и его влияние на селективность и

ПОИСК
Предобработка текста
Построение поискового индекса
Выполнение запроса
Закон Ципфа и его влияние на селективность и

СЕМАНТИКА
Дистрибутивная гипотеза и избыточность языка
На небе только и разговоров , что

СЕМАНТИКА
Векторная модель : концепты , ортогональность и метрика
Vector Space Model (VSM)

21.09.2021
ЗАДАЧА
Метод главных компонент рассматривает текст как мешок слов . Для коротких текстов

21.09.2021
В УГОДУ СКОРОСТИ
Натренированные векторные представления:
EN: English word vectors · fastText
RU: natasha/navec; RusVectōrēs:

ТЕСТ
Почему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов

ТЕСТ
Почему использование Jupyter Notebooks и Google Colab для упаковки кода и текстов