Постановка задачи двуклассового распознавания

Февраль 19, 2021

Главная
Разное
Постановка задачи двуклассового распознавания

Содержание

2. I. Зачем нужно обучение? Ошибка на обучающем множестве. Ошибка на тестовом множестве. Цель распознавания – уменьшить
3. II. Зачем нужно обучение? ` С заданной вероятностью можно написать, что Errtest 2. Чем больше мы
4. Распознаватель «Кора». Пространство признаков – логические утверждения. Симптомы. 3 значения синдрома. Множество решающих правил – конъюнкции
5. I. Что можно надежно утверждать об экспрессии генов? Резко выраженная дифференциальная экспрессия. Мы видели, что после
6. II. Что можно надежно утверждать об экспрессии генов? Б) Модель, учитывающая неспецифическую гибридизацию. I(G, j, k)
7. III. Что можно надежно утверждать об экспрессии генов? В) Как выразить утверждение “высокая экспрессия гена” ?
8. Как измерять ошибку распознавания? Ошибка на обучающем множестве всегда занижена. Лучший способ – разбиение на обучающее
9. ROC curve FPR=1-specificity TPR = sensitivity
11. Скачать презентацию

Слайд 2

I. Зачем нужно обучение?
Ошибка на обучающем множестве. Ошибка на тестовом множестве.
Цель распознавания

– уменьшить ошибку на тестовом множестве. Обобщение. Вероятностные утверждения об ошибке.
Основная гипотеза индуктивного обучения: если сложность множества решающих правил не велика, то с высокой вероятностью ошибка на обучающем множестве будет мало отличаться от ошибки на тестовом множестве.
Оказывается, что можно определять меры сложности C множества решающих правил так, чтобы доказывать неравенства типа P(| Errtest-Errtrain| > d) < f(C,n,d), где f→0 при n, стремящемся к бесконечности.

Слайд 3

II. Зачем нужно обучение?
`
С заданной вероятностью можно написать, что
Errtest < Errtrain

+ f(C, n) . К сожалению, уменьшив Errtrain с помощью построения более сложных правил, мы увеличиваем С и f(C, n).
2. Чем больше мы знаем об истинном правиле, тем более простое множество правил, обеспечивающее малую ошибку, можно построить.

Слайд 4

Распознаватель «Кора».
Пространство признаков – логические утверждения. Симптомы. 3 значения синдрома.
Множество решающих

правил – конъюнкции – синдромы.
Отбор синдромов по частотам. Экзамен – голосование. Возможное усложнение – веса.
Естественная мера сложности – количество оцениваемых синдромов + количество отобранных синдромов.

Слайд 5

I. Что можно надежно утверждать об экспрессии генов?
Резко выраженная дифференциальная экспрессия.
Мы видели,

что после нормализации и сложной обработки можно достаточно надежно заметить, что экспрессия изменилась в 2 и более раза. Это значит, что можно строить синдромы типа: 1, если Eg>a, 0, если Eg 2b.
2. Утверждения об экспрессии, не требующие нормализации.
Монотонно возрастающие функции.
A) Модель, не учитывающая неспецифической гибридизации
Интенсивность j-ого зонда гена g на k-том чипе
I(g, j, k) = Сk(f(j)E(g)), где Сk() – монотонное нелинейное влияние k-ого чипа,
f(j) – эффективность j-ого зонда, E(g) – экспрессия гена g.
Из монотонности следует, что I(g1, j1, k) > I(g2, j2,k) ⬄ E(g1)/E(g2) > f(j2)/f(j1)
Важно, что f(j2) и f(j1) не меняются от чипа к чипу. Поэтому, если I(g1, j1, k) >I(g2, j2,k) выполняется часто на одном классе и редко на другом, то это хороший симптом.

Слайд 6

II. Что можно надежно утверждать об экспрессии генов?
Б) Модель, учитывающая неспецифическую гибридизацию.
I(G,

j, k) = Ck(Σg f(j,g)E(g)),
Здесь I(G, j, k) – интенсивность для зонда j гена G, а f(j, g) – эффективность этого зонда для гена g.
Аналогично предыдущему I(g1, j1, k) >I(g2, j2,k) ⬄ Σg f(j1,g)E(g) > Σg f(j2,g)E(g)
Последнее неравенство формально зависит от экспрессий всех генов и поэтому может быть очень неустойчивым. Однако, поскольку все f по прежнему не зависят от чипа, если оно выполняется достаточно часто на одном классе и достаточно редко на другом, это хороший симптом. Поскольку Affymetrix специально выбирал олигонуклеотиды так, чтобы снизить влияние неспецифической гибридизации, то есть надежда, что в достаточно большой части случаев f таковы, что эта модель сводится к предыдущей, и, значит выполняется достаточно часто.

Слайд 7

III. Что можно надежно утверждать об экспрессии генов?
В) Как выразить утверждение “высокая

экспрессия гена” ?
Мы поняли, что утверждения о соотношений экспрессий двух генов могут быть выражены способом, не требующим нормализации. Но естественно предполагать, что не менее, а может и более важными являются утверждения об экспрессии конкретного гена типа “при раке данный ген сильно экспрессирован”. Прямое сравнение экспрессии с порогом невозможно без нормализации. Однако мы можем заменить сравнение с порогом на сравнение с квантилем. То есть вместо утверждения “данный ген сильно экспрессирован” можно использовать утверждение типа “данный ген больше ¾ генов на этом чипе”.

Слайд 8

Как измерять ошибку распознавания?
Ошибка на обучающем множестве всегда занижена.
Лучший способ – разбиение

на обучающее и тестовое множество. Еще лучше – разбиение на обучающее, верификационное и тестовое множества. На верификационном подбирают параметры обучения, а само обучение проводят на обучающем.
Скользящее обучение (leave-one-out)
Уверенность (конфиденс) ответа. Реджектная кривая.

Постановка задачи двуклассового распознавания

Содержание

I. Зачем нужно обучение?Ошибка на обучающем множестве. Ошибка на тестовом множестве.Цель распознавания

II. Зачем нужно обучение?`С заданной вероятностью можно написать, что Errtest < Errtrain

Распознаватель «Кора».Пространство признаков – логические утверждения. Симптомы. 3 значения синдрома. Множество решающих

I. Что можно надежно утверждать об экспрессии генов?Резко выраженная дифференциальная экспрессия.Мы видели,

II. Что можно надежно утверждать об экспрессии генов?Б) Модель, учитывающая неспецифическую гибридизацию.I(G,

III. Что можно надежно утверждать об экспрессии генов?В) Как выразить утверждение “высокая

Как измерять ошибку распознавания?Ошибка на обучающем множестве всегда занижена.Лучший способ – разбиение

ROC curveFPR=1-specificityTPR = sensitivity

Похожие презентации