Высокопроизводительные вычисления в биоинформатике

Содержание

Слайд 2

*

Высокопроизводительные вычисления в биоинформатике

Особенности предметной области

Большой темп накопления знаний. Появление новых высокопроизводительных

* Высокопроизводительные вычисления в биоинформатике Особенности предметной области Большой темп накопления знаний.
экспериментальных установок.
Большой темп роста числа гетерогенных источников данных - баз данных.
Тенденция к усложнению моделей предметной области.
Расширение области применения молекулярно-генетических знаний: биомедицина, фармакология, нанобиоинженерия и т.д.
Необходимость решать задачи, требующие больших вычислительных ресурсов.
Необходимость решать задачи, требующие интеграции больших объемов гетерогенных источников данных.

Слайд 3

*

Высокопроизводительные вычисления в биоинформатике

Системная биология
Цель - изучение организации и механизмов развития и

* Высокопроизводительные вычисления в биоинформатике Системная биология Цель - изучение организации и
функционирования живых систем на основе информации, закодированной в их геномах, в ходе их взаимодействия с окружающей средой.

Описание в базах данных и интеграция огромных объемов гетерогенной экспериментальной информации, характеризующей живые системы на различных уровнях их структурно-функциональной организации

Крупномасштабный анализ экспериментальных данных

Построение математических моделей организации и функционирования живых систем

Предсказание новых особенностей организации и функционирования живых систем

Планирование экспериментов по проверке результатов предсказания

Проведение экспериментов и получение новых данных и знаний

СИСТЕМНАЯ БИОЛОГИЯ ВОЗНИКЛА, КОГДА ОНА СТАЛА ПРЕДСКАЗАТЕЛЬНОЙ НАУКОЙ

Слайд 4

*

Высокопроизводительные вычисления в биоинформатике

Системная биология – интегративная наука

* Высокопроизводительные вычисления в биоинформатике Системная биология – интегративная наука

Слайд 5

*

Высокопроизводительные вычисления в биоинформатике

Экспериментально-вычислительная база системной биологии
Кластер «Системная биология» Новосибирского научного центра

* Высокопроизводительные вычисления в биоинформатике Экспериментально-вычислительная база системной биологии Кластер «Системная биология»
СО РАН

Геномика: автоматический
секвенатор

Протеомика:
массовый анализ белков и метаболитов

ТРАНСКРИПТОМИКА: производство биочипов высокой плотности и анализ профилей экспрессии генов

Высокопроизводительные
вычислительные

Клеточная биология: лазерный сканирующий микроскоп
LSM510 META

Прижизненная томография
экспериментальных животных

Слайд 6

*

Высокопроизводительные вычисления в биоинформатике

Объемы молекулярно-биологических данных и комбинаторная сложность задач биоинформатики

* Высокопроизводительные вычисления в биоинформатике Объемы молекулярно-биологических данных и комбинаторная сложность задач биоинформатики

Слайд 7

*

Высокопроизводительные вычисления в биоинформатике

Список некоторых наиболее затратных задач биоинформатики и потребности в

* Высокопроизводительные вычисления в биоинформатике Список некоторых наиболее затратных задач биоинформатики и
вычислительных и информационных ресурсах

Слайд 8

*

Высокопроизводительные вычисления в биоинформатике

Анализ потребности в Супервычислениях

Клеточные процессы

Клеточные сообщества

Экологические процессы

Метаболические пути

Необходимые вычислительные

* Высокопроизводительные вычисления в биоинформатике Анализ потребности в Супервычислениях Клеточные процессы Клеточные
ресурсы

Уровни описания биосистем

Предсказание структуры белка

Сравнение геномов

Моделирование динамики белковых комплексов

Молекулярный докинг и моделирование взаимодействия

Сравнительный анализ белков

Моделирование генных сетей

1

10

100

1000 Tflops

Моделирование клетки

Моделирование эволюционных процессов

Макромоделирование экосистем

Моделирование метаболических путей

Молекулярная машина

Асемблирование генома

Макромолекулы

Широкомасштабное моделирование экосистем

Моделирование динамики паразитарной инфекции на молекулярно-генетическом уровне

Моделирование органа

Макромоделирование микробных сообществ

Слайд 9

Технологии ускорения решения задач

2. Использование специальных процессоров:
FPGA (Field Programmable Gate

Технологии ускорения решения задач 2. Использование специальных процессоров: FPGA (Field Programmable Gate
Array)
MPPA (Massively Parallel Processor Array)
GPU (Graphics Processing Unit)

1. Использование высокопроизводительных вычислительных кластеров или суперкомпьютеров:
Распараллеливание по данным
Распараллеливание по процессам

3. Использование гибридных вычислительных систем, объединяющих в вычислительных узлах CPU вместе со спецпроцессорами, GPU или FPGA.
Пример: IBM Roadrunner. Процессор PowerXCell 8i.

Слайд 10

*

Высокопроизводительные вычисления в биоинформатике

GPU демонстрируют хорошие результаты при:
Параллельной обработке данных
Когда одна и

* Высокопроизводительные вычисления в биоинформатике GPU демонстрируют хорошие результаты при: Параллельной обработке
та же последовательность действий, применяется к большому объёму данных
Расчетах с высокой плотностью арифметики
Когда велико отношение числа арифметических инструкций к числу обращений к памяти

Когда эффективно GPU?

Одни и те же вычисления означают меньшие требования к управлению исполнением (flow control)
Высокая плотность арифметики и большой объём данных означают возможность покрытия латентности памяти вычислениями (вместо больших кэшей на CPU)

Слайд 12

Генетический алгоритм оптимизации. Монте-Карло (300-1000)
Анализ текстов, поиск регулярных выражений. (10-35).

Генетический алгоритм оптимизации. Монте-Карло (300-1000) Анализ текстов, поиск регулярных выражений. (10-35). Сравнительная

Сравнительная геномика. Филогения (15)
Smith Waterman, BLAST, ClustalW (30-70)
Скрытые марковские процессы. HMMer (25-30)
Множественное выравнивание (30).
распознавание образов(100), К-ближайших соседей (470), SVM(150),
Нейросети (15);
Алгоритмы на графах (20)
Дискретное моделирование биологических систем (200)
Молекулярная динамика (100-150),
Молекулярный докинг (16)
Молекулярный фолдинг (100)
Медицинская томография (300)
Анализ изображений (100)
Решение систем линейных уравнений (50)
Сингулярная декомпозиция (60)

Примеры приложений GPU CUDA и их эффективность

Слайд 13

Благодарю за внимание!

Благодарю за внимание!

Слайд 14

*

Высокопроизводительные вычисления в биоинформатике

Компьютерный анализ результатов секвенирования и ассемблирование полноразмерных геномов.
Структурно-функциональная аннотация

* Высокопроизводительные вычисления в биоинформатике Компьютерный анализ результатов секвенирования и ассемблирование полноразмерных
полногеномных последовательностей прокариот и эукариот.
Сравнительный анализ полногеномных последовательностей.
Молекулярная эволюция. Филогения.
Широкомасштабный компьютерный анализ протеомов.
Компьютерный анализ и моделирование структурно-функциональной организации ДНК, РНК, белков и их комплексов.
Функциональная аннотация белковых макромолекул. Молекулярный скрининг. Молекулярный докинг и молекулярный дизайн медицинских препаратов.
Дизайн самоорганизующихся ДНК/РНК наноструктур.
Молекулярная эпидемиология. Анализ полиморфизмов.
Компьютерное моделирование сложных молекулярно-генетических систем и процессов в норме и патологии.
Компьютерно-информационная поддержка экспериментального дизайна искусственных бактериальных молекулярно-генетических конструкций.
Компьютерный анализ изображений.

Классы задач, решаемых в СО РАН

Имя файла: Высокопроизводительные-вычисления-в-биоинформатике.pptx
Количество просмотров: 123
Количество скачиваний: 1