EGEE ApplicationsE.Tikhonenko (JINR, NA4 Manager for Russia ), N.Zaikin (JINR, NA3 Manager )

Содержание

Слайд 2

Talk Outline
NA4 basic goals and the directions of activities
Organizational structure
Participants
NA4 sub-tasks:
biomed
HEP
‘generic’

Talk Outline NA4 basic goals and the directions of activities Organizational structure
приложения
testing
Industry Forum
Milestones and deliverables
RDIG-EGEE participation in NA4
Conclusions
Glossary & Useful links

Слайд 3

План лекции
Основные цели и составляющие работы NA4
Организационная структура
Участники
Направления работ подгрупп NA4:
биомедицинские

План лекции Основные цели и составляющие работы NA4 Организационная структура Участники Направления
приложения
приложения физики высоких энергий
‘базовые’ приложения
тестирование
промышленный форум
Этапы работы и ожидаемые результаты
Взаимодействие с другими рабочими группами проекта EGEE
Участие RDIG-EGEE в NA4
Заключение

Слайд 4

Группа NA4: Идентификация и поддержка приложений в среде проекта EGEE

определение набора существующих

Группа NA4: Идентификация и поддержка приложений в среде проекта EGEE определение набора
пользовательских приложений из широкого спектра прикладных областей – научной, промышленной и коммерческой;
создание для каждой новой отрасли хорошо подготовленных групп для поддержки и развертывания (размещения) приложений, что, в свою очередь, создаст прочную основу для расширения сообщества EGEE;
сосредоточение работы на начальном периоде действия проекта в хорошо сформулированных прикладных областях – физике частиц и науках о жизни (в частности, биомедицине). Эти два научных сообщества уже приобщены к грид-технологиям и с самого начала проекта готовы к развертыванию реальных сложных приложений

Цели работ по идентификации и поддержке приложений:

Слайд 5

Группа NA4: Идентификация и поддержка приложений в среде проекта EGEE

Результатом работы группы

Группа NA4: Идентификация и поддержка приложений в среде проекта EGEE Результатом работы
NA4 будут являться программные приложения – прикладные пакеты, развернутые в инфраструктуре EGEE и доступные для работы в grid-среде соответствующим сообществам пользователей
Для развертывания этих приложений может понадобиться специальное ПО для обеспечения интерфейса к grid. Необходимо собрать существующую документацию из проекта EDG и других проектов (LCG, ARDA, GridLab, Healthgrid, …) для выработки общего решения
Процесс развертывания приложений в инфрастуктуру EGEE будет происходить в рамках виртуальных организаций, объединяющих соответствующих пользователей
Инфраструктура EGEE будет расширяться; с появлением новых пользователей им будет оказываться поддержка и будет организовываться обучение; также будут создаваться новые виртуальные организации

Основные составляющие работы:

Слайд 6

Организационная структура NA4

EGEE

NA3

NA4

Биомедицинские
приложения

Приложения ФВЭ

Базовые
приложения

Взаимодействие
c NA3

Подгруппа
тестирования

Промышленный
форум

Совещания;
отчеты

Grid-интерфейсы

Специфическое
матобеспечение
для приложений

Web-сайт;
получаемые
результаты;
публикации

Тестовые наборы

Организационная структура NA4 EGEE NA3 NA4 Биомедицинские приложения Приложения ФВЭ Базовые приложения

Слайд 7

NA4: руководство и взаимодействие

NA4 AWG
(V. Breton)

LCG

EGEE PEB

HEP
F. Harris
M. Lamanna

Biomed
J. Montagnat
C. Blanchet

Generic
R. Barbera

ARDA

Data
challenges

Biomed

NA4: руководство и взаимодействие NA4 AWG (V. Breton) LCG EGEE PEB HEP
technical
team

Generic
technical
team

Test team
R. Météry
Eric Fede

Слайд 8

NA4: роли партнеров в проекте и финансирование

NA4: роли партнеров в проекте и финансирование

Слайд 9

специфика биомедицинских приложений

Сложные требования по данным
Гетерогенные форматы данных
Частая обновляемость данных
Сложные

специфика биомедицинских приложений Сложные требования по данным Гетерогенные форматы данных Частая обновляемость
наборы данных (медицинские записи)
Ограничения на безопасность и конфиденциальность
Необходимость длительного хранения данных
Cложные требования по обработке данных
Биоинформатика (геномика, протеомика, …): распределенные базы данных
Медицинские(просмотр снимков, эпидемиология...): распределенные базы графических данных
Использование параллельных алгоритмов для обработки медицинских графических данных и для моделирования
Интерактивные приложения
Ограничения на безопасность и конфиденциальность

Слайд 10

BLAST: биоинформатика в испытательной модели EDG

Приложение BLAST - первый шаг в анализе

BLAST: биоинформатика в испытательной модели EDG Приложение BLAST - первый шаг в
новых последовательностей при сравнении ДНК- или белковых последовательностей с последовательностями, хранящимися в частных и публичных базах данных; может рассматриваться как идеальное grid-приложение:
Требует ресурсы для хранения баз данных и запуска задачи
Позволяет производить сравнение одной или нескольких последовательностей вместо параллельной работы с несколькими базами данныхl
Большое сообщество пользователей

Слайд 11

Гридификация приложения BLAST

UI

Computing
element

Input
file

Computing
element

Гридификация приложения BLAST UI Computing element Input file Computing element

Слайд 12

Моделирование Монте-Карло в рентгенотерапии

Binary file:
Image.raw
Size 19M

Scanner
slices:
DICOM format

User interface

CCIN2P3

RAL

NIKHEF

MARSEILLE

Моделирование Монте-Карло в рентгенотерапии Binary file: Image.raw Size 19M Scanner slices: DICOM

Слайд 13

CMS

ATLAS

LHCb

LHCb

ALICE
При ожидаемой скорости записи сырых данных
потребуются ресурсы для хранения данных
порядка

CMS ATLAS LHCb LHCb ALICE При ожидаемой скорости записи сырых данных потребуются
десятков и сотен ПБ.
Для обработки данных потребуются
сотни тысяч персональных компьютеров
(максимальной на текущий момент производительности)

Эксперименты на LHC

Слайд 14

Обработка данных и вычисления в физике высоких энергий

интерактивный
физический
анализ

Пакетная
обработка
данных

Обработка данных и вычисления в физике высоких энергий интерактивный физический анализ Пакетная

детектор

суммарные
данные по событиям

«сырые»
данные

Реконструкция
событий

моделирование
физических
событий

объекты для физического анализа
(выделенные по физическим каналам)

Отбор событий
и первичная
реконструкция

обработанные
данные

Триггер 1-го уровня

Слайд 15

Иерархия данных

“RAW, ESD, AOD, TAG”

RAW

~2 MB/event

ESD(/DST)

Первичная стадия реконструкции на уровне создания базовых

Иерархия данных “RAW, ESD, AOD, TAG” RAW ~2 MB/event ESD(/DST) Первичная стадия
кластеров и трек-сегментов
Геометрическая реконструкция событий: траектории частиц, импульсы и энергии

~100 kB/event

AOD

~10 kB/event

TAG

~1 kB/event

События, удовлетворяющие условиям триггера; записываются системами сбора данных (DAQ)

Реконструированная
информация

Информация для анализа

Указатель события (классификационная информация для быстрого выбора нужного события)

Event Summary Data

Analysis Object Data

Съем цифровых отсчетов с детекторов

На 2 порядка уменьшается объем данных по сравнению с исходным потоком

Физическая реконструкция: установление соответствия частиц и треков, уточнение характеристик струй, поиск распадных вершин

L1

L2+L3

Слайд 16

Специфика приложений ФВЭ

Требования по данным
Колоссальные объемы данных (десятки и сотни Петабайт)
Данные

Специфика приложений ФВЭ Требования по данным Колоссальные объемы данных (десятки и сотни
типа WORM (писать единожды, читать многократно)
Структуризация данных с последующим извлечением информации из данных (data mining)
Продолжительное время хранения данных, а также необходимость создания копий данных в разных странах мира
Требования к обработке данных
Обработка данных подразделяется на 2 типа – регулярное производство данных и «нерегулярный» анализ данных
Производство (моделирование ) данных происходит систематически; при этом производятся наборы данных порядка ~ 10**9 физических событий.
Анализ физических данных (на наборах данных порядка 10**7 событий) проводится произвольным образом и в индивидуальном порядке многими сотнями отдельных пользователей
Высокий уровень параллелизма обработки на уровне событий, который может быть описан ориентированным графом с указанием последовательности обработки
Поскольку интерактивная работа очень важна при анализе данных, необходимо предусмотреть возможность спасения сессий с сохранением информации об источнике данных («проверяемость», provenance)
Необходимость глобального доступа к базам данных экспериментов для получения значений констант, условий работы и т.д.

Слайд 17

Характеристики CMS Data Challenge DC04

Pre-Challenge Production
Использование набора инструментальных средств OCTOPUS, объединяющего средства

Характеристики CMS Data Challenge DC04 Pre-Challenge Production Использование набора инструментальных средств OCTOPUS,
производства данных CMS (CMS production tools) с grid-средствами.
В результате 8-ми месяцев непрерывного производства данных:
просчитано 750 000 заданий
при затратах производительности порядка 3500 KSI2000 - месяцев
получено 700 000 файлов
объем полученных данных - 80 TB
Производство данных с использованием пакета OSCAR (на основе Geant 4)
За 6 месяцев произведено 16 миллионов событий

Data Challenge
Поставленная задача: воспроизвести полную последовательность действий по реконструкции и распределению (размещению) данных на частоте 25 Гц
В результате удалось выполнить эту задачу в течение ограниченного периода времени; при этом:
В Tier-0 на 500 ЦПУ выполнялось 2200 заданий в день и производились данные со скоростью 4 MB/с;
затем данные передавались в соотв.Tier-1
регистрация данных (с POOL-метаданными) в RLS (Replica Location Service) происходила со скоростью 0.4 файла в секунду

25 Hz
15 Mevts/week

NDST as function of time

NOSCAR as function of time

Слайд 18

ALICE
Распр.анализ

промежуточное
программное
обеспечение
EGEE

Сообщество
ресурс-
провайдеров

ATLAS
Распр.анализ

CMS
Распр.анализ

LHCb
Распределенный
анализ

SEAL

PROOF

GAE

POOL

ARDA
Сотрудничество
Координация
Интеграция
Детализация
Приоритеты
Планирование

Опыт ?
?Определение требований
(Use Cases)


EGEE NA4
Идентификация
и поддержка

ALICE Распр.анализ промежуточное программное обеспечение EGEE Сообщество ресурс- провайдеров ATLAS Распр.анализ CMS

приложений

LCG-GAG
Группа
Grid-приложений

ARDA :A Realisation of Distributed Analysis for LHC

Persistency Framework

Core Libraries and Services

Grid-enabled Analysis Environment

Parallel ROOT Facilities

Слайд 19

NA4 «базовые» приложения

Основная задача - привлечение новых научных и промышленных сообществ, заинтересованных

NA4 «базовые» приложения Основная задача - привлечение новых научных и промышленных сообществ,
в использовании инфраструктуры, которая будет создана в ходе проекта EGEE.
Хорошо организованный портал GENIUS может служить прекрасным инструментом для внедрения в среду промежуточного ПО EGEE новых приложений – в значительной степени потому, что на порталe создан очень простой и доступный пользовательский интерфейс, что особенно важно при привлечении новых пользователей, не имеющих опыта работы в grid-среде.
GILDA – это полный набор элементов grid (испытательная модель, сертификация, виртуальная организация, система мониторинга, веб-портал) и приложений, который целиком посвящен задаче распространения знаний о grid-технологиях. Поэтому он успешно используется на обучающих курсах в рамках проекта EGEE. Его можно также считать идеальной испытательной моделью для портирования новых базовых приложений.

Слайд 20

Портал GILDA (http://gilda.ct.infn.it)

Портал GILDA (http://gilda.ct.infn.it)

Слайд 21

Вопросник по базовыми приложениям

Чтобы получить информацию и узнать о первых требованиях

Вопросник по базовыми приложениям Чтобы получить информацию и узнать о первых требованиях
от новых сообществ, заинтересованных в использовании инфраструктуры EGEE, был разработан вопросник, который доступен по адресу (http://alipc1.ct.infn.it/grid/egee/na4/questionnaire/na4-genapp-questionnaire.doc)
С уже поступившими сведениями можно ознакомиться по адресу (http://alipc1.ct.infn.it/grid/egee/na4/questionnaire):
Астрофизика (изучение эволюции галактики с помощью искусственного спутника Планк)
Система наблюдения Земли (озоновые карты, сейсмология, климат)
Электронные библиотеки (проект DILIGENT)
Grid – поисковые серверы (поисковый сервер проекта GRACE (Gravity Recovery and Climate Experiment))
Промышленные приложения (проект SIMDAT – grid-приложения в автомобильной, фармацевтической, авиа-космической промышленности и метеорологии)
Также был проявлен интерес из нескольких других сфер: вычислительной химии (Италия и Чехия), гражданского проектирования (Испания), и геофизики (Швейцария и Франция)

Слайд 22

Задачи Промышленного форума в проекте EGEE

Основная роль Промышленного форума – вовлечение в

Задачи Промышленного форума в проекте EGEE Основная роль Промышленного форума – вовлечение
проект партнеров из различных сфер промышленности.
Членами Промышленного форума EGEE могут быть компании любого уровня, основной или частичный бизнес которых развернут в Европе.
Промышленным форумом будет руководить исполнительный комитет, состоящий из участников проекта EGEE и представителей промышленности.
http://public.eu-egee.org/industry-forum/information

Слайд 23

NA4 группа тестирования

Будут разработаны 3 типа тестов, основанных на требованиях пользователей

NA4 группа тестирования Будут разработаны 3 типа тестов, основанных на требованиях пользователей
и опыте работы LHC DCs и ARDA :
Тесты по работоспособности сервисов: набор тестов по проверке работоспособности EGEE-сервисов. При этом должны проверяться все виды grid-сервисов: запуск и управление заданием, управление файлами, информационный сервис, ….
Тесты по оценке функциональности: для проверки, все ли необходимые функциональные возможности доступны: например, создание, перенос или удаление файлов, восстановление при ошибках и т.п.
Тесты для оценки рабочих характеристик: для возможности оценить испытательную модель с точки зрения конечный пользователь-приложение. Часть таких тестов будет посвящена временным оценкам ( время запуска задачи, время репликации какого-то количества файлов, …), другие – оценкам масштабируемости ( например, какое количество заданий может быть принято таким-то сервисом, ...), некоторые – менее конкретным оценкам (возможность использования информации, доступ к сообщениям об ошибкам,…).
Эти работы будут проводиться в тесном взаимодействии с ARDA , JRA1 и SA1

Слайд 24

Этапы работы и ожидаемые результаты

Этапы работы и ожидаемые результаты

Слайд 25

Взаимодействие NA4 с другими группами EGEE и иными партнерами (1)

SA1 - функционирование

Взаимодействие NA4 с другими группами EGEE и иными партнерами (1) SA1 -
grid
Как ввести новые виртуальные организации в LCG из других доменов?
Как организовать процесс интеграции в LCG новых ресурсов (сайтов) из новых прикладных областей?
Рациональность тестовых процедур
Сотрудничество с национальными проектами (например, использование мониторинга приложений, разработанного в Великобритании в проекте GridPP)
NA3 - обучение
Оценка требований к курсам
Подготовка и проведение курсов
JRA1 - промежуточное программное обеспечение
Обобщение всех исходных требований приложений и мониторинг (с обратной связью к промежуточному ПО) степени удовлетворения этих требований (этот процесс тщательно прорабатывается в подгруппе PTF-Project Technical Forum в рамках группы JRA1 )
JRA2 - обеспечение качества
NA4 имеет своего представителя в этой группе для определения процесса мониторирования качества сервисов EGEE

Слайд 26

Взаимодействие NA4 с другими группами EGEE и иными партнерами (2)

JRA3 - безопасность

Взаимодействие NA4 с другими группами EGEE и иными партнерами (2) JRA3 -

Безопасность данных для медицинских (и других) приложений
Безопасность сайтов
SA2,JRA4 – организация сети
Обеспечение глобальных требований приложений ФВЭ в LCG
Биомедицинские и другие приложения могут иметь иные глобальные требования
NA4 будет предоставлять информацию по определению требований для отдельных приложений, особенно в проблемных ситуациях
LCG
NA4/HEP представлены в группе grid-приложений (GAG) проекта LCG
Это требования от экспериментов ФВЭ и формирование обратной связи в промежуточное программное обеспечение. Некоторые члены группы GAG входят в состав PTF (Project Technical Forum) группы JRA2.

Слайд 27

Участие RDIG-EGEE в NA4

Приложения ФВЭ:
Институт теоретической и экспериментальной физики (Москва) (отв.по

Участие RDIG-EGEE в NA4 Приложения ФВЭ: Институт теоретической и экспериментальной физики (Москва)
LHCb)
Институт физики высоких энергий (Протвино) (отв.по ATLAS)
Курчатовский институт (Москва)
Научно-исследовательский институт ядерной физики (Москва) (отв. по CMS)
С.-Петербургский институт ядерной физики (Гатчина)
Объединенный институт ядерных исследований (Дубна) (отв. по ALICE и CMS)
Биологические приложения
Институт математических проблем биологии (Пущино)
Приложения ядерной физики (FusionGrid)
Курчатовский институт (Москва)

Основная задача (NA4.4.2) – миграция приложений в инфраструктуру EGEE

Слайд 28

Заключение

Деятельность группы NA4 на данном этапе базируется на следующих моментах:
Эксперименты ФВЭ

Заключение Деятельность группы NA4 на данном этапе базируется на следующих моментах: Эксперименты
предполагают использовать окружение LCG-2 для своих Data Challenges
ARDA успешно разворачивает свою работу и ждет появления первого прототипа нового промежуточного математического обеспечения
Биомедицинские приложения готовы для развертывания в среде LCG-2 и опытных сервисов
Подгруппа «базовых» приложений очень активно взаимодействует с GILDA и NA3
Подгруппа тестирования ведет свою работу совместно с JRA1 и ARDA
Промышленный форум налаживает контакты с различными компаниями (см. доклады на конференции EGEE в Корке)
14-16 июля в Катанье намечено проведение открытого совещания NA4, на котором планируется обсудить проблемы промежуточного п/о, функционирования, безопасности и сетевые вопросы.
NA4 Web-сайт http://egee-na4.ct.infn.it

Слайд 29

Некоторые термины

Data Challenge – крупномасштабные сеансы массового моделирования и обработки физических

Некоторые термины Data Challenge – крупномасштабные сеансы массового моделирования и обработки физических
событий в распределенной среде с использованием grid-технологий; проводятся в ряде экспериментов ФВЭ с целью подготовки и оптимизации рабочей стадии экспериментов
deployment – развертывание; внедрение, размещение (например, системы, ПО на системе или платформе)
disseminate - распространять знания
errors recovery – восстановление при ошибках
gridification - «гридификация» - развертывание (приложения) в grid-среде
GRID-services: Job submission and management - запуск и управление заданием; files management - управление файлами; Information service – информационный сервис
testbed - испытательная модель
virtual organization (VO) – объединение пользователей, организаций и ресурсов в новый административный домен в рамках grid-инфраструктуры
. . . should be continued . . .
Имя файла: EGEE-ApplicationsE.Tikhonenko-(JINR,-NA4-Manager-for-Russia-),-N.Zaikin-(JINR,-NA3-Manager-).pptx
Количество просмотров: 146
Количество скачиваний: 0