Организация ресурсного центра Grid

Содержание

Слайд 2

С чего начать ?

Быстрая сеть – необходимо иметь хорошую связь с другими

С чего начать ? Быстрая сеть – необходимо иметь хорошую связь с
центрами.
Достаточное количество ресурсов – необходимо иметь в распоряжении хотя бы несколько ПК.
Программное обеспечение – операционная система Scientific Linux (или Scientific Linux CERN) + ПО gLite (бывшее LCG-2). Работает (пока) только на i386. Есть релиз под amd64.

Слайд 3

Откуда взять ПО ?

ОС:
https://www.scientificlinux.org/distributions
http://linux.web.cern.ch/linux/
Попросить диски у знакомых или у меня (3 CD)

Откуда взять ПО ? ОС: https://www.scientificlinux.org/distributions http://linux.web.cern.ch/linux/ Попросить диски у знакомых или

Всё остальное – через механизм APT (Automatic Porting Tool)

Слайд 4

Настройка APT

Два новых источника пакетов – один для gLite, второй для сертификатов

Настройка APT Два новых источника пакетов – один для gLite, второй для
CA.
/etc/apt/sources.list.d/glite.list
# gLite RPMs
rpm http://glitesoft.cern.ch/EGEE/gLite/APT/R3.0/ rhel30 externals Release3.0 updates
/etc/apt/sources.list.d/eugridpma-ca.list
# EUGridPMA CA RPMs
rpm http://www.eugridpma.org distribution/igtf/current/apt accredited
Есть зеркало в ПИЯФ:
http://server.pnpi.nw.ru/apt/GLITE-3.0
http://server.pnpi.nw.ru/apt/CA

Слайд 5

Распределение узлов (идеальный вариант)

Вычислительные узлы (WN)

Узлы хранения данных (DPM)

Пользовательский интерфейс (UI)

Управляющий узел (CE,

Распределение узлов (идеальный вариант) Вычислительные узлы (WN) Узлы хранения данных (DPM) Пользовательский
SE)

Слайд 6

Что можно сократить

Не обязательно сразу устанавливать систему хранения данных или можно совместить

Что можно сократить Не обязательно сразу устанавливать систему хранения данных или можно
её с управляющим узлом.
Вычислительных узлов может быть всего несколько.
Пользовательский интерфейс можно не устанавливать совсем.

Слайд 7

Шаги установки ПО

Добиться загрузки ОС на всех узлах (либо установить, либо грузить

Шаги установки ПО Добиться загрузки ОС на всех узлах (либо установить, либо
по сети)
Установить YAIM (набор скриптов для настройки и установки gLite):
apt-get install glite-yaim
Отредактировать файлы site-info.def и wn-list.conf в каталоге /opt/glite/yaim/examples
Запустить установку из /opt/glite/yaim/scripts:
install_node <список узлов>
Запустить конфигурацию оттуда же:
configure_node <список узлов>

Слайд 8

Основные типы узлов

lcgCE – старый управляющий узел для вычислений
gliteCE – новый управляющий

Основные типы узлов lcgCE – старый управляющий узел для вычислений gliteCE –
узел для вычислений
SE_dpm_mysql – управляющий узел для системы хранения данных
SE_dpm_disk – узел хранения данных
WN – вычислительный узел
UI – пользовательский интерфейс

Слайд 9

Установка gLite

Выполняется автоматически через yaim
Возможна установка вручную – для всех типов узлов

Установка gLite Выполняется автоматически через yaim Возможна установка вручную – для всех
определены мета-пакеты:
apt-get install lcg-CE
apt-get install glite-CE
apt-get install glite-SE_dpm_mysql
apt-get install glite-WN
apt-get install glite-UI

Слайд 10

Куда смотреть после установки ?

Проверить настройки torque (команда qmgr). Проверить запуск задач

Куда смотреть после установки ? Проверить настройки torque (команда qmgr). Проверить запуск
через qsub. Посмотреть состояние очереди через qstat.
Проверить, работает ли информационная система (на управляющем узле команда ldapsearch –x –h :2170 –b “o=grid”)
Проверить, создался ли grid-mapfile в каталоге /etc/grid-security

Слайд 11

Нужные процессы на узлах

CE:
globus-gatekeeper или edg-gatekeeper – интерфейс GRAM (принимает задания снаружи)
in.ftpd

Нужные процессы на узлах CE: globus-gatekeeper или edg-gatekeeper – интерфейс GRAM (принимает
или edg-gridftpd (на порту 2811) – интерфейс GridFTP (принимает файлы снаружи)
grid-info-soft-register, bdii-update, bdii-fwd, всевозможные slapd – куски информационной системы
edg-wl-logd, edg-wl-interlogd – части сервиса L&B
pbs_server, pbs_sched или maui – локальная batch-система.
многочисленные globus-job-manager – мониторы задач (по одному на задачу)
SE:
dpm, dpnsdaemon – интерфейс DPM (только на главном узле)
srmv1, srmv2, rfiod, dpm.ftpd – интерфейсы SRM/RFIO/GridFTP
WN:
только pbs_mom

Слайд 12

Возникающие проблемы

Нет данных (неполные данные) в информационной системе: проблема в настройке или

Возникающие проблемы Нет данных (неполные данные) в информационной системе: проблема в настройке
в инфо-провайдерах, путь для поиска проблем: /opt/lcg/var/gip/
Задачи принимаются, но не исполняются: проблема в torque или в maui, внятная документация доступна на сайте
Не работают команды передачи данных: проблема в настройках DPM, смотреть журналы /var/log/{dpm, dpm-gsiftp, dpns, frio, srmv1, srmv2}/*.log

Слайд 13

Возможные изменения стандартной конфигурации

Версия torque старая (1.0.1), в ней нет встроенного планировщика,

Возможные изменения стандартной конфигурации Версия torque старая (1.0.1), в ней нет встроенного
так что используется внешний (maui 3.2)
Для небольших центров maui слишком сложна в настройке, она далеко не всегда работает очевидным образом…
Можно установить torque 2.0 со встроенным планировщиком (эквивалент старого OpenPBS)
http://www.clusterresources.com/pages/products/torque-resource-manager.php
Выключить всё, что имеет в названии rgma, apel, fmon – это части системы мониторинга и аккаунтинга, они могут пригодиться только официальным сайтам EGEE