Обслуживание и диагностика EMC VNX

Содержание

Слайд 2

Возможные проблемы в СХД
Сервера
Коммутаторы
Массив
Методы диагностики ошибок
Просмотр и сбор логов
Анализ логов
Средства диагностики

Возможные проблемы в СХД Сервера Коммутаторы Массив Методы диагностики ошибок Просмотр и

Слайд 3

Обслуживание и диагностика EMC VNX

Возможные проблемы в СХД

Обслуживание и диагностика EMC VNX Возможные проблемы в СХД

Слайд 4

Возможные проблемы в СХД

Ошибки на серверах
сбои HBA
настройки ПО
Ошибки на коммутаторах
Сбои SFP
Отказ

Возможные проблемы в СХД Ошибки на серверах сбои HBA настройки ПО Ошибки
Блоков Питания
ПО
Ошибки на массиве
системные ошибки
настройки ПО



Слайд 5

Возможные проблемы в СХД

Индикация VNX5700
(подробнее в «Hardware Information Guide»)

Возможные проблемы в СХД Индикация VNX5700 (подробнее в «Hardware Information Guide»)

Слайд 6

Возможные проблемы в СХД

Индикация VNX5700

Возможные проблемы в СХД Индикация VNX5700

Слайд 7

Возможные проблемы в СХД

Индикация VNX5700

Возможные проблемы в СХД Индикация VNX5700

Слайд 8

Возможные проблемы в СХД

Индикация VNX (SPS)

Возможные проблемы в СХД Индикация VNX (SPS)

Слайд 9

Возможные проблемы в СХД

Индикация VNX5300

Возможные проблемы в СХД Индикация VNX5300

Слайд 10

Возможные проблемы в СХД

Индикация VNX (SP)

Возможные проблемы в СХД Индикация VNX (SP)

Слайд 11

Возможные проблемы в СХД

Индикация VNXe3100

Возможные проблемы в СХД Индикация VNXe3100

Слайд 12

Обслуживание и диагностика EMC VNX

Методы диагностики ошибок

Обслуживание и диагностика EMC VNX Методы диагностики ошибок

Слайд 13

Методы диагностики ошибок

SPCollect
Требуется для всестороннего анализа утилитой CAP и дает полную картину

Методы диагностики ошибок SPCollect Требуется для всестороннего анализа утилитой CAP и дает
всего происходящего на массиве, включая логи конфигурацию, очевидные проблемы в графическом виде
Event Log (в Unisphere)
Последовательный список событий на массиве

Виды логов массива EMC VNX

Слайд 14

Методы диагностики ошибок

Event Log (в Unisphere)

Методы диагностики ошибок Event Log (в Unisphere)

Слайд 15

Методы диагностики ошибок

Сбор SPCollect с массива из NaviCli

Запустить сбор SPCollect-ов на обоих

Методы диагностики ошибок Сбор SPCollect с массива из NaviCli Запустить сбор SPCollect-ов
SP командой:
NaviSECCli.exe -h IP_ADDRESS_SP -user USER -password PASSWORD -Scope 0 spcollect
Подождать минут 10 пока соберутся логи. Посмотреть файлы доступные для скачивания можно следующей командой:
NaviSECCli.exe -h IP_ADDRESS_SP -user USER -password PASSWORD -Scope 0 managefiles -list
Забрать последние SPCollect с обоих SP командой:
NaviSECCli.exe -h IP_ADDRESS_SP -user USER -password PASSWORD -Scope 0 managefiles -retrieve -path c:\SPCollects -file FILE_NAME.zip
В примере файлы загрузятся на локальный компьютер в папку
c:\SPCollects
Параметры в командах это:
IP_ADDRESS_SP - ip адрес SP
USER - логин пользователя
PASSWORD - пароль пользователя
FILE_NAME.zip - имя загружаемого файла (можно забрать все файлы указав вместо параметра -file параметр -all)

Слайд 16

Методы диагностики ошибок

Сбор логов с массива VNX в Unisphere (1/2)

Для снятия логов

Методы диагностики ошибок Сбор логов с массива VNX в Unisphere (1/2) Для
через веб интерфейс подключаемся к системе, авторизуемся и запускаем сбор логов на SPA и SPB - отмечено цифрой 2.
После чего необходимо подождать 5-10 минут.

Слайд 17

Методы диагностики ошибок

Сбор логов с массива VNX в Unisphere (2/2)

Заходим в Get

Методы диагностики ошибок Сбор логов с массива VNX в Unisphere (2/2) Заходим
Diagnostic Files - отмечено цифрой 3, сортируем по дате - отмечено цифрой 4, выбираем папку куда копировать - отмечено цифрой 5, выбираем файл вида chassisSerialNumber_SPA_date_time_spsignature_data.zip - отмечено цифрой 6 и нажимаем Transfer - отмечено цифрой 7. Повторяем все действия для второго SP.

Слайд 18

Методы диагностики ошибок

Сбор логов с массива VNX через
Unisphere Service Manager

SPCollect-ы сохраняются

Методы диагностики ошибок Сбор логов с массива VNX через Unisphere Service Manager
по следующему пути:
C:\EMC\repository\DiagnosticData\

Слайд 19

Методы диагностики ошибок

Сбор логов с массива VNXe

Методы диагностики ошибок Сбор логов с массива VNXe

Слайд 20

Методы диагностики ошибок

Сервисные команды VNXe

Подключение консольным кабелем и траблшутинг «VNXe Configuration Utility»

Методы диагностики ошибок Сервисные команды VNXe Подключение консольным кабелем и траблшутинг «VNXe
(Primus emc264232):
9600 baud, 8 data bits, no parity, 1 stop bit (defaults on most software)
Перевод SP в сервисный режим (выполняется на каждомSP):
               > svc_rescue_state -s
               > svc_shutdown -r
Реинициализация массива выполняется с одного SP:
> svc_reinit
Реимидж массива:
  > svc_reimage -r
Просмотр текущего статуса компонентов массива:
> svc_diag --state=cru
Описание остальных сервисных команд в документе:
300-011-236_VNXe Unisphere CLI User Guide.pdf

Слайд 21

Методы диагностики ошибок

CAP2 (Clariion Array Properties)
SPLAT (Storage Processor Analyze Tool)

Разбор логов

Методы диагностики ошибок CAP2 (Clariion Array Properties) SPLAT (Storage Processor Analyze Tool) Разбор логов

Слайд 22

Методы диагностики ошибок

Snap views
Snap sessions
Snap clones
Mirrors (synchronous)
Mirrors (asynchronous)
Storage Groups
NDU software
Switches
Analysis
Virtual Provisioning

Issues
Sp information
LUN

Методы диагностики ошибок Snap views Snap sessions Snap clones Mirrors (synchronous) Mirrors
information
Drive modules
RAID Groups
RAID-Group layout
MetaLUNs
Host ports
CRU information
SAN Copy

CAP2 отчеты

Слайд 23

Методы диагностики ошибок

Triiage

Пример запуска из директории с SPCollects:
C:\Users\aleontev>d:
D:\>cd d:\\EMC_incidents\2152
d:\EMC_incidents\2152>triage -l -p -f

Методы диагностики ошибок Triiage Пример запуска из директории с SPCollects: C:\Users\aleontev>d: D:\>cd
-c

Слайд 24

Методы диагностики ошибок

Triiage отчеты

Основной файл отчета: TRiiAGE_full_Analysis.txt
Полное описание смотреть в файле: C:\Tools\TRiiAGE_Companion.doc
Полный

Методы диагностики ошибок Triiage отчеты Основной файл отчета: TRiiAGE_full_Analysis.txt Полное описание смотреть
лог событий в файле: TRiiAGE_full_SPlogs.txt

Слайд 25

Методы диагностики ошибок

Анализ текущей конфигурации массива через USM

Методы диагностики ошибок Анализ текущей конфигурации массива через USM

Слайд 26

Виды ошибок

Ошибки массива Ошибки дисков Ошибки Storage Processor’ов Ошибки LCC/BCC Ошибки PS и SPS Ошибки хостов Ошибки HBA Ошибки

Виды ошибок Ошибки массива Ошибки дисков Ошибки Storage Processor’ов Ошибки LCC/BCC Ошибки
ПО (PowerPath, Naviagent) Ошибки коммутаторов Ошибки SFP Ошибки настройки

Методы диагностики ошибок

Слайд 27

820 – Soft Media Error
920 – Hard Media Error
801 – Потребовался повтор

820 – Soft Media Error 920 – Hard Media Error 801 –
SCSI операции. Успешно.
901 – Потребовался повтор SCSI операции. Неуспешно.
801 и 901 ошибка создается не диском, а LCC и тоже может говорить о неисправности диска.
803 – Рекомендуется заменить диск.

Критические ошибки дисков
(emc123689)

A 09/29/11 03:12:38 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:12:39 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:12:46 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:12:48 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:12:55 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:12:57 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:13:03 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:13:04 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5
A 09/29/11 03:13:06 Bus0 Enc1 Dsk0 820 Soft Media Error [Bad block] 0 0 5

Методы диагностики ошибок

Слайд 28

Методы диагностики ошибок

Background Verify (запуск)

naviseccli -h setsniffer -rg [-bv] [-bvtime

Методы диагностики ошибок Background Verify (запуск) naviseccli -h setsniffer -rg [-bv] [-bvtime
]
*priority - может иметь одно из следующих значений
ASAP = 1 minute per gigabyte or faster.
High = 5 minutes per gigabyte
Medium = 10 minutes per gigabyte
Low = 15 minutes per gigabyte
Вместо –rg можно просто указать ID конкретного луна или ключ -all
Н-р: naviseccli -user admin -password 123456 -scope 0 -h 192.168.3.207 setsniffer 3 -bv -bvtime medium
В примере будет выполнен BV для луна, имеющего ID 3 на массиве.

Слайд 29

Методы диагностики ошибок

Проверять статус процесса можно командой:
naviseccli -user USERNAME -password PASSWORD -scope

Методы диагностики ошибок Проверять статус процесса можно командой: naviseccli -user USERNAME -password
0 -h IP_ADDRESS getsniffer –rg
Н-р: naviseccli -user admin -password P@ssw0rd -scope 0 -h 10.10.10.45 getsniffer -rg 1

Background Verify (проверка статуса)

Ничего не происходит
Currently Running Full Unit Verify
--------------------------------------------
Verify State: Idle
Percent Complete: 0
Corrected Uncorrectable
Checksum errors 0 0
Write Stamp errors 0 0
Time Stamp errors 0 0
Shed Stamp errors 0 0

Идет BV
Currently Running Full Unit Verify
----------------------------------------------
Verify State: Sniff Running
Percent Complete: 60
Corrected Uncorrectable
Checksum errors 0 0
Write Stamp errors 0 0
Time Stamp errors 0 0
Shed Stamp errors 0 0

Слайд 30

Методы диагностики ошибок

Support > Product and Diagnostic Tools > Environment Analysis Tools

Методы диагностики ошибок Support > Product and Diagnostic Tools > Environment Analysis
> E-Lab Advisor

E-lab Advisor

Слайд 31

E-lab Advisor (справка)

Методы диагностики ошибок

http://elabadvisor.emc.com/

E-lab Advisor (справка) Методы диагностики ошибок http://elabadvisor.emc.com/

Слайд 32

Методы диагностики ошибок

E-lab Advisor (отчет)

Методы диагностики ошибок E-lab Advisor (отчет)