Što učiniti nakon kvara na poslužitelju?

Kvarovi na poslužitelju su osim "zvučnih signala koji probijaju zidove" popraćeni i svjetlosnim indikatorima. Primjerice, kod Dellovih poslužitelja ti se svjetlosni indikatori nalaze i s prednje i sa stražnje strane kućišta.

U normalnom radu poslužitelja indikatori stalno svijetle plavo. Međutim, kod detekcije kvara indikatori promijene boju u trepćuće narančastu. Mali problem nastaje što se nakon otklanjanja kvara boja indikatora ne želi vratiti u normalno stanje. Moje traženje rješenja ovog problema je počelo kad se pokvario jedan od dva ugrađena memorijska modula. Preskočit ću simptome i otklanjanje kvara jer je to bio lakši dio. Nakon ugradnje ispravnog memorijskog modula poslužitelj je opet ispravno radio, ali indikatori su neprestano treptali narančasto i time "govorili" da je detektiran kvar, što mi se činilo malo vjerojatnim. Nakon par dana istraživanja otkrio sam da Dell koristi IPMI (Intelligent Platform Management Interface) tehnologiju nadzora i administracije komponenti, a koju koristi velik broj proizvođača poslužitelja kao što su Intel, HP, Sun i Fujitsu Siemens. Jedina razlika je ta što Dell svoj sustav zove BMC (Baseboard Management Controller). Dio IPMI tehnologije jest zapisivanje detektiranih kvarova u IPMI log. Pomoću dijagnostičkih alata preuzetih sa Dellovih web stranica uspio sam pročitati taj log u kojem je pisalo sljedeće:

IPMI - Jun 13 2008: Correctable ECC error, DIMM2_A
IPMI - Jun 13 2008: Correctable ECC error, DIMM2_B

Prema datumu koji je stajao uz detektirani kvar zaključio sam da svjetlosni indikatori ne prijavljuju kvar na poslužitelju nego obavještavaju da u IPMI logu postoje zapisi kojih se očito na neki način treba riješiti. Na moju žalost, otkrio sam da većina Linux distribucija prilikom instalacije prebriše predinstalirani Dellov software za upravljanje BMC-om. S druge strane, otkrio sam ipmitool, uslužni alat za kontrolu IPMI sustava koji je bio rješenje za moj problem.

Prije same instalacije ipmitool alata, u kernel je potrebno uključiti module preko kojih ipmitool komunicira s BMC kontrolerom. To se može napraviti pomoću interaktivne skripte modconf ili pomoću naredbe modprobe:

# modprobe –v ipmi_msghandler
# modprobe –v ipmi_devintf
# modprobe –v ipmi_si
# modprobe –v ipmi_watchdog

Uključivanje spomenutih modula može se napraviti i nakon instalacije ipmitool alata, ali će sama instalacija javiti grešku i neće pokrenuti servis.

Također, za ispravan rad ipmitool-a mora postojati dinamički "character device" na /dev/ipmi0, tj na /dev/ipmi/0 za poslužitelje koji koriste devfs i udev. Obično, ako je ovo prvi dinamički uređaj, onda je njegov "major" broj 252, a "minor" broj je 0 pa se za kreiranje navedenog uređaja koristi naredba:

# mknod /dev/ipmi0 c 252 0

Sama instalacije se izvodi standardno sa:

# apt-get update
# apt-get install ipmitool

Još je preostalo pokrenuti servis pomoću skripte koja se nalazi u /usr/share/ipmitool/ direktoriju. Kako se u tom direktoriju nalaze skripte za razne Linux distribucije, potrebno je odabrati odgovarajuću, u našem slučaju za Debian:

# /usr/share/ipmitool/ipmievd.init.debian start

Time je ipmitool spreman za rad. Ja nisam puno eksperimentirao s naredbama nego sam provjerio log s naredbom

# ipmitool sel info 

s kojom sam dobio iste podatke koje sam već vidio pomoću Dellovih dijagnostičkih alata. Sljedeći korak je bio brisanje loga:

# ipmitool sel clear
Clearing SEL.  Please allow a few seconds to erase.

Gotovo trenutno svjetlosni indikatori su se vratili u normalnu, plavu boju. Da budem siguran, opet sam provjerio log u kojem je sada pisalo:

# ipmitool sel list
1 | 06/16/2008 | 18:16:26 | Event Logging Disabled #0x51 | Log area reset/cleared | Asserted


Pomoću ipmitool alata moguće je pratiti stanje gotovo svih komponenti. Primjerice, naredbom ipmitool sensor ćemo dobiti detaljni ispis svih senzora na poslužitelju (temperature procesora i okoline, broj okretaja ventilatora, stanje napajanja itd.), što može biti vrlo korisno prilikom dijagnosticiranja nekog drugog kvara.

Literatura o IPMI tehnologiji se može naći na Intelovim i Dellovim stranicama, a korisna je i man stranica ipmitool alata.

 

Kuharice: 
Kategorije: 
Vote: 
0
No votes yet

Komentari

Opisana procedura ne prolazi na DELL POWEREDGE 1600 SE poslužitelju.
Zapne kod ugradnje modula ipmi_si uz grešku:

singer:~# modprobe -v ipmi_si
insmod /lib/modules/2.6.26.3-grsec/kernel/drivers/char/ipmi/ipmi_si.ko
FATAL: Error inserting ipmi_si (/lib/modules/2.6.26.3-grsec/kernel/drivers/char/ipmi/ipmi_si.ko): No such device

Naknadna ugradnja paketa ipmitool potom ne prolazi, tj. javi grešku:

Setting up ipmitool (1.8.8-3) ...
Starting IPMI event daemon ipmievdCould not open device at /dev/ipmi0 or
/dev/ipmi/0 or /dev/ipmidev/0: No such file or directory
Unable to open interface
failed!
invoke-rc.d: initscript ipmievd, action "start" failed.
Unable to start ipmievd during installation. Trying to disable.

No problem kod ugradnje modula ipmi_si imali su i drugi.

Luka Ćavara ( lcavara@ttf.hr )
TTF