Što učiniti nakon kvara na poslužitelju?
Kvarovi na poslužitelju su osim "zvučnih signala koji probijaju zidove" popraćeni i svjetlosnim indikatorima. Primjerice, kod Dellovih poslužitelja ti se svjetlosni indikatori nalaze i s prednje i sa stražnje strane kućišta.
U normalnom radu poslužitelja indikatori stalno svijetle plavo. Međutim, kod detekcije kvara indikatori promijene boju u trepćuće narančastu. Mali problem nastaje što se nakon otklanjanja kvara boja indikatora ne želi vratiti u normalno stanje. Moje traženje rješenja ovog problema je počelo kad se pokvario jedan od dva ugrađena memorijska modula. Preskočit ću simptome i otklanjanje kvara jer je to bio lakši dio. Nakon ugradnje ispravnog memorijskog modula poslužitelj je opet ispravno radio, ali indikatori su neprestano treptali narančasto i time "govorili" da je detektiran kvar, što mi se činilo malo vjerojatnim. Nakon par dana istraživanja otkrio sam da Dell koristi IPMI (Intelligent Platform Management Interface) tehnologiju nadzora i administracije komponenti, a koju koristi velik broj proizvođača poslužitelja kao što su Intel, HP, Sun i Fujitsu Siemens. Jedina razlika je ta što Dell svoj sustav zove BMC (Baseboard Management Controller). Dio IPMI tehnologije jest zapisivanje detektiranih kvarova u IPMI log. Pomoću dijagnostičkih alata preuzetih sa Dellovih web stranica uspio sam pročitati taj log u kojem je pisalo sljedeće:
IPMI - Jun 13 2008: Correctable ECC error, DIMM2_A
IPMI - Jun 13 2008: Correctable ECC error, DIMM2_B
Prema datumu koji je stajao uz detektirani kvar zaključio sam da svjetlosni indikatori ne prijavljuju kvar na poslužitelju nego obavještavaju da u IPMI logu postoje zapisi kojih se očito na neki način treba riješiti. Na moju žalost, otkrio sam da većina Linux distribucija prilikom instalacije prebriše predinstalirani Dellov software za upravljanje BMC-om. S druge strane, otkrio sam ipmitool, uslužni alat za kontrolu IPMI sustava koji je bio rješenje za moj problem.
Prije same instalacije ipmitool alata, u kernel je potrebno uključiti module preko kojih ipmitool komunicira s BMC kontrolerom. To se može napraviti pomoću interaktivne skripte modconf ili pomoću naredbe modprobe:
# modprobe –v ipmi_msghandler
# modprobe –v ipmi_devintf
# modprobe –v ipmi_si
# modprobe –v ipmi_watchdog
Uključivanje spomenutih modula može se napraviti i nakon instalacije ipmitool alata, ali će sama instalacija javiti grešku i neće pokrenuti servis.
Također, za ispravan rad ipmitool-a mora postojati dinamički "character device" na /dev/ipmi0, tj na /dev/ipmi/0 za poslužitelje koji koriste devfs i udev. Obično, ako je ovo prvi dinamički uređaj, onda je njegov "major" broj 252, a "minor" broj je 0 pa se za kreiranje navedenog uređaja koristi naredba:
# mknod /dev/ipmi0 c 252 0
Sama instalacije se izvodi standardno sa:
# apt-get update
# apt-get install ipmitool
Još je preostalo pokrenuti servis pomoću skripte koja se nalazi u /usr/share/ipmitool/ direktoriju. Kako se u tom direktoriju nalaze skripte za razne Linux distribucije, potrebno je odabrati odgovarajuću, u našem slučaju za Debian:
# /usr/share/ipmitool/ipmievd.init.debian start
Time je ipmitool spreman za rad. Ja nisam puno eksperimentirao s naredbama nego sam provjerio log s naredbom
# ipmitool sel info
s kojom sam dobio iste podatke koje sam već vidio pomoću Dellovih dijagnostičkih alata. Sljedeći korak je bio brisanje loga:
# ipmitool sel clear
Clearing SEL. Please allow a few seconds to erase.
Gotovo trenutno svjetlosni indikatori su se vratili u normalnu, plavu boju. Da budem siguran, opet sam provjerio log u kojem je sada pisalo:
# ipmitool sel list
1 | 06/16/2008 | 18:16:26 | Event Logging Disabled #0x51 | Log area reset/cleared | Asserted
Pomoću ipmitool alata moguće je pratiti stanje gotovo svih komponenti. Primjerice, naredbom ipmitool sensor ćemo dobiti detaljni ispis svih senzora na poslužitelju (temperature procesora i okoline, broj okretaja ventilatora, stanje napajanja itd.), što može biti vrlo korisno prilikom dijagnosticiranja nekog drugog kvara.
Literatura o IPMI tehnologiji se može naći na Intelovim i Dellovim stranicama, a korisna je i man stranica ipmitool alata.
- Logirajte se za dodavanje komentara
- Inačica za ispis
- PDF version
Komentari
Problem kod DELL POWEREDGE 1600 SE
Opisana procedura ne prolazi na DELL POWEREDGE 1600 SE poslužitelju.
Zapne kod ugradnje modula ipmi_si uz grešku:
singer:~# modprobe -v ipmi_si
insmod /lib/modules/2.6.26.3-grsec/kernel/drivers/char/ipmi/ipmi_si.ko
FATAL: Error inserting ipmi_si (/lib/modules/2.6.26.3-grsec/kernel/drivers/char/ipmi/ipmi_si.ko): No such device
Naknadna ugradnja paketa ipmitool potom ne prolazi, tj. javi grešku:
Setting up ipmitool (1.8.8-3) ...
Starting IPMI event daemon ipmievdCould not open device at /dev/ipmi0 or
/dev/ipmi/0 or /dev/ipmidev/0: No such file or directory
Unable to open interface
failed!
invoke-rc.d: initscript ipmievd, action "start" failed.
Unable to start ipmievd during installation. Trying to disable.
No problem kod ugradnje modula ipmi_si imali su i drugi.
Luka Ćavara ( lcavara@ttf.hr )
TTF