Search This Blog

Tuesday, March 25, 2014

Panduan recovery RAID 1 (mirror) Linux

Di artikel sebelumnya kita telah belajar cara membuat server dengan RAID 1 (mirror) menggunakan solusi software Raid Linux. Dan juga kita sempat mensimulasikan kegagalan salah satu harddisk. Namun bagaimana jika kitaBENAR2 mengalami kegagalan harddisk? Jangan panik, berikut ini langkah2nya. Tapi sebelumnya dari mana kita tahu bahwa salah satu harddisk di raid array kita gagal/rusak? Inilah yang menenangkannya: Linux akan mengirimkan emailsecara otomatis ke kita jika salah satu raid arraynya gagal.

Seperti ini emailnya:

DegradedArray event on /dev/md0:server-mail3.kantorku.kom
From: mdadm monitoring < root@kantorku.kom >
To: root@kantorku.kom 
Date: Yesterday 18:53:45

This is an automatically generated mail message from mdadm
running on server-mail3.kantorku.kom

A DegradedArray event had been detected on md device /dev/md0.

Faithfully yours, etc.




Secara garis besar, langkah2 penanganan kejadiah seperti ini adalah:
1. Jangan panik. Grogi boleh, tapi jangan berlebihan. Konsentrasilah penuh, terutama pada saat partisi harddisk.
2. Cek status RAID arraynya.
3. Coba rebuild kembali arraynya.
4. Bila gagal, berarti ada kerusakan di fisik harddisknya.
5. Siapkan harddisk pengganti yang identik merek, model dan kapasitasnya.
6. Partisi harddisk pengganti tersebut secara identik dengan scheme yang kita gunakan.
7. Rebuild kembali raid arraynya.
8. Test harddisk baru tersebut.

Baiklah kita jabarkan lebih lanjut langkah2nya:
1. Jangan panik. Deg2an wajar, tapi tetap tenang. Percaya diri bahwa kejadian seperti ini cepat atau lambat pasti terjadi. Tinggal tergantung bagaimana kita meresponnya apakah siap atau tidak, dan sebagai admin Linux yang baik tentu kita sudah siap. Siapkan referensi command2 yang akan diperlukan bila belum hapal, dan juga bukalah 2 buah terminal untuk memudahkan kita memonitor apa yang terjadi. Baca setiap command yang kita ketikkan 2-3 kali sebelum menekan tombol enter. Terutama jangan sampai TERTUKAR antara sda dan sdb. Bila ternyata harddisk yang rusak adalah sda, kemudian kita tidak sengaja justru mempartisi sdb, hilanglah semuanya. Berkonsentrasilah, bila perlu bilang kepada rekan lain bahwa untuk sementara waktu kita tidak menerima telpon dahulu dari siapapun, atau sebaiknya lakukan recovery ini di malam hari di saat tidak ada yang dapat mengganggu kita (kecuali bila kantor kamu ada makhluk halusnya).

2. Cek status RAID arraynya.
Login ke server dan gunakan command ini untuk mengecek status raid array:

[root@server-mail3 ~]# cat /proc/mdstat

Personalities : [raid1]
md1 : active raid1 sdb2[1]
      243995136 blocks [2/1] [_U]

md0 : active raid1 sdb1[1]
      200704 blocks [2/1] [_U]

unused devices: <none>

Terlihat bahwa sda tidak aktif di dalam raid array, baik di array md0 maupun md1.

3. Kita bisa mencoba untuk merebuild kembali raid arraynya.
[root@server-mail3 ~]# mdadm /dev/md0 -a /dev/sda1
[root@server-mail3 ~]# mdadm /dev/md1 -a /dev/sda2


4. Bila gagal, berarti ada kerusakan di fisik harddisknya. Dalam kasus saya ini, md0 berhasil di rebuild, namun ketika merebuild md1, ternyata server restart sendiri. Dicoba beberapa kali tetap restart terus. Bila terjadi hal ini, maka untuk mencegah kerusakan lebih lanjut akibat terjadinya restart terus menerus, maka kita mesti menonaktifkan sda dari raid array:

[root@server-mail3 ~]# mdadm /dev/md0 -f /dev/sda1
[root@server-mail3 ~]# mdadm /dev/md1 -f /dev/sda2

Kemudian kita remove sda dari raid array:
[root@server-mail3 ~]# mdadm /dev/md0 -r /dev/sda1
[root@server-mail3 ~]# mdadm /dev/md1 -r /dev/sda2

5. Siapkan harddisk pengganti yang identik merek, model dan kapasitasnya. Hal ini penting sebab bila harddisk pengganti itu ternyata kapasitasnya lebih kecil, maka kita tidak akan dapat merebuild raid arraynya secara sempurna.

6. Perhatian, di langkah ke-6 dibutuhkan konsentrasi tinggi. Kini kita mempartisi harddisk pengganti ini. Jangan lupa dipasang dulu ke servernya. Hehe..
6a. Tunggu dulu, dari mana kita tahu bagaimana skema partisinya? Kita bisa melihatnya dari harddisk yang masih bekerja bagus, yaitu sdb:

[root@server-mail3 ~]# fdisk -l /dev/sdb
Disk /dev/sdb: 250.0 GB, 250059350016 bytes
255 heads, 63 sectors/track, 30401 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1   *           1          25      200781   fd  Linux raid autodetect
/dev/sdb2              26       30401   243995220   fd  Linux raid autodetect


Dari data di atas kita dapat mengetahui bahwa:
- Partisi sdb1 dimulai dari cylinder 1 s/d 25, jenis partisinya adalah fd (Linux raid)
- Partisi sdb2 dimulai dari cylinder 26 s/d 30401, jenis partisinya adalah fd (Linux raid)

6b. Mari kita mulai mempartisi harddisk pengganti tersebut. Ingat, tetap konsentrasi.
- Sebelumnya kita pastikan bahwa benar sda belum ada partisi apapun:
[root@server-mail3 ~]# fdisk -l /dev/sda

Disk /dev/sda: 250.0 GB, 250059350016 bytes
255 heads, 63 sectors/track, 30401 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Disk /dev/sda doesn't contain a valid partition table

- Kita mulai partisi sda:
[root@server-mail3 ~]# fdisk /dev/sda
Device contains neither a valid DOS partition table, nor Sun, SGI or OSF disklabel
Building a new DOS disklabel. Changes will remain in memory only,
until you decide to write them. After that, of course, the previous
content won't be recoverable.


The number of cylinders for this disk is set to 30401.
There is nothing wrong with that, but this is larger than 1024,
and could in certain setups cause problems with:
1) software that runs at boot time (e.g., old versions of LILO)
2) booting and partitioning software from other OSs
   (e.g., DOS FDISK, OS/2 FDISK)
Warning: invalid flag 0x0000 of partition table 4 will be corrected by w(rite)

Command (m for help):

Mari kita ketik m untuk melihat command apa saja yang ada.

Command (m for help): m
Command action
   a   toggle a bootable flag
   b   edit bsd disklabel
   c   toggle the dos compatibility flag
   d   delete a partition
   l   list known partition types
   m   print this menu
   n   add a new partition
   o   create a new empty DOS partition table
   p   print the partition table
   q   quit without saving changes
   s   create a new empty Sun disklabel
   t   change a partition's system id
   u   change display/entry units
   v   verify the partition table
   w   write table to disk and exit
   x   extra functionality (experts only)

Dari help di atas terlihat bahwa untuk membuat partisi baru commandnya adalah: n
Kita buat partisi sda1:
Command (m for help): n
Command action
   e   extended
   p   primary partition (1-4)
p
Partition number (1-4): 1
First cylinder (1-30401, default 1): 1
Last cylinder or +size or +sizeM or +sizeK (1-30401, default 30401): 25

Kemudian partisi sda2:
Command (m for help): n
Command action
   e   extended
   p   primary partition (1-4)
p
Partition number (1-4): 2
First cylinder (26-30401, default 26):
Using default value 26
Last cylinder or +size or +sizeM or +sizeK (26-30401, default 30401):
Using default value 30401

6c. Selanjutnya kita mesti mendefinisikan jenis partisinya, dalam hal ini adalah: fd (Linux raid auto). Kita lihat daftarnya bila perlu.

Command (m for help): t
Partition number (1-4): 1
Hex code (type L to list codes): L

 0  Empty           1e  Hidden W95 FAT1 75  PC/IX           be  Solaris boot
 1  FAT12           24  NEC DOS         80  Old Minix       bf  Solaris
 2  XENIX root      39  Plan 9          81  Minix / old Lin c1  DRDOS/sec (FAT-
 3  XENIX usr       3c  PartitionMagic  82  Linux swap      c4  DRDOS/sec (FAT-
 4  FAT16 <32M      40  Venix 80286     83  Linux           c6  DRDOS/sec (FAT-
 5  Extended        41  PPC PReP Boot   84  OS/2 hidden C:  c7  Syrinx
 6  FAT16           42  SFS             85  Linux extended  da  Non-FS data
 7  HPFS/NTFS       4d  QNX4.x          86  NTFS volume set db  CP/M / CTOS / .
 8  AIX             4e  QNX4.x 2nd part 87  NTFS volume set de  Dell Utility
 9  AIX bootable    4f  QNX4.x 3rd part 8e  Linux LVM       df  BootIt
 a  OS/2 Boot Manag 50  OnTrack DM      93  Amoeba          e1  DOS access
 b  W95 FAT32       51  OnTrack DM6 Aux 94  Amoeba BBT      e3  DOS R/O
 c  W95 FAT32 (LBA) 52  CP/M            9f  BSD/OS          e4  SpeedStor
 e  W95 FAT16 (LBA) 53  OnTrack DM6 Aux a0  IBM Thinkpad hi eb  BeOS fs
 f  W95 Ext'd (LBA) 54  OnTrackDM6      a5  FreeBSD         ee  EFI GPT
10  OPUS            55  EZ-Drive        a6  OpenBSD         ef  EFI (FAT-12/16/
11  Hidden FAT12    56  Golden Bow      a7  NeXTSTEP        f0  Linux/PA-RISC b
12  Compaq diagnost 5c  Priam Edisk     a8  Darwin UFS      f1  SpeedStor
14  Hidden FAT16 <3 61  SpeedStor       a9  NetBSD          f4  SpeedStor
16  Hidden FAT16    63  GNU HURD or Sys ab  Darwin boot     f2  DOS secondary
17  Hidden HPFS/NTF 64  Novell Netware  b7  BSDI fs         fd  Linux raid auto
18  AST SmartSleep  65  Novell Netware  b8  BSDI swap       fe  LANstep
1b  Hidden W95 FAT3 70  DiskSecure Mult bb  Boot Wizard hid ff  BBT
1c  Hidden W95 FAT3

Hex code (type L to list codes): fd
Changed system type of partition 1 to fd (Linux raid autodetect)

Yang sda2 juga:

Command (m for help): t
Partition number (1-4): 2
Hex code (type L to list codes): fd
Changed system type of partition 2 to fd (Linux raid autodetect)

Jangan lupa kita setel juga partisi sda1 sebagai boot partition:
Command (m for help): a
Partition number (1-4): 1

6d. Setelah selesai, dan yakin bahwa kita tidak melakukan kesalahan, maka kita save skema partisi yang kita buat ini.
Command (m for help): w
The partition table has been altered!

Calling ioctl() to re-read partition table.
Syncing disks.

6e. Kernel menyimpan informasi partisi di memory, yang dibaca pada saat booting. Bila kita tidak ingin melakukan booting ulang, maka kita bisa menggunakan command ini untuk memaksa kernel membaca kembali table partisi:

partprobe

6f. Kita cek bahwa kernel telah mengenali partisi yang baru di sda:
[root@server-mail3 ~]# fdisk -l /dev/sda

Disk /dev/sda: 250.0 GB, 250059350016 bytes
255 heads, 63 sectors/track, 30401 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1  *            1          25      200781   fd  Linux raid autodetect
/dev/sda2              26       30401   243995220   fd  Linux raid autodetect



7. Kini saatnya kita membangun kembali raid array mirror kita. Di step ini juga diperlukan konsentrasi tinggi. Jangan sampai salah ketik.

7a. Kita lihat bahwa raid array belum terbuild:
[root@server-mail3 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb2[1]
      243995136 blocks [2/1] [_U]

md0 : active raid1 sdb1[1]
      200704 blocks [2/1] [_U]

unused devices: <none>

7b. Kita add /dev/sda1 ke dalam array /dev/md0:
[root@server-mail3 ~]# mdadm /dev/md0 -a /dev/sda1
mdadm: hot added /dev/sda1

Kita dapat lihat proses rebuildingnya:
[root@server-mail3 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb2[1]
      243995136 blocks [2/1] [_U]

md0 : active raid1 sda1[2] sdb1[1]
      200704 blocks [2/1] [_U]
      [==============>......]  recovery = 74.1% (150464/200704) finish=0.0min speed=37616K/sec

Setelah beberapa saat, /dev/md0 telah selesai di rebuild:
[root@server-mail3 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb2[1]
      243995136 blocks [2/1] [_U]

md0 : active raid1 sda1[0] sdb1[1]
      200704 blocks [2/2] [UU]

unused devices: <none>


7c. Kemudian kita add juga /dev/sda2 ke /dev/md1:

[root@server-mail3 ~]# mdadm /dev/md1 -a /dev/sda2
mdadm: hot added /dev/sda2

Segera dia akan otomatis merebuild arraynya:
[root@server-mail3 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sda2[2] sdb2[1]
      243995136 blocks [2/1] [_U]
      [>....................]  recovery =  0.2% (606656/243995136) finish=80.2min speed=50554K/sec
md0 : active raid1 sda1[0] sdb1[1]
      200704 blocks [2/2] [UU]

unused devices: <none>


Di server saya, proses rebuild mirror untuk harddisk sebesar 250GB memerlukan waktu 1,5 jam.

7d. Setelah selesai, maka di /proc/mdstat kita dapat melihat bahwa array telah sempurna kembali:
[root@server-mail3 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sda2[0] sdb2[1]
      243995136 blocks [2/2] [UU]

md0 : active raid1 sda1[0] sdb1[1]
      200704 blocks [2/2] [UU]

unused devices: <none>

Juga di /var/log/messages ada pesan bahwa RAID 1 telah selesai direbuild:
Sep 18 20:49:37 server-mail3 kernel: md: md1: sync done.
Sep 18 20:49:37 server-mail3 kernel: RAID1 conf printout:
Sep 18 20:49:37 server-mail3 kernel:  --- wd:2 rd:2
Sep 18 20:49:37 server-mail3 kernel:  disk 0, wo:0, o:1, dev:sda2
Sep 18 20:49:37 server-mail3 kernel:  disk 1, wo:0, o:1, dev:sdb2

8. Test harddisk baru tersebut dengan mencopot atau menonaktifkan sdb.


Kesimpulan:
Linux menyediakan solusi proteksi data menggunakan software RAID langsung dari kernelnya. Tanpa perlu menggunakan hardware raid khusus yang mahal. Performance dan kehandalannya dapat kita lihat sendiri dari contoh kasus RAID 1 (mirroring) ini, dimana ketika sebuah harddisk rusak, harddisk yang satu lagi masih tersedia. Kita tinggal mengganti harddisk yang rusak itu, merebuild raid arraynya dan data kita akan terlindung kembali oleh RAID 1.

Ingatlah langkah yang singkat ini untuk merecovery RAID 1 di Linux:
1. Jangan panik. Grogi boleh, tapi jangan berlebihan. Konsentrasilah penuh, terutama pada saat partisi harddisk.
2. Cek status RAID arraynya.
3. Coba rebuild kembali arraynya.
4. Bila gagal, berarti ada kerusakan di fisik harddisknya.
5. Siapkan harddisk pengganti yang identik merek, model dan kapasitasnya.
6. Partisi harddisk pengganti tersebut secara identik dengan scheme yang kita gunakan.
7. Rebuild kembali raid arraynya.
8. Test harddisk baru tersebut.

Sumber: http://linux3.arinet.org/index.php/linux-admin/144-panduan-recovery-raid-1-mirror-linux

No comments:

Post a Comment