Welke SSD's in budget server?

Wil je iets weten over de hardware van een computer? Draait je CPU fan niet meer? Je printer wil niet meer mee?
Dan moet je hier zijn.
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

johan.devos schreef:
Ik vind dit onaanvaardbaar
Dan moet je investeren in degelijke server oplossingen en geen huis tuin en keuken material gebruiken...
sorry maar supermicro is geen huis thuin en keukenmateriaal
het is het supermicro moederbord dat niet overweg kan met een falende HDD
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

r2504 schreef:
ub4b schreef:De hamvraag is natuurlijk: hoe kan in godsnaam één slechte HDD heel de sata controller (deze heeft 6 poortjes) mee om zeep trekken zodat er IO errors en latency errors komen waardoor de raid er uit knalt? Ik vind dit onaanvaardbaar.
Over welke SATA controller spreek je dan... zo'n onboard ding ?

Ik hoor mensen hier maar al te graag roepen dat ze geen hardware RAID controller willen... maar persoonlijk hou ik het toch daarbij.
Het verhaal wat ik zelf heb meegemaakt, heb ik gisteren ook zien passeren op hardware raid na wat zoeken in google. één schijf die dom doet, controller die helemaal in de war geraakt en alle andere raid disken die er ook uitknallen.

Ga straks een 4TB HGST nas drive gaan uithalen, één van de betere en betrouwbare hdds's. De 500GB backup was zo'n ultraplatte 500GB seagate barracuda. I hate seagate.
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

Gisteren kon ik de RAID10 rebuilden. Vandaag toen ik met een nieuwe backup schijf naar het DC ben gereden, merkte ik dat er terug twee van de vier SSD's uit de raid geknald waren. ééntje was volledig van de sata verdwenen, na reboot zelfs niks zichtbaar, wel na een power cycle.

Dus ik ben het beu, rij naar alternate, wil daar twee kingstons extra bijbestellen, en men vertelt mij dat ze het niet terugnemen in geval de disken uit de softraid zouden gaan, want ze testen de disk op een pc en als de snelheid daar ok is, dan is er niks aan de hand.

Op de terugweg bedenk ik een piste om de vm's naar de 500GB backup hdd te moven, en de raid opnieuw te builden in raid1, met twee 120GB SSD's. Dus ik begin te kopieren van de raid naar de 500GB backup HDD en zie plots op de console:

ata3: COMRESET FAILED (errno=-16)
ata5: COMRESET FAILED (errno=-16)

(waarbij ata1 de boot SSD is op sata3, ata2 de 500GB backup ook op sata3, en ata3 tem ata6 de 120GB SSD's op sata2)

na een reboot zijn ook deze overblijvende SSD's helemaal onzichtbaar in Linux, SSD's die nog nooit uit de raid zijn geknald tot nu toe.

De kans dat 4 van de 4 geleverde SSD's DOA zijn, is behoorlijk klein, dus ik denk verder. Ik zie in de BIOS dat aggressive link power management kan uitzetten, een protocol wat de SSD in een low power state zet. Maar voor raid wil ik dat niet, een SSD moet altijd op max performance werken.

Blijkbaar heeft dit bij andere gebruikers al tot de oplossing van hun problemen gezorgd:

https://z9.io/2013/11/26/yes-finally-fi ... -computer/
ubremoved_539
Deel van't meubilair
Deel van't meubilair
Berichten: 29849
Lid geworden op: 28 okt 2003, 09:17
Uitgedeelde bedankjes: 434 keer
Bedankt: 1972 keer

In Enterprise systemen (en zelfs m'n hardware RAID controller die ik gebruik) heb je meestal specifieke firmwares of support voor SSD's nodig... het zou me dus niets verbazen dat zo'n huis-tuin-en-keuken SATA controller op een moederbord hier niet altijd correct overweg mee kan.
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

r2504 schreef:In Enterprise systemen (en zelfs m'n hardware RAID controller die ik gebruik) heb je meestal specifieke firmwares of support voor SSD's nodig... het zou me dus niets verbazen dat zo'n huis-tuin-en-keuken SATA controller op een moederbord hier niet altijd correct overweg mee kan.
ik vind een supermicro bord nu niet echt huis tuin en keuken prul
Gebruikersavatar
Sasuke
userbase crew
userbase crew
Berichten: 5719
Lid geworden op: 13 aug 2003, 20:25
Locatie: Vlaanderen
Uitgedeelde bedankjes: 248 keer
Bedankt: 544 keer
Provider
Te Koop forum

En toch is het dat wel, supermicro is nu ook niet echt een referentie. En de onboard controller is en blijft maar een onboard Controller. HW raid controllers moet je eigenlijk al serieus duur spul nemen om SSD's aan te kunnen in een RAID configuratie. Dus met een onboard zou ik het niet proberen zelfs ... Zeker niet met mdadm !
Who the fxxk is General Failure and why is he reading my hard disk ?
Afbeelding
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

Sasuke schreef:En toch is het dat wel, supermicro is nu ook niet echt een referentie. En de onboard controller is en blijft maar een onboard Controller. HW raid controllers moet je eigenlijk al serieus duur spul nemen om SSD's aan te kunnen in een RAID configuratie. Dus met een onboard zou ik het niet proberen zelfs ... Zeker niet met mdadm !
Waarom zou je serieus duur spul moeten hebben om SSD's in raid te zetten? Of de raid nu naar een SSD of naar HDD schrijft, het zijn dezelfde SATA commando's die gebruikt worden. Verder ondersteunt mdadm TRIM, dus SSD's+mdadm zou op zich geen probleem mogen zijn.

Wat nu duidelijk is uit de logs van smart, is dat de SSD's onvoorziene powerloss hebben gezien:

SSD1:

Code: Selecteer alles

# smartctl -A /dev/sdc
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-327.22.2.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   095   095   050    Old_age   Always       -       2/166487306
  5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   100   100   000    Old_age   Always       -       204h+41m+36.930s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       23
171 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       17
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       0
181 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0012   100   100   000    Old_age   Always       -       0
189 Airflow_Temperature_Cel 0x0000   038   050   000    Old_age   Offline      -       38 (Min/Max 22/50)
194 Temperature_Celsius     0x0022   038   050   000    Old_age   Always       -       38 (Min/Max 22/50)
195 ECC_Uncorr_Error_Count  0x001c   117   117   000    Old_age   Offline      -       2/166487306
196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
201 Unc_Soft_Read_Err_Rate  0x001c   117   117   000    Old_age   Offline      -       2/166487306
204 Soft_ECC_Correct_Rate   0x001c   117   117   000    Old_age   Offline      -       2/166487306
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0000   100   100   011    Old_age   Offline      -       85899345920
233 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       162
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       264
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       264
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       922
244 Unknown_Attribute       0x0000   100   100   010    Old_age   Offline      -       131073
SSD2:

Code: Selecteer alles

# smartctl -A /dev/sdd
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-327.22.2.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   095   095   050    Old_age   Always       -       2/97767581
  5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   100   100   000    Old_age   Always       -       201h+10m+56.450s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       18
171 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       12
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       0
181 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0012   100   100   000    Old_age   Always       -       0
189 Airflow_Temperature_Cel 0x0000   038   054   000    Old_age   Offline      -       38 (Min/Max 23/54)
194 Temperature_Celsius     0x0022   038   054   000    Old_age   Always       -       38 (Min/Max 23/54)
195 ECC_Uncorr_Error_Count  0x001c   112   112   000    Old_age   Offline      -       2/97767581
196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
201 Unc_Soft_Read_Err_Rate  0x001c   112   112   000    Old_age   Offline      -       2/97767581
204 Soft_ECC_Correct_Rate   0x001c   112   112   000    Old_age   Offline      -       2/97767581
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0000   100   100   011    Old_age   Offline      -       94489280512
233 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       150
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       219
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       219
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       705
244 Unknown_Attribute       0x0000   100   100   010    Old_age   Offline      -       131072
Vooral de

174 Unexpect_Power_Loss_Ct 0x0030 000 000 000 Old_age Offline - 12

is een hint waarom de SSD uit linux en zelfs de controller knalt, totdat je heel de server power cycled. Een gewone reboot helpt dus niet. De SSD redeneert: er is iets fout met de power van deze server, om verdere damage te vermijden, shut ik mezelf down en maak me onzichtbaar voor de sata controller.
Gebruikersavatar
Sasuke
userbase crew
userbase crew
Berichten: 5719
Lid geworden op: 13 aug 2003, 20:25
Locatie: Vlaanderen
Uitgedeelde bedankjes: 248 keer
Bedankt: 544 keer
Provider
Te Koop forum

Of ... Uw SSD's zijn te snel voor je controller (waarom je dus duur spul koopt om SSD's in een raid array te steken). Zoek eens naar buffer underruns ?
Who the fxxk is General Failure and why is he reading my hard disk ?
Afbeelding
johan.devos
Elite Poster
Elite Poster
Berichten: 1341
Lid geworden op: 14 mei 2008, 15:36
Locatie: Bevergem :-)
Uitgedeelde bedankjes: 270 keer
Bedankt: 178 keer
Provider
Te Koop forum

Waarom zou je serieus duur spul moeten hebben om SSD's in raid te zetten?
Ik denk dat je eigen ervaring het beste bewijs is waarom je beter wat duurder "spul" koopt.

Die dure prijs is vaak het gevolg van maandenlange compatibiliteitstesten tussen controllers en schijven. Goedkope consumer schijven en controllers hebben vaak bugs in hun firmware.

Lees dit artikel maar eens https://laur.ie/blog/2015/06/ssds-a-gift-and-a-curse/
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

Om even terug te komen op dure vs goedkope SSD's:

In mijn asus k75v laptop zit een samsung 850 PRO SSD van 250GB ..... één van de duurdere SSD's, want je hebt ook een 850 EVO en nu de veel goedkopere 750 reeks. Verder merk ik ook dat op systemen met nog SATA2, die duurdere SSD's weggegooid geld zijn, gezien elke hedendaagse SSD die 3 gigabit moeiteloos kan satureren. Ik heb een Samsung 750 in een oude PC van mijn vriendin gezet, en die machine vliegt nu, en heeft tot nu toe geen kuren.

Wel dat 850 PRO ding heeft helaas wel kuren:
- soms na een resume from sleep, vindt windoze de SSD niet meer, alle apps zitten dan enkele seconden muurvast en dan krijg je plots een bluescreen
- soms wil de laptop tijdens een cold boot de SSD niet vinden, and dan krijg je de BIOS klassieke "disk not found"

Ik denk dat dit bugs in de firmware zijn, of interacties met de SATA controller in de laptop. Om die reden heb ik net niet 4x 850 PRO in mijn budgetserver gestoken, ondanks het feit dat dit financieel geen enkel probleem zou zijn. Ik denk dat de Kingston V300, waarvan ik van dit merk trouwens in mijn NAS een 60GB versie als opstartdisk heb zitten, gewoon niet overweg kan met het aggressief power management van de supermicro.

Nu aggressive link power management uit staat in de bios zullen we zien of de raid1 nu met 2 V300's van 120GB nog op zijn bek gaat. Gelukkig zijn de vm images maar 40 GB al bij al, dus nog 2/3 over op de raid. En fstrim werkt op het filesystem wat op raid draait, gezien zowel XFS als MDADM de trim instructies doorgeven aan de onderliggende SSD.

In linux loop je fstrim 1x per week zodat de SSD weet welke blocks echt vrij zijn, om degradatie te vermijden. Verder draait KVM op images die reeds copy on write doen, waardoor ik vermoed dat de read-modify-write in de SSD niet getriggered wordt omdat je niet dezelfde sector overschrijft, maar een nieuwe aanspreekt. Uiteraard is het dan belangrijk regelmatig te scrubben met fstrim, gezien er hier ook sprake is van thin provisioning.

Verder is de V300 omstreden, omwille hiervan:

http://www.extremetech.com/extreme/1842 ... od-reviews

En nu we dit schrijven, 't is weer van dat:

Code: Selecteer alles

[30332.006660] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[30332.006713] ata3.00: failed command: FLUSH CACHE
[30332.006745] ata3.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 30
         res 40/00:01:00:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout)
[30332.006821] ata3.00: status: { DRDY }
[30332.006846] ata3: hard resetting link
[30332.006863] ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[30332.006909] ata5.00: failed command: FLUSH CACHE
[30332.006941] ata5.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 7
         res 40/00:01:00:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout)
[30332.007017] ata5.00: status: { DRDY }
[30332.007042] ata5: hard resetting link
[30337.360339] ata5: link is slow to respond, please be patient (ready=0)
[30337.360348] ata3: link is slow to respond, please be patient (ready=0)
[30342.051189] ata3: COMRESET failed (errno=-16)
[30342.051241] ata3: hard resetting link
[30342.051253] ata5: COMRESET failed (errno=-16)
[30342.051287] ata5: hard resetting link
[30347.403886] ata5: link is slow to respond, please be patient (ready=0)
[30347.403917] ata3: link is slow to respond, please be patient (ready=0)
[30352.094736] ata5: COMRESET failed (errno=-16)
[30352.094781] ata5: hard resetting link
[30352.094793] ata3: COMRESET failed (errno=-16)
[30352.094827] ata3: hard resetting link
[30357.447427] ata3: link is slow to respond, please be patient (ready=0)
[30357.447435] ata5: link is slow to respond, please be patient (ready=0)
[30387.125174] ata3: COMRESET failed (errno=-16)
[30387.125212] ata3: limiting SATA link speed to 1.5 Gbps
[30387.125215] ata3: hard resetting link
[30387.132171] ata5: COMRESET failed (errno=-16)
[30387.132210] ata5: limiting SATA link speed to 1.5 Gbps
[30387.132213] ata5: hard resetting link
[30392.171948] ata3: COMRESET failed (errno=-16)
[30392.171995] ata3: reset failed, giving up
[30392.172021] ata3.00: disabled
[30392.172027] ata3.00: device reported invalid CHS sector 0
[30392.172038] ata3: EH complete
[30392.172074] sd 2:0:0:0: [sdc] FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[30392.172079] sd 2:0:0:0: [sdc] CDB: Write(10) 2a 00 00 00 08 10 00 00 01 00
[30392.172082] blk_update_request: I/O error, dev sdc, sector 2064
[30392.172118] blk_update_request: I/O error, dev sdc, sector 2064
[30392.172153] md: super_written gets error=-5, uptodate=0
[30392.172157] md/raid1:md1: Disk failure on sdc1, disabling device.
md/raid1:md1: Operation continuing on 1 devices.
[30392.172236] sd 2:0:0:0: [sdc] FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[30392.172239] sd 2:0:0:0: [sdc] CDB: Write(10) 2a 00 00 00 08 10 00 00 01 00
[30392.172241] blk_update_request: I/O error, dev sdc, sector 2064
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

Ik ben het kotsbeu met de 2e 4 ports SATA controller in deze supermicro. De twee SSD's zijn er weer uit geknald, en een reboot maakt niks uit, want hij ziet de twee SSD's niet. Bizar is ook dat de firmware van de V300's de allerlaatste zijn, heb 2 van de 4 hier thuis, en deze hebben de laatste 608ABBF0 firmware.

Ik heb thuis nog drie MVSAS controllers, deze zijn superstabiel als je de juiste linux driver hebt (heb nog mee helpen debuggen aan deze driver), dus we gaan daarmee verder testen, server nu nog gaan halen en morgen de mvsas er in bouwen.
ubremoved_2964
Elite Poster
Elite Poster
Berichten: 5295
Lid geworden op: 12 jan 2006, 14:25
Uitgedeelde bedankjes: 65 keer
Bedankt: 387 keer

Mvsas kaart zit nu in de server, zijn direct ook betere shielded kabels .... benieuwd of de SSD's met deze controller er ook nog uitknallen.

Afbeelding
Plaats reactie

Terug naar “Hardware”