Sekající se PC

zz912 · 7. 5. 2022, 8:41

Kamarád, kterému jsem už kdysi zprovoznil CNC na LinuxuCNC, mi volal, že má problém s PC. Že když k němu příjde občas naběhne až na poněkolikáté. A už několikrát se mu sekl během frézování. PC řídílo CNC minimálně 2 roky bez problémů a bylo používáno jen na LinuxCNC

Když jsem k němu přijel naběhnul napoprvé, ale to zaseknutí jsem zažil taktéž hned po pár minutách po naběhnutí. Dočasné řešení bylo, že jsem mu jeho PC vyměnil za svoje. (Nerad bych aby to bylo trvalé provizorium)

Přivezl jsem PC domů a "nečekaně" šlape jak hodinky. Zkusil jsem Memtest86+ (0 errors) a vygoogluji další testy. Nenapadá Vás co ještě zkusit? V Linuxu je spousta logů. Nevíte do čeho se mrknout, kdyby se zase sekl?

Do přílohy jsem dal dmesg. Ovšem neumím z něj nic vyčíst. Je tam něco červeně, ale nevím co to je, ale ani nevím, zda to tam nebylo už předtím.

Charon · 7. 5. 2022, 9:34

Ahoj nejsem linuxák, žiju s widlema asi od verze 3.0

Moje zkušenost je, ze nejvic blbne hard, jestli tam máš klasiku, tak přibyly vadne sektory, ono to nějak běží, ale... Další jsou paměti, zase historicke obcas blbnou. Zacni tim, že je vyndaš a očistíš kontakty šmrdlátkem. Ale je to vždy duchařina

zz912 · 7. 5. 2022, 10:50

Zkusil jsem zkontrolovat disk na špatné bloky.

Kód: Vybrat vše

zdenek@CNC:~$ sudo badblocks -sv /dev/sda
[sudo] heslo pro zdenek: 
Ověřují se bloky 0 až 312571223
Hledají se špatné bloky (test jen pro čtení): 65013016 hotovo, 13:33 uplynulo. (0/0/0 chyb)
65013017 hotovo, 13:36 uplynulo. (1/0/0 chyb)
65013018 hotovo, 13:39 uplynulo. (2/0/0 chyb)
65013019 hotovo, 13:42 uplynulo. (3/0/0 chyb)
hotovo                                               
Průchod dokončen, nalezeno 4 špatných bloků (4/0/0 chyb).

Ovšem nevím, jak to inerpretovat. Někde jsem četl, že jediná akceptovatelná hodnota je 0 a někde jsem zase četl, že pokud jich nejsou stovky, tak je to OK.

smartcl, říká:

Kód: Vybrat vše

SMART overall-health self-assessment test result: PASSED

což má znamenat, že je v pohodě.

Kód: Vybrat vše

zdenek@CNC:~$ sudo smartctl -s on -a /dev/sda
smartctl 6.6 2016-05-31 r4324 [i686-linux-4.9.0-18-rt-686-pae] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.11
Device Model:     ST3320813AS
Serial Number:    9SZ0ZLCR
LU WWN Device Id: 5 000c50 010998047
Firmware Version: SD23
User Capacity:    320 072 933 376 bytes [320 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Sat May  7 11:47:32 2022 CEST

==> WARNING: There are known problems with these drives,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/207951en
http://knowledge.seagate.com/articles/en_US/FAQ/207957en

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  609) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  65) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x103b)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   114   099   006    Pre-fail  Always       -       64106700
  3 Spin_Up_Time            0x0003   097   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       2015
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   079   060   030    Pre-fail  Always       -       95020327
  9 Power_On_Hours          0x0032   093   093   000    Old_age   Always       -       6232
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       29
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1901
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   089   089   000    Old_age   Always       -       11
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   031   031   000    Old_age   Always       -       69
190 Airflow_Temperature_Cel 0x0022   064   052   045    Old_age   Always       -       36 (Min/Max 21/39)
194 Temperature_Celsius     0x0022   036   048   000    Old_age   Always       -       36 (0 2 0 0 0)
195 Hardware_ECC_Recovered  0x001a   057   033   000    Old_age   Always       -       64106700
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 30 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 30 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 31 0a c0 07  Error: WP at LBA = 0x07c00a31 = 130026033

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 08 ff ff ff 4f 00      02:44:26.533  WRITE FPDMA QUEUED
  60 00 08 30 0a c0 47 00      02:44:26.531  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00      02:44:26.531  FLUSH CACHE EXT
  27 00 00 00 00 00 e0 00      02:44:26.503  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00      02:44:26.502  IDENTIFY DEVICE

Error 29 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 31 0a c0 07  Error: UNC at LBA = 0x07c00a31 = 130026033

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 30 0a c0 47 00      02:44:23.607  READ FPDMA QUEUED
  61 00 20 ff ff ff 4f 00      02:44:23.606  WRITE FPDMA QUEUED
  27 00 00 00 00 00 e0 00      02:44:23.579  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00      02:44:23.577  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      02:44:23.564  SET FEATURES [Set transfer mode]

Error 28 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 31 0a c0 07  Error: UNC at LBA = 0x07c00a31 = 130026033

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 30 0a c0 47 00      02:44:20.678  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      02:44:20.651  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00      02:44:20.649  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      02:44:20.636  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      02:44:20.609  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

Error 27 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 31 0a c0 07  Error: UNC at LBA = 0x07c00a31 = 130026033

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 30 0a c0 47 00      02:44:17.780  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      02:44:17.752  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00      02:44:17.751  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      02:44:17.738  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      02:44:17.710  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

Error 26 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 31 0a c0 07  Error: UNC at LBA = 0x07c00a31 = 130026033

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 00 db b3 47 00      02:44:11.534  READ FPDMA QUEUED
  60 00 80 80 da b3 47 00      02:44:11.526  READ FPDMA QUEUED
  60 00 80 00 d8 a7 47 00      02:44:08.160  READ FPDMA QUEUED
  60 00 80 80 d7 a7 47 00      02:44:08.151  READ FPDMA QUEUED
  60 00 80 80 13 a2 47 00      02:44:06.531  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Modros · 7. 5. 2022, 12:03

takhle mě fungoval jeden comp taky...když sem s nim praštil o stul jak sem ho přenášel tak začal fungovat....kdž to udělal zas tak sem ho rozebral a složil a sloužil další 3 roky

prcek · 7. 5. 2022, 12:57

Zkus pustit a pockat na dokonceni dlouhy smart test

smartctl -t long zarizeni

Pak se zase podivej pres smartctl -a jestli nahodou neni nejak hlodnuty.
Jinak ten dmesg je z beziciho systemu, ty zajimave informace budou tesne pred zaseknutim, dost mozna neulozene. Zkus se podivat po syslog souboru, tam se vetsinou dmesg ulkada taky. Kdyz se zacne pocitac zasekavat, bez upravy sw vetsinou za to muze pamet, disk, nebo chlazeni. Memtest je super, ale klidne ho nech bezet cely den vsechny testy, nekdy se prvni prubeh zadari a pak to zacne blbnout.
Je to nepekna ducharina, nekdy je to studenak, nebo konektor, nebo odchazejici zdroj, ktery neda nektere napeti dost tvrde atp.

Charon · 7. 5. 2022, 1:54

prcek píše: ↑7. 5. 2022, 12:57 Zkus pustit a pockat na dokonceni dlouhy smart test

smartctl -t long zarizeni

Pak se zase podivej pres smartctl -a jestli nahodou neni nejak hlodnuty.
Jinak ten dmesg je z beziciho systemu, ty zajimave informace budou tesne pred zaseknutim, dost mozna neulozene. Zkus se podivat po syslog souboru, tam se vetsinou dmesg ulkada taky. Kdyz se zacne pocitac zasekavat, bez upravy sw vetsinou za to muze pamet, disk, nebo chlazeni. Memtest je super, ale klidne ho nech bezet cely den vsechny testy, nekdy se prvni prubeh zadari a pak to zacne blbnout.
Je to nepekna ducharina, nekdy je to studenak, nebo konektor, nebo odchazejici zdroj, ktery neda nektere napeti dost tvrde atp.

Zapomněl jsi na všechny kondíky uvnitř

7. 5. 2022, 2:39

Co teplota?
Nedejcha se mu ted lepe nez kdyz byl ve stroji?
Zkus mu pricpat sani a dej mu neco pocitat....

lubbez · 7. 5. 2022, 7:10

Ventilátory jak na desce, tak ve zdroji a koukni se, jestli nejsou kondíky nafouknutý, myslím ve zdroji u výstupních kabelů. Provozoval jsem leta cca 200 linuxových počítačů 24/7 a nečastější závada byla prach ve ventilátorech, pak nafouknutý koďany no a disky PATA 40 nebo 80G spolehlivá životnost 3-4 roky, pak šly pomalu do kopru.

zz912 · 8. 5. 2022, 6:20

Co se tyce drevenyho prachu, tak ten PC byl zevnitr v pohode. Cekal jsem 5mm nanos prachu, ale ne. Neco malo tam bylo, ale daleko mene nez u PC z kanclu ci z domu. Ten PC je ve stroji v uzavrene krabici, ktera ma ventilator, co se pouziva na WC a funguje mu to jak po strance cistoty i teploty. Predchozi PC co mel v tom stroji mel na sobe teplomer a tak to resil. Vseobecne si myslim, ze to teplotou nebude. Projevovalo se to tim, ze to neslo zapnout, nebo me se to seklo cca 2 minuty po zapnuti.

Zkusil jsem ten Memtest86+ bezet pres celou noc a takhle dopadl:

Konkretni chybu pise jednu, ale v pocet chyb 3. ???

Fyzicky mam v PC dvě RAMky, poznam na ktere RAMce ta chyba se objevila? Premyslel, jsem ze bych jednu vytahnul. Poradite, co si z toho testu vzit? Je vadna RAMka, nebo chyba muze byt i pred RAMkou? Kondiky na MB vypadaj v pohode. Na kondiky ve zdroji se jeste podivam.

8. 5. 2022, 6:43

ted jsem vymenoval ve dvou pixlach nenafoukle dobre vypadajici kondiky
v obou pripadech to vyresilo problem se stabilitou
vetsinou se to projevovalo chvili po zapnuti
holt uz neni kosa a neja stupinek navic tomu vadil nez treba pred rokem kde to bylo jeste v pohode
vliv teploty nepodcenuj
pro cloveka neznatelny rozdil je pro techniku starsiho data naprosto zasadni
ty kondiky vydrzej s jistotou dva roky, pak jdou postupne do haje az jednoho dne vznikne problem se spolehlivosti, zvlast po zahrati. nikde nic neni videt jen maj trosku horsi parametry.
Z jakeho data je to PC?

zz912 · 8. 5. 2022, 7:28

Na krabici jsem nasel nejake razitko s rokem 2008.

8. 5. 2022, 7:59

No tak to je dost na to aby treba mel problem s teplotou.

prcek · 8. 5. 2022, 11:19

zz912 píše: ↑8. 5. 2022, 6:20 Projevovalo se to tim, ze to neslo zapnout, nebo me se to seklo cca 2 minuty po zapnuti.

Tohle mi dělal vadný zdroj (kondenzátory v něm)

zz912 píše: ↑8. 5. 2022, 6:20 Zkusil jsem ten Memtest86+ bezet pres celou noc a takhle dopadl:
20220508_065124.jpg
Konkretni chybu pise jednu, ale v pocet chyb 3. ???

Běžel 4x dokola z toho 3x failnul na stejné adrese.

zz912 píše: ↑8. 5. 2022, 6:20 Fyzicky mam v PC dvě RAMky, poznam na ktere RAMce ta chyba se objevila? Premyslel, jsem ze bych jednu vytahnul. Poradite, co si z toho testu vzit? Je vadna RAMka, nebo chyba muze byt i pred RAMkou? Kondiky na MB vypadaj v pohode. Na kondiky ve zdroji se jeste podivam.

Deska, nebo RAM, který modul to je imho nepoznáš. Vytáhnout jeden, pustit test přes noc. vyměnit moduly, pustit test zase. Je možné, že se to bude tvářit, že oba jsou OK, nebo vadné. Může být problém kombinace slot/modul (i ta teplota, případně výkyv síťového napětí může mít vliv).

Už jsem psal, že je to duchařina?

zz912 · 8. 5. 2022, 8:18

Dekuji vsem za pomoc a za namety, co vse mohu zkusit. Chtel bych vsak postupovat postupne. Nejdriv by ch chtel oznacit ty vadne sektory na disku. Ovsem nedari se mi:

Kód: Vybrat vše

user@debian:~$ sudo umount /dev/sda
umount: /dev/sda: not mounted.
user@debian:~$ sudo fsck -cfvr /dev/sda
fsck from util-linux 2.33.1
e2fsck 1.44.5 (15-Dec-2018)
ext2fs_open2: Bad magic number in super-block
fsck.ext2: Superblock invalid, trying backup blocks...
fsck.ext2: Bad magic number in super-block while trying to open /dev/sda

The superblock could not be read or does not describe a valid ext2/ext3/ext4
filesystem.  If the device is valid and it really contains an ext2/ext3/ext4
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
    e2fsck -b 8193 <device>
 or
    e2fsck -b 32768 <device>

Found a dos partition table in /dev/sda
/dev/sda: status 8, rss 4336, real 0.274962, user 0.000000, sys 0.006546

Jeste dodam, ze se o toto pokousim, kdyz jsem nabootovany z flasky na LinuxCNC. Takze na sda by nemelo nic sahat.

Mex · 8. 5. 2022, 8:41

Ale z toho /dev/sda jsi nabootovany, ne?
Tak asi není dobrý nápad ho odpojovat.