Sekající se PC
Kamarád, kterému jsem už kdysi zprovoznil CNC na LinuxuCNC, mi volal, že má problém s PC. Že když k němu příjde občas naběhne až na poněkolikáté. A už několikrát se mu sekl během frézování. PC řídílo CNC minimálně 2 roky bez problémů a bylo používáno jen na LinuxCNC
Když jsem k němu přijel naběhnul napoprvé, ale to zaseknutí jsem zažil taktéž hned po pár minutách po naběhnutí. Dočasné řešení bylo, že jsem mu jeho PC vyměnil za svoje. (Nerad bych aby to bylo trvalé provizorium)
Přivezl jsem PC domů a "nečekaně" šlape jak hodinky. Zkusil jsem Memtest86+ (0 errors) a vygoogluji další testy. Nenapadá Vás co ještě zkusit? V Linuxu je spousta logů. Nevíte do čeho se mrknout, kdyby se zase sekl?
Do přílohy jsem dal dmesg. Ovšem neumím z něj nic vyčíst. Je tam něco červeně, ale nevím co to je, ale ani nevím, zda to tam nebylo už předtím.
Když jsem k němu přijel naběhnul napoprvé, ale to zaseknutí jsem zažil taktéž hned po pár minutách po naběhnutí. Dočasné řešení bylo, že jsem mu jeho PC vyměnil za svoje. (Nerad bych aby to bylo trvalé provizorium)
Přivezl jsem PC domů a "nečekaně" šlape jak hodinky. Zkusil jsem Memtest86+ (0 errors) a vygoogluji další testy. Nenapadá Vás co ještě zkusit? V Linuxu je spousta logů. Nevíte do čeho se mrknout, kdyby se zase sekl?
Do přílohy jsem dal dmesg. Ovšem neumím z něj nic vyčíst. Je tam něco červeně, ale nevím co to je, ale ani nevím, zda to tam nebylo už předtím.
- Přílohy
-
- dmesg.txt
- (57.56 KiB) Staženo 99 x
LinuxCNC - MESA 7i96
zz912.webnode.cz
zz912.webnode.cz
Ahoj nejsem linuxák, žiju s widlema asi od verze 3.0 Moje zkušenost je, ze nejvic blbne hard, jestli tam máš klasiku, tak přibyly vadne sektory, ono to nějak běží, ale... Další jsou paměti, zase historicke obcas blbnou. Zacni tim, že je vyndaš a očistíš kontakty šmrdlátkem. Ale je to vždy duchařina
Na hobíka to asi jde...
SM16A, FN20, 3E710B, CDC7-2, HO02, CO2laser, Fiber a tak
SM16A, FN20, 3E710B, CDC7-2, HO02, CO2laser, Fiber a tak
Zkusil jsem zkontrolovat disk na špatné bloky.
Ovšem nevím, jak to inerpretovat. Někde jsem četl, že jediná akceptovatelná hodnota je 0 a někde jsem zase četl, že pokud jich nejsou stovky, tak je to OK.
smartcl, říká:
což má znamenat, že je v pohodě.
Kód: Vybrat vše
zdenek@CNC:~$ sudo badblocks -sv /dev/sda
[sudo] heslo pro zdenek:
Ověřují se bloky 0 až 312571223
Hledají se špatné bloky (test jen pro čtení): 65013016 hotovo, 13:33 uplynulo. (0/0/0 chyb)
65013017 hotovo, 13:36 uplynulo. (1/0/0 chyb)
65013018 hotovo, 13:39 uplynulo. (2/0/0 chyb)
65013019 hotovo, 13:42 uplynulo. (3/0/0 chyb)
hotovo
Průchod dokončen, nalezeno 4 špatných bloků (4/0/0 chyb).
smartcl, říká:
Kód: Vybrat vše
SMART overall-health self-assessment test result: PASSED
Kód: Vybrat vše
zdenek@CNC:~$ sudo smartctl -s on -a /dev/sda
smartctl 6.6 2016-05-31 r4324 [i686-linux-4.9.0-18-rt-686-pae] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.11
Device Model: ST3320813AS
Serial Number: 9SZ0ZLCR
LU WWN Device Id: 5 000c50 010998047
Firmware Version: SD23
User Capacity: 320 072 933 376 bytes [320 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Sat May 7 11:47:32 2022 CEST
==> WARNING: There are known problems with these drives,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/207951en
http://knowledge.seagate.com/articles/en_US/FAQ/207957en
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 609) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 65) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x103b) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 114 099 006 Pre-fail Always - 64106700
3 Spin_Up_Time 0x0003 097 096 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 2015
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 079 060 030 Pre-fail Always - 95020327
9 Power_On_Hours 0x0032 093 093 000 Old_age Always - 6232
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 29
12 Power_Cycle_Count 0x0032 099 099 020 Old_age Always - 1901
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 089 089 000 Old_age Always - 11
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 031 031 000 Old_age Always - 69
190 Airflow_Temperature_Cel 0x0022 064 052 045 Old_age Always - 36 (Min/Max 21/39)
194 Temperature_Celsius 0x0022 036 048 000 Old_age Always - 36 (0 2 0 0 0)
195 Hardware_ECC_Recovered 0x001a 057 033 000 Old_age Always - 64106700
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
ATA Error Count: 30 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 30 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 31 0a c0 07 Error: WP at LBA = 0x07c00a31 = 130026033
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
61 00 08 ff ff ff 4f 00 02:44:26.533 WRITE FPDMA QUEUED
60 00 08 30 0a c0 47 00 02:44:26.531 READ FPDMA QUEUED
ea 00 00 00 00 00 a0 00 02:44:26.531 FLUSH CACHE EXT
27 00 00 00 00 00 e0 00 02:44:26.503 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 02:44:26.502 IDENTIFY DEVICE
Error 29 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 31 0a c0 07 Error: UNC at LBA = 0x07c00a31 = 130026033
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 30 0a c0 47 00 02:44:23.607 READ FPDMA QUEUED
61 00 20 ff ff ff 4f 00 02:44:23.606 WRITE FPDMA QUEUED
27 00 00 00 00 00 e0 00 02:44:23.579 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 02:44:23.577 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 02:44:23.564 SET FEATURES [Set transfer mode]
Error 28 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 31 0a c0 07 Error: UNC at LBA = 0x07c00a31 = 130026033
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 30 0a c0 47 00 02:44:20.678 READ FPDMA QUEUED
27 00 00 00 00 00 e0 00 02:44:20.651 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 02:44:20.649 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 02:44:20.636 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 02:44:20.609 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
Error 27 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 31 0a c0 07 Error: UNC at LBA = 0x07c00a31 = 130026033
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 30 0a c0 47 00 02:44:17.780 READ FPDMA QUEUED
27 00 00 00 00 00 e0 00 02:44:17.752 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 02:44:17.751 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 02:44:17.738 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 02:44:17.710 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
Error 26 occurred at disk power-on lifetime: 6231 hours (259 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 31 0a c0 07 Error: UNC at LBA = 0x07c00a31 = 130026033
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 80 00 db b3 47 00 02:44:11.534 READ FPDMA QUEUED
60 00 80 80 da b3 47 00 02:44:11.526 READ FPDMA QUEUED
60 00 80 00 d8 a7 47 00 02:44:08.160 READ FPDMA QUEUED
60 00 80 80 d7 a7 47 00 02:44:08.151 READ FPDMA QUEUED
60 00 80 80 13 a2 47 00 02:44:06.531 READ FPDMA QUEUED
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
LinuxCNC - MESA 7i96
zz912.webnode.cz
zz912.webnode.cz
takhle mě fungoval jeden comp taky...když sem s nim praštil o stul jak sem ho přenášel tak začal fungovat....kdž to udělal zas tak sem ho rozebral a složil a sloužil další 3 roky
Masso, stroje všemožný, autoservis, amatérské závody Nissan GTR
Zkus pustit a pockat na dokonceni dlouhy smart test
smartctl -t long zarizeni
Pak se zase podivej pres smartctl -a jestli nahodou neni nejak hlodnuty.
Jinak ten dmesg je z beziciho systemu, ty zajimave informace budou tesne pred zaseknutim, dost mozna neulozene. Zkus se podivat po syslog souboru, tam se vetsinou dmesg ulkada taky. Kdyz se zacne pocitac zasekavat, bez upravy sw vetsinou za to muze pamet, disk, nebo chlazeni. Memtest je super, ale klidne ho nech bezet cely den vsechny testy, nekdy se prvni prubeh zadari a pak to zacne blbnout.
Je to nepekna ducharina, nekdy je to studenak, nebo konektor, nebo odchazejici zdroj, ktery neda nektere napeti dost tvrde atp.
smartctl -t long zarizeni
Pak se zase podivej pres smartctl -a jestli nahodou neni nejak hlodnuty.
Jinak ten dmesg je z beziciho systemu, ty zajimave informace budou tesne pred zaseknutim, dost mozna neulozene. Zkus se podivat po syslog souboru, tam se vetsinou dmesg ulkada taky. Kdyz se zacne pocitac zasekavat, bez upravy sw vetsinou za to muze pamet, disk, nebo chlazeni. Memtest je super, ale klidne ho nech bezet cely den vsechny testy, nekdy se prvni prubeh zadari a pak to zacne blbnout.
Je to nepekna ducharina, nekdy je to studenak, nebo konektor, nebo odchazejici zdroj, ktery neda nektere napeti dost tvrde atp.
--
Všechno je snadné, než to zkusíš sám.
Všechno je snadné, než to zkusíš sám.
Zapomněl jsi na všechny kondíky uvnitřprcek píše: ↑7. 5. 2022, 12:57 Zkus pustit a pockat na dokonceni dlouhy smart test
smartctl -t long zarizeni
Pak se zase podivej pres smartctl -a jestli nahodou neni nejak hlodnuty.
Jinak ten dmesg je z beziciho systemu, ty zajimave informace budou tesne pred zaseknutim, dost mozna neulozene. Zkus se podivat po syslog souboru, tam se vetsinou dmesg ulkada taky. Kdyz se zacne pocitac zasekavat, bez upravy sw vetsinou za to muze pamet, disk, nebo chlazeni. Memtest je super, ale klidne ho nech bezet cely den vsechny testy, nekdy se prvni prubeh zadari a pak to zacne blbnout.
Je to nepekna ducharina, nekdy je to studenak, nebo konektor, nebo odchazejici zdroj, ktery neda nektere napeti dost tvrde atp.
Na hobíka to asi jde...
SM16A, FN20, 3E710B, CDC7-2, HO02, CO2laser, Fiber a tak
SM16A, FN20, 3E710B, CDC7-2, HO02, CO2laser, Fiber a tak
Ventilátory jak na desce, tak ve zdroji a koukni se, jestli nejsou kondíky nafouknutý, myslím ve zdroji u výstupních kabelů. Provozoval jsem leta cca 200 linuxových počítačů 24/7 a nečastější závada byla prach ve ventilátorech, pak nafouknutý koďany no a disky PATA 40 nebo 80G spolehlivá životnost 3-4 roky, pak šly pomalu do kopru.
Co se tyce drevenyho prachu, tak ten PC byl zevnitr v pohode. Cekal jsem 5mm nanos prachu, ale ne. Neco malo tam bylo, ale daleko mene nez u PC z kanclu ci z domu. Ten PC je ve stroji v uzavrene krabici, ktera ma ventilator, co se pouziva na WC a funguje mu to jak po strance cistoty i teploty. Predchozi PC co mel v tom stroji mel na sobe teplomer a tak to resil. Vseobecne si myslim, ze to teplotou nebude. Projevovalo se to tim, ze to neslo zapnout, nebo me se to seklo cca 2 minuty po zapnuti.
Zkusil jsem ten Memtest86+ bezet pres celou noc a takhle dopadl: Konkretni chybu pise jednu, ale v pocet chyb 3. ???
Fyzicky mam v PC dvě RAMky, poznam na ktere RAMce ta chyba se objevila? Premyslel, jsem ze bych jednu vytahnul. Poradite, co si z toho testu vzit? Je vadna RAMka, nebo chyba muze byt i pred RAMkou? Kondiky na MB vypadaj v pohode. Na kondiky ve zdroji se jeste podivam.
Zkusil jsem ten Memtest86+ bezet pres celou noc a takhle dopadl: Konkretni chybu pise jednu, ale v pocet chyb 3. ???
Fyzicky mam v PC dvě RAMky, poznam na ktere RAMce ta chyba se objevila? Premyslel, jsem ze bych jednu vytahnul. Poradite, co si z toho testu vzit? Je vadna RAMka, nebo chyba muze byt i pred RAMkou? Kondiky na MB vypadaj v pohode. Na kondiky ve zdroji se jeste podivam.
LinuxCNC - MESA 7i96
zz912.webnode.cz
zz912.webnode.cz
- robokop
- Site Admin
- Příspěvky: 22390
- Registrován: 10. 7. 2006, 12:12
- Bydliště: Praha
- Kontaktovat uživatele:
ted jsem vymenoval ve dvou pixlach nenafoukle dobre vypadajici kondiky
v obou pripadech to vyresilo problem se stabilitou
vetsinou se to projevovalo chvili po zapnuti
holt uz neni kosa a neja stupinek navic tomu vadil nez treba pred rokem kde to bylo jeste v pohode
vliv teploty nepodcenuj
pro cloveka neznatelny rozdil je pro techniku starsiho data naprosto zasadni
ty kondiky vydrzej s jistotou dva roky, pak jdou postupne do haje az jednoho dne vznikne problem se spolehlivosti, zvlast po zahrati. nikde nic neni videt jen maj trosku horsi parametry.
Z jakeho data je to PC?
v obou pripadech to vyresilo problem se stabilitou
vetsinou se to projevovalo chvili po zapnuti
holt uz neni kosa a neja stupinek navic tomu vadil nez treba pred rokem kde to bylo jeste v pohode
vliv teploty nepodcenuj
pro cloveka neznatelny rozdil je pro techniku starsiho data naprosto zasadni
ty kondiky vydrzej s jistotou dva roky, pak jdou postupne do haje az jednoho dne vznikne problem se spolehlivosti, zvlast po zahrati. nikde nic neni videt jen maj trosku horsi parametry.
Z jakeho data je to PC?
Vsechna prava na chyby vyhrazena (E)
Tohle mi dělal vadný zdroj (kondenzátory v něm)
Běžel 4x dokola z toho 3x failnul na stejné adrese.
Deska, nebo RAM, který modul to je imho nepoznáš. Vytáhnout jeden, pustit test přes noc. vyměnit moduly, pustit test zase. Je možné, že se to bude tvářit, že oba jsou OK, nebo vadné. Může být problém kombinace slot/modul (i ta teplota, případně výkyv síťového napětí může mít vliv).
Už jsem psal, že je to duchařina?
--
Všechno je snadné, než to zkusíš sám.
Všechno je snadné, než to zkusíš sám.
Dekuji vsem za pomoc a za namety, co vse mohu zkusit. Chtel bych vsak postupovat postupne. Nejdriv by ch chtel oznacit ty vadne sektory na disku. Ovsem nedari se mi:
Jeste dodam, ze se o toto pokousim, kdyz jsem nabootovany z flasky na LinuxCNC. Takze na sda by nemelo nic sahat.
Kód: Vybrat vše
user@debian:~$ sudo umount /dev/sda
umount: /dev/sda: not mounted.
user@debian:~$ sudo fsck -cfvr /dev/sda
fsck from util-linux 2.33.1
e2fsck 1.44.5 (15-Dec-2018)
ext2fs_open2: Bad magic number in super-block
fsck.ext2: Superblock invalid, trying backup blocks...
fsck.ext2: Bad magic number in super-block while trying to open /dev/sda
The superblock could not be read or does not describe a valid ext2/ext3/ext4
filesystem. If the device is valid and it really contains an ext2/ext3/ext4
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
e2fsck -b 8193 <device>
or
e2fsck -b 32768 <device>
Found a dos partition table in /dev/sda
/dev/sda: status 8, rss 4336, real 0.274962, user 0.000000, sys 0.006546
LinuxCNC - MESA 7i96
zz912.webnode.cz
zz912.webnode.cz