將近八年的技術(shù)支持每天與一些奇奇怪怪、匪夷所思的網(wǎng)絡(luò)故障打交道,這讓我越來(lái)越覺(jué)得自己就像一個(gè)外科醫(yī)生,我的病人就是故障網(wǎng)絡(luò)。由最初的“陪診”到獨(dú)自“出診”手到病除,在知識(shí)經(jīng)驗(yàn)積累的同時(shí)更多的是科學(xué)方法的養(yǎng)成。我們的客戶一般都有專職的網(wǎng)絡(luò)維護(hù)和管理人員,但遇到一些稍微復(fù)雜的網(wǎng)絡(luò)故障就束手無(wú)策求救于客服,我想這也許是很多網(wǎng)管的通病。授人以魚(yú)不如授人以漁,下面和大家分享一下自己的網(wǎng)絡(luò)診斷術(shù)語(yǔ),希望能夠幫助到你。
1、網(wǎng)絡(luò)故障的幾種可能性
網(wǎng)絡(luò)管理員們應(yīng)該明白:網(wǎng)絡(luò)故障幾乎是不可避免的,我們所能做的就是降低故障發(fā)生可能性,在故障發(fā)生后能夠盡快地排除故障。要做到這些,管理員應(yīng)對(duì)網(wǎng)絡(luò)的各層比較了解,對(duì)自己負(fù)責(zé)的網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)的狀況要比較熟悉。另外,要知道網(wǎng)絡(luò)故障發(fā)生的幾種可能性,在網(wǎng)絡(luò)排除陷入困境的時(shí)候可從中找到突破口。
下面是我總結(jié)的集中可能性:(1).物理層中物理設(shè)備相互連接失敗或硬件及線路本身的問(wèn)題;(2).數(shù)據(jù)鏈路層的網(wǎng)絡(luò)設(shè)備的接口配置問(wèn)題;(3).網(wǎng)絡(luò)層網(wǎng)絡(luò)協(xié)議配置或操作錯(cuò)誤;(4).傳輸層的設(shè)備性能或通信擁塞問(wèn)題;(5).上三層或網(wǎng)絡(luò)應(yīng)用程序錯(cuò)誤。上面的5個(gè)方面適用于大部分網(wǎng)絡(luò),當(dāng)然大家可根據(jù)自己網(wǎng)絡(luò)的情況進(jìn)行評(píng)估順次列出更多條。這是一個(gè)很好的習(xí)慣,當(dāng)然這建立在你的對(duì)自己負(fù)責(zé)的網(wǎng)絡(luò)非常熟悉的基礎(chǔ)上。
2、網(wǎng)絡(luò)排錯(cuò)的步驟
一般步驟:
某些有經(jīng)驗(yàn)的網(wǎng)管可以憑借自己的經(jīng)驗(yàn)、技術(shù)及其敏銳的嗅覺(jué)快速定位網(wǎng)絡(luò)故障。但是,對(duì)于一般的網(wǎng)絡(luò)管理人員,掌握網(wǎng)絡(luò)排錯(cuò)的一般步驟是非常必要的。這個(gè)一般的過(guò)程是:從故障現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,確定網(wǎng)絡(luò)故障點(diǎn),查找問(wèn)題的根源,排除
故障,恢復(fù)網(wǎng)絡(luò)正常運(yùn)行。此外,診斷網(wǎng)絡(luò)故障的過(guò)程應(yīng)該沿著OSI七層模型從物理層開(kāi)始向上進(jìn)行。首先檢查物理層,然后檢查數(shù)據(jù)鏈路層,以此類推,逐步往上,設(shè)法確定通信失敗的故障點(diǎn),直到系統(tǒng)通信正常為止。
具體步驟:
(1).首先確定故障的具體現(xiàn)象,分析造成這種故障現(xiàn)象的原因類型。例如,主機(jī)不響應(yīng)客戶請(qǐng)求服務(wù)??赡艿墓收显蚴侵鳈C(jī)配置問(wèn)題、接口卡故障或路由器配置命令丟失等。
(2).收集需要的用于幫助隔離可能故障原因的信息。從網(wǎng)絡(luò)管理系統(tǒng)、協(xié)議分析跟蹤、路由器診斷命令的輸出報(bào)告或軟件說(shuō)明書(shū)中收集有用的信息。
(3).根據(jù)收集到的情況考慮可能的故障原因,排除某些故障原因。例如,根據(jù)某些資料(如:設(shè)備安裝和操作手冊(cè))可以排除硬件故障,把注意力放在軟件原因上。
(4).根據(jù)最后的可能故障原因,建立一個(gè)診斷計(jì)劃。開(kāi)始僅用一個(gè)最可能的故障原因進(jìn)行診斷活動(dòng),這樣可以容易恢復(fù)到故障的原始狀態(tài)。如果一次同時(shí)考慮多個(gè)故障原因,試圖返回故障原始狀態(tài)就困難多了。
(5).執(zhí)行診斷計(jì)劃,認(rèn)真做好每一步測(cè)試和觀察,每改變一個(gè)參數(shù)都要確認(rèn)其結(jié)果。分析結(jié)果確定問(wèn)題是否解決,如果沒(méi)有解決,繼續(xù)下去,直到故障現(xiàn)象消失。
3、網(wǎng)絡(luò)排錯(cuò)的方法
掌握正確的排除方法往往可以加快你的排除進(jìn)程,起到事半功倍的效果。筆者認(rèn)為,排錯(cuò)方法應(yīng)該包括排錯(cuò)工具和排錯(cuò)思路兩個(gè)方面。工欲善其事必先利其器,毫無(wú)疑問(wèn)選擇恰當(dāng)?shù)墓ぞ呤欠浅jP(guān)鍵的。另外,排除思路也至關(guān)重要。正確的思路,能引導(dǎo)你快速排錯(cuò);錯(cuò)誤的思路,會(huì)讓你南轅北轍甚至鑄成大錯(cuò)。
(1).排錯(cuò)工具
網(wǎng)絡(luò)診斷可以使用多種工具:路由器診斷命令、網(wǎng)絡(luò)管理工具和包括局域網(wǎng)或廣域網(wǎng)分析儀(如HCT-6000和HCT-7000)在內(nèi)的其它故障診斷工具。查看路由表,是開(kāi)始查找網(wǎng)絡(luò)故障的好辦法。ICMP的ping、trace命令和Cisco的show命令、debug命令是獲取故障診斷有用信息的網(wǎng)絡(luò)工具。如何監(jiān)視網(wǎng)絡(luò)在正常條件下的運(yùn)行細(xì)節(jié)和出現(xiàn)故障的情況,利用show interface命令可以非常容易地獲得待檢查的每個(gè)接口的信息。show buffer命令提供定期顯示緩沖區(qū)大小、用途及使用狀況;show proc命令和show proc mem命令可用于跟蹤處理器和內(nèi)存的使用情況,可以定期收集這些數(shù)據(jù),在故障出現(xiàn)時(shí)用于診斷參考。
我們知道,在網(wǎng)絡(luò)排錯(cuò)中一些智能的硬件工具能夠快速地定位網(wǎng)絡(luò)故障,是網(wǎng)絡(luò)排除的好幫手。但筆者要說(shuō)的是,從某個(gè)角度來(lái)說(shuō)解決故障并不是網(wǎng)絡(luò)排除的唯一目的,作為技術(shù)人員通過(guò)這次排除中提高自己的技術(shù)也是非常重要的。因此,不要過(guò)多地依賴這些工具,它們剝奪你這次難得的提高機(jī)會(huì)。大家盡可能地使用系統(tǒng)工具,并且熟練掌握一兩款網(wǎng)絡(luò)分析軟件用軟件工具來(lái)排錯(cuò)。
(2).排錯(cuò)方法
本文中所說(shuō)的方法并不是具體的方法,我更希望大家能夠從OSI的網(wǎng)絡(luò)七層協(xié)議的角度進(jìn)行網(wǎng)絡(luò)排除。說(shuō)實(shí)話,這是一條通用的思路和方法,適用任何符合OSI七層模型的網(wǎng)絡(luò)排錯(cuò)。希望大家能夠從宏觀的角度出發(fā),從網(wǎng)絡(luò)底層去認(rèn)識(shí)網(wǎng)絡(luò)故障。網(wǎng)絡(luò)故障主要集中在物理層、數(shù)據(jù)鏈路層和網(wǎng)絡(luò)層。下面我就說(shuō)說(shuō)如何依次從這三層進(jìn)行網(wǎng)絡(luò)故障的排除。
物理層:物理層的故障主要表現(xiàn)在設(shè)備的物理連接方式是否恰當(dāng),連接電纜是否正確,Modem、CSU/DSU等設(shè)備的配置及操作是否正確。確定路由器端口物理連接是否完好的最佳方法是使用show interface命令,仔細(xì)檢查每個(gè)端口的狀態(tài),詳細(xì)解釋屏幕輸出信息,查看端口狀態(tài)、協(xié)議建立狀態(tài)和EIA狀態(tài)。
數(shù)據(jù)鏈路層:查找和排除數(shù)據(jù)鏈路層的故障,需要查看路由器的配置,檢查連接端口的共享同一數(shù)據(jù)鏈路層的封裝情況。每對(duì)接口要和與其通信的其它設(shè)備有相同的封裝。通過(guò)查看路由器的配置檢查其封裝,或者使用show命令查看相應(yīng)接口的封裝情況。如果判斷出是租用線路有問(wèn)題,應(yīng)該及時(shí)向當(dāng)?shù)仉娦挪块T申報(bào)。
網(wǎng)絡(luò)層:排除網(wǎng)絡(luò)層故障的基本方法是:沿著從源到目標(biāo)的路徑,查看路由器路由表,同時(shí)檢查路由器接口的IP地址。如果路由沒(méi)有在路由表巾出現(xiàn),應(yīng)該通過(guò)檢查來(lái)確定是否已經(jīng)輸入適當(dāng)?shù)撵o態(tài)路由、默認(rèn)路由或者動(dòng)態(tài)路由。然后手工配置一些丟失的路由,或者排除一些動(dòng)態(tài)路由選擇過(guò)程的故障,包括RIP或者IGRP路由協(xié)議出現(xiàn)的故障。例如,對(duì)于IGRP路由,選擇信息只在同一自治系統(tǒng)號(hào)(As)的系統(tǒng)之間交換數(shù)據(jù),查看路由器配置的自治系統(tǒng)號(hào)的匹配情況。
因?yàn)榫W(wǎng)絡(luò)的復(fù)雜性,網(wǎng)絡(luò)故障的診斷、排錯(cuò)也是一個(gè)復(fù)雜曲折的過(guò)程。如何少走彎路盡快排除故障,方法是關(guān)鍵。除此之外,良好的習(xí)慣能夠杜絕你犯一些低級(jí)錯(cuò)誤,也是技術(shù)水平提高的關(guān)鍵。以我的經(jīng)驗(yàn),良好的習(xí)慣保護(hù)備份、記錄、總結(jié)。有備無(wú)患,操作前做好必要的備份就能夠避免次生故障的發(fā)生(故障擴(kuò)大,將病馬醫(yī)死)。記錄不僅包括在故障處理過(guò)程中的操作,還包括故障排除后對(duì)這次排除經(jīng)歷的記錄。記錄既有加深印象的作用,也利于以后的借鑒??偨Y(jié)才能提高,可以將經(jīng)驗(yàn)升華為技術(shù),建議大家寫排錯(cuò)日志和總結(jié)筆記類似的東西。還是那句話, 三依中文網(wǎng) www.3eeezw.com 三依我的網(wǎng)絡(luò)診斷術(shù)對(duì)你有幫助。