2009年1月11日 星期日

移民署外籍人士出入境查驗系統故障36小時

移民署外籍人士出入境查驗系統故障36小時

媒體綜合報導:中正機場二航廈主機 SUN E10K 1月3日故障,系統自動切換到中正機場一航廈備援系統。不幸的中正機場一航廈備援系統之 EMC disk array又於 1月5日 05:00故障,導致 Data Base crash;導致利用此備援系統的桃園機場一二期航站、松山機場、台中機場、高雄機場、金門水頭碼頭及馬祖福澳港外籍人士出入境安全查驗業務完全停頓。除高雄小港機場查驗系統因直接連往移民署,與桃園機場系統獨立,未受影響外,其餘機場之外籍人士出入境查驗,都改以人工抄錄,傳真到高雄小港機場查驗隊,以獨立系統批次作業,再將結果回傳。

媒體報導移民署中正機場出入境證照查驗電腦當機三十六小時,以人工作業傳真出入境證照查驗系統維持出入境安全查驗。顯示移民署證照查驗作業流程有考慮電腦易地備援、也考慮了最壞狀況時之人工處理作業流程,當機後立即進行離線作業,值得肯定。

媒體報導中正機場一二航站電腦系統維運原由大同公司負責,於2009年1月1日起轉由神通電腦公司負責。業界均知大同、神通負責國內多數公民營單位重要電腦系統維護、維運,多年來並未有重大疏失,兩家公司電腦硬體系統維運能力,均經市場長期驗證,兩家均為適當廠商,應無疑慮。

媒體一再報導此次故障起因於一航站磁碟機陣列有三顆硬碟同時故障。我們深知一線大廠(IBM、HP、EMC、Hitachi、Net amp)之磁碟機陣列,每一陣列機櫃單一磁碟故障,完全不影響磁碟機效能,每一陣列機櫃同時故障兩顆硬碟,也完全不影響磁碟機效能,要同陣列機櫃三顆硬碟同時故障,才會因檔案重建,影響磁碟機陣列效能。降低效能後,是否導致 Data Base 效能變慢,影響系統正常運作,要看應用系統規劃設計。良好規劃設計之應用系統,會啟動流量管制,確保系統僅降低服務效能,不會中斷服務。


三天內發生一片E10K主機介面卡與三顆硬碟同時故障的機率微乎其微。移民署證照查驗系統應屬國家資通安全A級系統,必定已經通過 ISO27001驗證,需定期、不定期執行內、外部稽核活動、資安事件預防與問題矯正措施。機房門禁與系統操作一定有記錄。非常好奇移民署是否有查驗過故障是人為因素還是應用系統負載安全係數設定過高,導致資料庫超載。

媒體報導故障的資料庫僅為外籍人士民國 70 年以後約 40 億筆入出境旅客資料,每筆資料大小若為一千個英文字,系統僅佔 400 Gbytes,現今的標準筆電,前幾年的桌上個人電腦,均可儲存 40 億筆資料,對一線廠的磁碟機陣列而言 40 億筆資料,可謂殺雞用牛刀。

媒體報導神通三十六小時一直未修復系統,是移民署系統維運人員花兩小時修復的。通常桃園地區 SUN E10K E12K 故障,原廠可在兩小時更換任何故障硬體。一線大廠的磁碟陣列故障,原廠商亦可在兩小時之內替換零件。磁碟檔案重整的時間,則取決於品牌與磁碟陣列大小而定。從磁碟陣列體積我們研判大約只有 10T 容量,國際大品牌均可在三五分鐘之內完成檔案重整。資料庫重整較為費時,但只要系統離線處理,應該也可以在半小時之內完成。但應用系統運作中,硬體工程師、資料庫工程師,系統維運人員,花再多時間也無法處理。

我們好奇移民署維護合約標的為何?是單純的硬體維護?或包含資料庫系統維護?或包含應用系統維護?還是包含整個系統的維運?若在硬體維護合約隱含軟體系統維護、維運,則本次故障責任必須由開系統規格、維護規格者承擔。因為應用系統驗收後之維運,應該已由原始廠商交付給業主,若業主未公開傳授給所有投標之維護廠商,就不應該併案採購,或應該分割指廠採購。未來唯有落實使用者付費,使用系統的機場付費,負責任的移民署開規格建置標、開維運標,並負責督導維運,才能避免再次發生國際笑柄。該負責的移民署不負責,交給沒有能力負責的機場才是問題關鍵。

後記:
媒體報導移民署副署長黃碧霞表示『在 2009/1/22 在移民署完成第三備援系統, 2009/2/13 上午 6:24 系統發生故障,啟動人工作業,6:43 第三備援系統上線運作,故障系統分別在 7:44 7:54 修復,故障原因為一二航廈出入境資料庫滿檔處理不當造成』。媒體報導用到第三備援系統,故障系統在 7:44 7:54 恢復,顯示一二航站系統同時故障。

2009/1/3~5 36 小時故障懲處名單為移民署長謝立功、傅署長何榮村、資訊組長許文勇小過兩次,副署長黃碧霞、主秘胡景富申誡兩次。

沒有留言: