淺談計算機審計中電子數(shù)據(jù)的清洗

來源: 王猛編輯： 2012/10/09 08:42:16　　字體：大小

　　隨著信息技術(shù)的發(fā)展和普及，審計工作已經(jīng)離不開計算機審計。電子數(shù)據(jù)審計作為計算機審計的一個重要組成部分，其有關(guān)理論、技術(shù)、方法得到了廣泛地研究、推廣和應(yīng)用，在審計實務(wù)中發(fā)揮了越來越重要的作用。

　　眾所周知，電子數(shù)據(jù)審計的基本步驟包括數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析等四個基本步驟。其中數(shù)據(jù)清洗是轉(zhuǎn)換和分析的基礎(chǔ)，一定程度上決定著計算機審計的最終質(zhì)量，數(shù)據(jù)清洗在電子數(shù)據(jù)采集中具有重要作用。因此，本文在闡述了數(shù)據(jù)清洗原理的基礎(chǔ)上，提出電子數(shù)據(jù)采集中常見問題的數(shù)據(jù)清洗方法。

　　一、數(shù)據(jù)清洗原理

　　數(shù)據(jù)清洗(data cleaning)，簡單地講，就是從數(shù)據(jù)源中清除錯誤和不一致，即利用有關(guān)技術(shù)如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的清洗規(guī)則等，從數(shù)據(jù)中檢測和消除錯誤數(shù)據(jù)、不完整數(shù)據(jù)和重復數(shù)據(jù)等，從而提高數(shù)據(jù)的質(zhì)量。業(yè)務(wù)知識與清洗規(guī)則的制定在相當程度上取決于審計人員的經(jīng)驗積累與綜合判斷能力。因此，審計人員應(yīng)按以下標準評價審計數(shù)據(jù)的質(zhì)量。

　?。ㄒ唬蚀_性：數(shù)據(jù)值與假定正確的值的一致程度。

　?。ǘ┩暾裕盒枰档膶傩灾袩o值缺失的程度。

　　（三）一致性：數(shù)據(jù)對一組約束的滿足程度。

　?。ㄋ模┪┮恍裕簲?shù)據(jù)記錄（及碼值）的惟一性。

　　（五）效性：維護的數(shù)據(jù)足夠嚴格以滿足分類準則的接受要求。

　　二、數(shù)據(jù)清洗的必要性

　　從被審計單位采集到的審計數(shù)據(jù)千差萬別，為了能更好的服務(wù)于審計分析和審計查證的需要，必須對采集的電子數(shù)據(jù)進行全面的清洗。

　?。ㄒ唬┍粚徲媶挝恍畔⑾到y(tǒng)的多樣性帶來了數(shù)據(jù)不一致性。開展計算機審計必然面臨各式各樣的迥然相異的被審計單位信息系統(tǒng)。被審計單位信息系統(tǒng)的差異，必然給審計工作帶來數(shù)據(jù)的不一致性問題。主要有以下表現(xiàn)形式：

　　1.同一字段在不同的應(yīng)用中具有不同的數(shù)據(jù)類型。如字段“借貸方標志”在A應(yīng)用中的類型為“字符型”，取值為“Credit/Debit”，在B應(yīng)用中的類型為“數(shù)值型”，取值為“0/1”，在C應(yīng)用中類型又為“布爾型”，取值為“True/False”。

　　2.同一字段在不同的應(yīng)用中具有不同的名字。如A應(yīng)用中的字段“Balance”在B應(yīng)用中名稱稱為“Bal”，在C應(yīng)用中又變成了“Currbal”。

　　3.同名字段，不同含義。如字段“月折舊額”在A應(yīng)用中表示用直線折舊法提取的月折舊額，在B應(yīng)用中表示用加速折舊法提取的月折舊額，等等。

　　4.同一信息，在不同的應(yīng)用中有不同的格式。如字段“日期”在A應(yīng)用中的格式為“YYYY－MM—DD”，在B應(yīng)用中格式為“MM/DD/YY”，在C應(yīng)用中格式為“DDMMYY”。

　　5.同一信息，在不同的應(yīng)用中有不同的表達方式。如對于借貸方發(fā)生額的記錄，在A應(yīng)用中設(shè)計為 “借方發(fā)生額”與“貸方發(fā)生額” 兩個字段，在B應(yīng)用中設(shè)計為 “借貸方標志”與“借貸方發(fā)生額”兩個字段。對于這些不一致的數(shù)據(jù)，必須進行轉(zhuǎn)換后才能供審計軟件分析之用。數(shù)據(jù)的不一致性是多種多樣的，對每種情況都必須專門處理。

　　（二）被審計系統(tǒng)的安全性措施給審計工作帶來障礙?；诎踩钥紤]，被審計單位的系統(tǒng)一般都采取一定的加密措施，有系統(tǒng)級的加密措施和數(shù)據(jù)級的加密措施。特別對具有一定含義的數(shù)據(jù)庫的表與字段的名稱，一般都要進行映射或轉(zhuǎn)換。例如，將表命名為T1，T2…；將字段命名為F1，F(xiàn)2 …。對于這樣的數(shù)據(jù)，不進行含義的對照與清洗就不明白表或字段的經(jīng)濟含義，審計人員是無法處理的，各種各樣的加密措施不勝枚舉，這些都給計算機審計帶來了障礙，也給數(shù)據(jù)清洗帶來挑戰(zhàn)。

　?。ㄈ徲嬆康牡牟煌瑳Q定了審計數(shù)據(jù)的范圍和要求不同。被審計單位的信息系統(tǒng)規(guī)模不一，數(shù)據(jù)量相差懸殊。審計人員不可能也沒有必要將被審計單位的所有數(shù)據(jù)都采集過來。審計工作有自己的目的和要求，需要處理的往往是某一時段或某一方面發(fā)生的數(shù)據(jù)。這樣就要求審計人員選取一定范圍的、滿足一定要求的審計數(shù)據(jù)。例如，在關(guān)稅審計業(yè)務(wù)中，關(guān)心的只是與稅收征管有關(guān)的報關(guān)單、加工貿(mào)易、減免稅、貨運艙單、稅單等相關(guān)數(shù)據(jù)庫的數(shù)據(jù)，而對于操作員授權(quán)管理等系統(tǒng)控制數(shù)據(jù)庫，在不對系統(tǒng)進行評價時，可以不采集。同時，審計目的不同，對原始數(shù)據(jù)的要求也不同。在對銀行貸款利率執(zhí)行情況檢查時，需要帶有計息標志和利率信息的每一筆貸款的明細數(shù)據(jù)，如果這樣的信息分布在被審計系統(tǒng)的若干張表中，換句話說，如果被審計單位不能提供完全滿足審計要求的數(shù)據(jù)，就有必要對采集到的數(shù)據(jù)進行清洗轉(zhuǎn)換。

　　（四）數(shù)據(jù)清洗是數(shù)據(jù)分析、處理的前提。計算機軟件設(shè)計一般都是基于一定的數(shù)據(jù)結(jié)構(gòu)，專用的審計軟件更是如此。在輸入數(shù)據(jù)不滿足軟件處理的需求時，必須對它進行清洗，對于一些通用的審計軟件，對輸入數(shù)據(jù)的適應(yīng)性相對強一些，但這并不意味著它可以處理不經(jīng)清洗的任意數(shù)據(jù)，審計軟件中有很多特定的分析方法和專用工具，這些方法和專用工具往往要求一定的數(shù)據(jù)結(jié)構(gòu)。例如，在計算機固定資產(chǎn)折舊時，就需要用到“資產(chǎn)原值”、“月折舊率”、“入賬日期”等信息，如果這些信息不能完全滿足，就無法計算。

　　三、數(shù)據(jù)清洗的主要步驟

　?。ㄒ唬┒x和確定錯誤的類型。

　　1.數(shù)據(jù)分析。數(shù)據(jù)分析是數(shù)據(jù)清洗的前提與基礎(chǔ)，通過詳盡的數(shù)據(jù)分析來檢測數(shù)據(jù)中的錯誤或不一致情況，除了手動檢查數(shù)據(jù)或者數(shù)據(jù)樣本之外，還可以使用分析程序來獲得關(guān)于數(shù)據(jù)屬性的元數(shù)據(jù)，從而發(fā)現(xiàn)數(shù)據(jù)集中存在的質(zhì)量問題。

　　2.定義清洗轉(zhuǎn)換規(guī)則。根據(jù)上一步進行數(shù)據(jù)分析得到的結(jié)果來定義清洗轉(zhuǎn)換規(guī)則與工作流。根據(jù)數(shù)據(jù)源的個數(shù)，數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度，需要執(zhí)行大量的數(shù)據(jù)轉(zhuǎn)換和清洗步驟。要盡可能的為模式相關(guān)的數(shù)據(jù)清洗和轉(zhuǎn)換指定一種查詢和匹配語言，從而使轉(zhuǎn)換代碼的自動生成變成可能。

　?。ǘ┧褜げ⒆R別錯誤的實例。

　　1.自動檢測屬性錯誤。檢測數(shù)據(jù)集中的屬性錯誤，需要花費大量的人力、物力和時間，而且這個過程本身很容易出錯，所以需要利用高的方法自動檢測數(shù)據(jù)集中的屬性錯誤，方法主要有：基于統(tǒng)計的方法、聚類方法、關(guān)聯(lián)規(guī)則的方法。

　　2.檢測重復記錄的算法。消除重復記錄可以針對兩個數(shù)據(jù)集或者一個合并后的數(shù)據(jù)集，首先需要檢測出標識同一個現(xiàn)實實體的重復記錄，即匹配過程。檢測重復記錄的算法主要有：基本的字段匹配算法，遞歸的字段匹配算法，Smith—Waterman算法，Cosine相似度函數(shù)。

　　（三）糾正所發(fā)現(xiàn)的錯誤。在數(shù)據(jù)源上執(zhí)行預(yù)先定義好的并且已經(jīng)得到驗證的清洗轉(zhuǎn)換規(guī)則和工作流。當直接在源數(shù)據(jù)上進行清洗時，需要備份源數(shù)據(jù)，以防需要撤銷上一次或幾次的清洗操作。清洗時根據(jù)“臟數(shù)據(jù)”存在形式的不同，執(zhí)行一系列的轉(zhuǎn)換步驟來解決模式層和實例層的數(shù)據(jù)質(zhì)量問題。為處理單數(shù)據(jù)源問題并且為其與其他數(shù)據(jù)源的合并做好準備，一般在各個數(shù)據(jù)源上應(yīng)該分別進行幾種類型的轉(zhuǎn)換，主要包括：

　　1.從自由格式的屬性字段中抽取值（屬性分離）。自由格式的屬性一般包含著很多的信息，而這些信息有時候需要細化成多個屬性，從而進一步支持后面重復記錄的清洗。

　　2. 確認和改正。這一步驟處理輸入和拼寫錯誤，并盡可能地使其自動化?；谧值洳樵兊钠磳憴z查對于發(fā)現(xiàn)拼寫錯誤是很有用的。

　　3. 標準化。為了使記錄實例匹配和合并變得更方便，應(yīng)該把屬性值轉(zhuǎn)換成一個一致和統(tǒng)一的格式。

　?。ㄋ模?shù)據(jù)回流。當數(shù)據(jù)被清洗后，干凈的數(shù)據(jù)應(yīng)該替換數(shù)據(jù)源中原來的“臟數(shù)據(jù)”。這樣可以提高原系統(tǒng)的數(shù)據(jù)質(zhì)量，還可避免將來再次抽取數(shù)據(jù)后進行重復的清洗工作。

　　四、數(shù)據(jù)清洗的主要方法

　?。ㄒ唬┛杖敝档那逑础?

　　對于空缺值的清洗可以采取忽略元組，人工填寫空缺值，使用一個全局變量填充空缺值，使用屬性的平均值、中問值、最大值、最小值或更為復雜的概率統(tǒng)計函數(shù)值來填充空缺值。

　?。ǘ┰肼晹?shù)據(jù)的清洗。

　　分箱(Binning)，通過考察屬性值的周圍值來平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中，用箱中屬性值的平均值或中值來替換“箱”中的屬性值；計算機和人工檢查相結(jié)合，計算機檢測可疑數(shù)據(jù)，然后對它們進行人工判斷；使用簡單規(guī)則庫檢測和修正錯誤；使用不同屬性間的約束檢測和修正錯誤；使用外部數(shù)據(jù)源檢測和修正錯誤。

　?。ㄈ┎灰恢聰?shù)據(jù)的清洗。

　　對于有些事務(wù)，所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致，可以使用其他材料人工加以更正。例如，數(shù)據(jù)輸入時的錯誤可以使用紙上的記錄加以更正。知識工程工具也可以用來檢測違反限制的數(shù)據(jù)。例如，知道屬性間的函數(shù)依賴，可以查找違反函數(shù)依賴的值。此外，數(shù)據(jù)集成也可能產(chǎn)生數(shù)據(jù)不一致。

　　（四）重復數(shù)據(jù)的清洗。

　　目前消除重復記錄的基本思想是“排序和合并”，先將數(shù)據(jù)庫中的記錄排序，然后通過比較鄰近記錄是否相似來檢測記錄是否重復。消除重復記錄的算法主要有：優(yōu)先隊列算法，近鄰排序算法(Sorted—Neighborhood Method)，多趟近鄰排序(Multi—Pass Sorted—Neighborhood)。

【我要糾錯】責任編輯：zoe

上一篇：淺析企業(yè)合并會計報表的審計方法與技巧

下一篇：年度審計項目計劃的制定