XBRL層次結構與財務信息數(shù)據(jù)挖掘

來源: 姚靠華洪昀編輯： 2009/11/23 18:25:11　　字體：大小

選課中心

實務會員買一送一

選課中心

資料專區(qū)

需要的都在這里

資料專區(qū)

課程試聽

搶先體驗

課程試聽

高薪就業(yè)

從零基礎到經理

高薪就業(yè)

　　【摘要】XBRL是XML在商業(yè)報告領域的規(guī)范化，發(fā)展步伐迅猛。XBRL吸收了XML的結構層次特點，并有其獨特的地方。它通過分層機制，有利于把握商業(yè)事實內在語義，便于計算機理解，促進了財務信息數(shù)據(jù)挖掘。

　　【關鍵詞】XBRL； XML；層次結構；數(shù)據(jù)挖掘

　　XBRL（eXtensible Business Reporting Language，可擴展商業(yè)報告語言）是用于企業(yè)財務數(shù)據(jù)電子交流的語言，是一種基于XML語言的實現(xiàn)（準確的說是規(guī)范化）。上世紀90年代末美國首先提出XBRL理論，很快為實務界所采納，短短幾年之內，XBRL得到超乎尋常的發(fā)展。在XBRL國際組織（xbrl.org）的推動下，目前XBRL在全球范圍內已經被大多數(shù)會計師事務所、貿易機構、軟件開發(fā)商、金融機構、投資者以及政府機構采用。

　　現(xiàn)在對XBRL的研究普遍存在僅從技術上理解的傾向，但其實際情況并非如此。XBRL的廣泛傳播并不是僅僅是由于技術規(guī)范的成熟和標準的整齊劃一，更重要的是因為它對于現(xiàn)實生活中商業(yè)行為的深刻理解和語義層面的把握，才使得不同語法形式下（外在表現(xiàn)為異質平臺）信息共享成為可能，極大地促進了財務信息數(shù)據(jù)挖掘的進行，滿足了決策者對有用信息和知識的需求。本文將探討XBRL的層次結構特點，以說明為何它能有效地把握語義信息及由此而產生的數(shù)據(jù)挖掘問題。

　　一、XML層次結構與計算機理解

　　XBRL是XML在商業(yè)報告領域的應用。XML是一種面向計算機的使用元數(shù)據(jù)標識信息的標準化結構；XBRL則給出了元數(shù)據(jù)的一個規(guī)范化，并簡單定義了財務報告文檔信息標記的語義關系。

　　XBRL，或者說XML之所以要采用層次結構的方式，是因為人和計算機對事物的理解，都是分層的。

　　筆者采用自然語言描述這樣一個事實——“紅星股份有限公司2006年年報總資產是1 000萬元”，我們理解這一語句的過程大致分為這么幾步：分析語句語法結構為“＜主語名詞詞組＞（＜‘是’＞＜數(shù)量詞賓語＞＝”，此語法結構對應的語義解釋規(guī)則為“（等值于）（個體—＞屬性，數(shù)量值）”，據(jù)此語句解釋為“（等值于）（紅星股份有限公司—＞總資產，1 000萬元）”；至此解釋并沒有完成，而只是把對象語言的自然語言形式轉化為了元語言的邏輯函數(shù)形式，對對象語言的理解也轉化為了對邏輯函數(shù)的理解。要理解這一邏輯函數(shù)項，需要解釋等值關系、年報總資產等語義要素的含義，對這些要素的理解又需要訴諸于更上一層的元語言。由此每一層次的語言都需要在更上一層的元語言中實現(xiàn)語義解釋。當然，如此反復將導致無限循環(huán)，可能存在語義解釋系統(tǒng)都以一定的假設（尤其是對某些形而上命題的假設，亦即本體論）為起點。以W3C總監(jiān)Tim Berners-Lee在XML2000年會上提出的語義Web為例，其意義解釋層次結構如圖1所示。

　　這一層次結構中，只有XML層、RDF層、Ontology層、Logic層是為語言解釋而設計的，這四個層次本身還可以進一步劃分。XML文檔描述的是信息內容，NS定義了信息內容的訪問地址標識，XML Schema則規(guī)定了文檔的語法格式；RDF提供了標準的元數(shù)據(jù)語義描述規(guī)范；而本體論（ontology）在RDFs基礎上定義了領域共享概念的形式化顯式說明，Ontology一般分為頂層本體、領域本體、任務本體、應用本體；邏輯層則（Logic）提供了基于本體進行邏輯推理的規(guī)則，它目前有SWRL（Semantic Web Rule Language）與ORL（OWL Rule Language）兩個提案，未形成標準。

　　相比HTML及PDF的會計信息表述形式，XML的優(yōu)勢在于可標識信息的語義項，這種標識是對計算機而言的。以“投資收益1 000萬元”為例，PDF與HTML等方式只是通過網絡傳遞人類能通過視覺系統(tǒng)將其中的信息項“投資收益”與值項“1 000”相對應起來的、顯示在屏幕上或打印到紙上的“電子圖紙”；而在XML里，我們可以通過標簽來唯一地標識信息項，如1000表示投資收益1 000萬元，計算機可以輕松地通過查找各上市公司發(fā)布財務報表的固定網址上的標簽來獲得各上市公司投資收益。而對PDF與HTML文檔，計算機只能將整篇的文檔匯總到一起供我們集中閱讀。

　　XML的思想精髓在于分層，實現(xiàn)“信息顯示與信息內容相分離”、“信息內容與信息語法格式相分離”、“語法格式與語義規(guī)則相分離”、“語義規(guī)則與本體論相分離”。分層機制將語義解釋轉化為了對樹形結構文檔的解讀問題，這使得計算機能夠使用一個相似的遞歸算法來實現(xiàn)，大大降低了工程實踐的難度，也從實踐的角度佐證了語義解釋亦是遞歸計算。不過不能因此而認為樹形結構的XML文件就完整地表示了信息語義關系，XML不過是信息的語法形式，盡管語義解釋的元語言語句也可以是XML（事實上Schema、RDF、OWL都采用樹形文檔結構），但邏輯上兩者處于不同層次上。

　　狹義地講，計算機對XML的理解是根據(jù)Schema文檔定義的語法要素（element）及要素之間的組合關系（complexType）識別出XML實例文檔中語法要素，并據(jù)此建立語法要素與信息內容之間的關聯(lián)。但如果沒有RDF、OWL、Logic層次的支持，計算機理解只可能是限定于特定語言層次上的形式化理解。從廣義上看，XML是一個包含了RDF、OWL、Logic的完整體系結構，計算機理解實質上是借助于遞歸算法，對各層次的關系完整把握。

　　二、XBRL的層次結構

　　作為XML的一個應用模式，XBRL的層次結構也有其特點?？梢詫F(xiàn)有的XBRL分為三層：技術規(guī)格（specification）、分類標準（Taxonomy）和實例文檔（Instance Documents）。

　　技術規(guī)格，或稱說明、規(guī)范，主要用于定義XBRL的各種專門術語，描述了XBRL文件的結構，詳細規(guī)定了XBRL分類的標準和XBRL實例文檔的語法和語義。雖然有XML元素和屬性的語義上的表述，但XBRL規(guī)格是一項側重技術的文件，目的在于定義一項符合規(guī)范的XBRL文檔。

　　分類標準是財務報告發(fā)布的語法格式，也部分定義了各會計報表要素的“語義關系”。如“資產=負債+所有者權益”、“主營業(yè)務收入是利潤表的要素”、“Assets表達資產的概念”等等。分類標準由名為Taxonomy.xsd的XML Schema文檔與相關聯(lián)的五個XML鏈接庫文件（Definition.xml，Calculation.xml， Presentation.xml，Label.xml，Reference.xml）組成，Taxonomy定義的是報表的語法形式，鏈接庫文件定義的是報表語法要素的語義關系，其結構如圖2所示。

　　XML鏈接庫文件是使用鏈接語言（XLink）定義的，并不局限于外在形式上標簽之間的鏈接（HTML鏈接則是外在形式上的鏈接），而是主要用來描述信息內容標簽（元數(shù)據(jù)）之間的聯(lián)系。XBRL的五個鏈接庫文件定義的是XBRL Schema文檔中各標簽之間的聯(lián)系，屬于XBRL Schema的元語言范疇。顯然，XBRL并未遵循語義Web的體系結構，其語義表達功能較為簡單。

　　Definition鏈接庫描述Schema文件中元素概念之間的關系，這些關系可取general-special、similar-tuples、essence-alias、requires-element等四種值，分別表示一般與特殊的種屬關系、不同XML視圖中的元組間的定義等價關系、概念間的相似關系、跟隨出現(xiàn)關系。Calculation鏈接庫定義了元素間的線性運算關系，具體關系式為“TO=FROM1*WEIGHT1+FROM2*WEIGHT2 +……+FROM-n*WEIGHT-n”。Label鏈接庫定義了Schema文檔中的元素與XML中標記的對應關系，實現(xiàn)一個元素與多個標記相關聯(lián)。Presentation鏈接庫規(guī)定了元素展現(xiàn)的父子關系與兄弟元素的展現(xiàn)次序。Reference鏈接庫建立了元素到元素涵義解釋的權威參考文獻鏈接。Label與Presentation定義的都是XBRL實例文檔的展示問題，而Reference顯然是為便于人類閱讀者索取各元素權威解釋而設計的，它們都不涉及信息項的語義關系定義；定義Schema元素語義關系的只有Definition與Calculation。

　　實例文檔是一個企業(yè)根據(jù)XBRL規(guī)范和XBRL分類標準做成的財務報表，它必須要同時滿足分類標準的定義和規(guī)范的限制。實例文檔封裝了具體的商業(yè)事實（fact），根據(jù)信息的匯集程度分為條目（item）、元組（tuple）、組（groups）三個不同層次。其中，條目通常與一個數(shù)字型的事實對應；元組是事實的聯(lián)合體，等同于關系數(shù)據(jù)庫里的一條記錄，組是實例文檔的根結點，由相關聯(lián)的數(shù)據(jù)項的集合構成。在不知道分類標準的情況下，實例文檔沒有任何意義。用戶需要借助與分類標準和相應的軟件才能從XBRL實例中提取所需要的數(shù)據(jù)并加以分析。

　　可以看到，XBRL并沒有完全遵循語義Web的規(guī)范，試圖通過Definition鏈接庫和Calculation鏈接庫來把握財務對象的語義，這必將是不充分的。技術規(guī)格雖然也有一些專門術語語義層次上的表述，但總的來看，與XML存在的缺陷一樣，XBRL缺乏本體層概念關系定義和邏輯層的計算規(guī)則定義。

　　W3C也試圖致力于彌補這一缺陷。2004年提出標準化的本體語言OWL就代表了這方面的努力。OWL由OWL Lite、OWL DL（Description Logics）、OWL Full三個并列的子集構成，OWL Lite用于表示只需一個分類層次和簡單約束關系的形式語義關系；OWL DL用于表示需要最強表達力且需要保持計算的完備性（即所有結論可計算）與可判定性（所有計算能夠在有限時間內完成）的形式語義關系；OWL Full用于需要最強表達力且無法提供計算完備性與可判定性保證的形式語義關系。其中，OWL DL也提供了完備的實例、類、屬性、關系等元語言對象的表示工具。也就是說，OWL層提供了充分定義XBRL范疇概念關系的形式工具。

　　若OWL能夠得到充分的完善，必將為XBRL提供有力支持，彌補技術規(guī)范語義表達方面的不足?？梢栽O想，較為理想的XBRL層次關系如圖3所示。

　　三、XBRL層次結構引致的財務數(shù)據(jù)挖掘

　　數(shù)據(jù)挖掘（Data Mining，DM）是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的，但又是潛在的有用信息和知識的過程。相對于傳統(tǒng)的數(shù)據(jù)分析，數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。

　　因為信息具有強烈的時效性，一旦為所有人所知曉，信息的價值就蕩然無存。在當今瞬息萬變的商業(yè)環(huán)境中，競爭的主要方式是信息的競爭，傳統(tǒng)的事后分析型的數(shù)據(jù)分析方法將被事前探索型的數(shù)據(jù)挖掘所取代。而與此同時，信息提供者之間也存在著激烈的競爭，如財務信息與非財務信息之間的競爭也日益激烈。XBRL的提出不但為財務信息提供者增加了競爭的籌碼，也直接推動了財務數(shù)據(jù)挖掘的開展。

　　XBRL的優(yōu)勢在其清晰的層次關系和語義表達能力。XBRL的層次結構在財務數(shù)據(jù)挖掘的優(yōu)勢表現(xiàn)在：

　?。ㄒ唬┛缙脚_使用

　　由于采用了XML的架構體系，在不同的操作系統(tǒng)下，如Windows、Unix和Linux等，XBRL文件無需修改就可以直接使用。在不同的應用軟件中，即使所用的數(shù)據(jù)庫不同，只要轉換成XBRL格式，也可以實現(xiàn)數(shù)據(jù)的交換。跨平臺使用的關鍵在于XBRL實現(xiàn)了語法格式與語義規(guī)則分層，在圖3中表現(xiàn)為技術規(guī)范和分類標準的分層，從而使得XBRL在不同的技術實現(xiàn)之間沒有障礙。

　　（二）數(shù)據(jù)跟蹤

　　XBRL可以在不同的信息之間建立連接，跟蹤相關的信息線索，自頂向下地考察數(shù)據(jù)源直到底層的數(shù)據(jù)，方便了對企業(yè)報告的閱讀和數(shù)據(jù)分析。XBRL的技術結構使其具有良好的動態(tài)分析功能，計算機可以讀懂XBRL標記的含義，而且操作員也可以很容易地從文檔中獲取有價值的信息。當搜索引擎找到所需的信息時，它能進一步追蹤下去找到數(shù)據(jù)的最初來源及其它與該信息有關的資料。同時，完善的定義與唯一的XBRL要素使信息減少了模糊性。數(shù)據(jù)跟蹤的關鍵則在于OWL與分類標準的分層結構，通過對OWL的深入挖掘可發(fā)現(xiàn)分類標準中各元素之間的內在聯(lián)系，在圖3中表現(xiàn)為OWL與分類標準的分層。

　　（三）搜索快速、準確

　　XBRL使用標簽描述數(shù)據(jù)的含義。在進行數(shù)據(jù)搜索時，不是像HTML那樣根據(jù)字面內容進行搜索，而是根據(jù)標簽的語義進行定位，這樣搜索引擎就能夠快速、準確地找到用戶所需的特定信息。同時，由于XBRL采用標簽來標記數(shù)據(jù)，可以通過應用程序對搜索結果中的數(shù)據(jù)進行匯總。其效率遠遠高于目前互聯(lián)網上的PDF、WORD和HTML等文件格式。而實現(xiàn)這一目標的要點在于圖3中分類標準與實例文檔的分層，清晰的分類有利于滿足豐富實例中信息的挖掘。

　　XBRL清晰的層次結構關系不但支持了數(shù)據(jù)收集和數(shù)據(jù)預處理過程，也為各種適用于不同范圍與層次的數(shù)據(jù)挖掘工具提供了良好的材料。如在數(shù)據(jù)的預處理過程中，為對XBRL文檔進行存儲和校驗，可以借助于IPEDO XML智能處理平臺，利用其Schema Manager和XML Rule模塊在OWL和分類標準層次上搜集相關信息，然后對XBRL實例文檔進行校驗。

　　總之，XBRL的層次結構特點為財務數(shù)據(jù)的挖掘提供了極大的方便，這是XBRL得到廣泛推崇的原動力之一。

　　四、結論

　　XBRL承繼了XML分層的機構特征，有利于計算機對語義信息的把握和數(shù)據(jù)挖掘工具的使用，這是XBRL在短短幾年的時間里得到迅猛發(fā)展的重要原因。但是，XBRL作為XML在財務方面的實現(xiàn)，也存在同樣的缺陷，缺乏本體層次上的有力支撐。相信隨著對其研究的深入開展和各領域本體構建的完善，能夠彌補這方面的缺陷。

　　【主要參考文獻】

　　[1] 李雄飛，李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社，2003.

　　[2] Bryan Bergeron. XBRL語言21世紀的財務報告[M]. 北京：中國人民大學出版社，2004.

　　[3] Tim Berners-Lee. Semantic Web - XML2000. http:∥www.w3.org/2000/Talks/ 1206-xml2k-tbl，2000-12-06.

　　[4] XBRL International. Extensible Business Reporting Language （XBRL）2.1 Specification. Http://www.xbrl.rog，2003-12-31.

責任編輯：小奇

上一篇：從細節(jié)看ERP系統(tǒng)的成熟度

下一篇：基于XBRL技術的網絡財務報告應用研究