當前位置:歷史故事大全網 - 圖書館 - 元數據標準的發展與應用

元數據標準的發展與應用

元數據的基本含義

元數據是“關於數據的數據”;

元數據為各種形式的數字信息單元和資源集合提供標準化、通用化的描述方法和檢索工具;

元數據為由各種數字資源有機組成的分布式信息系統(如數字圖書館)提供了壹個集成的工具和鏈接。

沒有元數據,數字圖書館將是壹團亂麻,無法提供有效的檢索和處理。元數據的應用目的

(1)發現和識別主要關註如何幫助人們檢索和確認他們需要的資源。數據元素往往局限於作者、書名、主題、位置等簡單信息,都柏林核心就是其典型代表。

(2)編目用於詳細、全面地描述數據單元。數據元素包括內容、載體、位置和獲取方式、生產和利用方式,甚至相關的數據單元。數據元素的數量往往很大,馬克、GILS和FGDC/CSDGM是這類元數據的典型代表。

(3)資源管理,支持資源的存儲和使用管理。除了全面的描述信息、數據元素之外,通常還包括權限/隱私管理、數字簽名、批準/評級印章、訪問管理、支付和會計等方面的信息。

(4)資源的保存和歸檔,支持資源的長期保存。除了描述和確認資源,數據元素通常還包括詳細的格式信息、生產信息、保護條件、遷移方法和保存責任。

元數據在不同領域的應用根據不同領域的數據特點和應用需求,從20世紀90年代開始,不同領域出現了許多元數據格式。

例如:

網絡資源:都柏林核心、IAFA模板、CDF、網絡收藏。

文獻:MARC(含856字段),Dublic核心。

人文學科:TEI·海德

社會科學數據集:ICPSR SGML碼本

博物館和藝術作品:CIMI,CDWA,RLG達到元素集,VRA核心。

政府信息:GILS

地理空間信息:FGDC/CSDGM

數字圖像:MOA2元數據、CDL元數據、開放檔案格式、VRA核心、NISO/CLIR/RLG圖像技術元數據。

檔案和資源收集

技術報告:RFC 1807

連續圖像:MPEG-7

元數據格式的應用程度

不同領域的元數據處於不同的標準化階段:

在網絡資源描述方面,經過多年的國際努力,都柏林核心已成為壹個被廣泛接受和應用的事實標準。

在政府信息方面,由於美國政府的大力推動和相關法律標準的實施,GILS成為政府信息描述的標準,並在世界幾個國家得到了相當程度的應用,類似於FGDC/CSDGM;用於地理空間信息處理;

然而,在某些領域,由於技術的快速發展和變化,仍然有許多方案在競爭,典型的是數字圖像的元數據,提出的許多標準都處於試驗和完善階段。

元數據格式的“標準化”問題

元數據開發和應用的經驗表明,很難有壹個統壹的元數據格式來滿足所有領域的數據描述需求;即使在同壹個領域,不同的目的可能需要不同但可互換的元數據格式。

同時,統壹的集中式元數據格式標準不適合互聯網環境,不利於充分利用市場機制和各種力量。

但在同壹個領域,要爭取“標準化”,在不同的領域,要妥善解決不同格式的互操作問題。整體結構定義方法元數據格式由多級結構定義:

(1)內容結構,描述元數據的組成元素及其定義標準。

(2)語法結構,定義元數據結構以及如何描述。

(3)語義結構,定義了元數據元素的具體描述方法。

內容結構

內容結構定義了元數據的組成元素,可以包括描述性元素、技術性元素、管理性元素和結構性元素(如與編碼語言的鏈接、命名空間、數據單元等。).

這些數據元素很可能是按照壹定的標準選取的,所以需要在元數據內容結構中加以說明,比如MARC記錄所依據的ISBD,EAD所參考的ISAD(G),ICPSR所依據的ICP SR數據準備手冊。

語法結構

語法結構定義了格式結構及其描述,如元素的劃分和分段組織、元素的選擇和使用規則、元素描述方法(如Dublin Core采用ISO/IEC 11179標準)、元素結構描述方法(如MARC記錄結構、SGML結構、XML結構)、結構化語句描述語言(如EBNF符號)等。

有時,語法結構需要指明元數據是否與所描述的數據對象綁定,或者作為單獨的數據存在但以某種形式與數據對象鏈接,也可能用定義標準、DTD結構和命名空間描述鏈接方式。

語義結構語義結構定義了元素的具體描述方法,如描述元素時的標準、最佳實踐或用戶自定義的描述說明。

有些元數據格式定義了自己的語義結構,有些則由特定的使用單位定義。比如都柏林核心建議日期元素采用ISO 8601,資源類型采用都柏林核心類型,數據格式可以采用MIME,標識號采用URL或DOI或ISBN。

再比如OhioLink要求主題元素使用壹個&;AT、TGM和TGN,名稱元素為烏蘭。元數據編碼語言

元數據編碼語言是指定義和描述元數據元素和結構的特定語法和語義規則,通常被稱為定義描述語言(DDL)。

在元數據開發的早期,人們經常使用自定義記錄語言(如MARC)或數據庫記錄結構(如ROADS)。然而,隨著元數據格式的增加和互操作性的要求,人們開始使用壹些標準化的DDL來描述元數據,如SGML和XML,其中XML最具潛力。

元數據生產模式

(1)專業模塊(例如,MARC、GILS、FGDC等。)

(2)數據處理過程中的自動編譯(例如都柏林核心等。)

(3)當數據被物理處理時自動編譯(例如,在數字圖像掃描期間的壹些元數據參數)

(4)***元數據(如OCLC/CORC、IMESH元數據的互操作性問題。

由於不同領域(甚至同壹領域)往往存在多種元數據格式,在不同元數據格式描述的資源系統之間搜索、描述和利用資源時,存在元數據互操作問題:

多種不同元數據格式的解釋和轉換以及多種元數據格式描述的數字信息資源系統之間的透明檢索。

元數據格式映射

通過使用特定的轉換程序來轉換不同的元數據元格式,這被稱為元數據映射/穿越。

目前,存在大量用於在幾種流行的元數據格式之間進行轉換的轉換程序,例如

都柏林核心和USMARC;都柏林核心和EAD

都柏林核心和GILS;;GILS和馬克·TEI

海德和馬克·FGDC和馬克

還可以使用中介格式在同壹格式框架下轉換多種元數據格式。例如,UNIverse項目使用GRS格式來轉換各種MARC格式和其他記錄格式。格式映射轉換準確高效。然而,這種方法在多種元數據格式並存的開放環境中的應用效率明顯受到限制。

標準描述框架

解決元數據互操作性的另壹個方法是建立壹個標準的資源描述框架,這個框架描述了所有的元數據格式,所以只要壹個系統能夠分析這個標準的描述框架,就能夠解釋相應的元數據格式。事實上,XML和RDF從不同的角度扮演著相似的角色。

XML通過其標準的DTD定義,允許所有能夠解釋XML語句的系統識別XML_DTD定義的元數據格式,從而解決了解釋不同格式的問題。

RDF定義了壹個由三種對象組成的基本模型,即資源、屬性和語句,其中資源和屬性之間的關系類似於E-R模型,而語句詳細描述了這種關系。

RDF通過這種抽象的數據模型建立了定義和使用元數據的框架,元數據元素可以看作是它們所描述的資源的屬性。

此外,RDF定義了標準模式,該模式規定了聲明資源類型、相關屬性及其語義的機制,以及定義屬性和其他資源之間關系的方法。此外,RDF還提供了壹種通過使用XML名稱空間方法來調用現有的已定義規範的機制。

數字對象模式

建立壹個包含元數據的數字對象及其轉換機制,或許可以從另壹個角度解決元數據互操作的問題。

康奈爾/FEDORA項目提出了壹個由結構內核和功能傳播層組成的復合數字對象。

內核可以包含比特流形式的文檔內容、描述文檔的元數據以及用於該文檔和元數據的訪問控制的相關數據。

在功能傳播層,初級的primitive傳播者支持解構內核數據類型和讀取內核數據的服務功能,可能存在內容類型的傳播者,可以嵌入元數據格式轉換機制。

例如,在壹個數字對象的內核中有MARC格式的元數據,在函數傳播層中加載了壹個請求Dublin Core格式及其轉換服務的內容類型傳播器。當壹個數字對象用戶請求讀取Dublin Core表示的元數據時,對應的內容類型傳播器會通過網絡請求存儲有Dublin Core的數字對象及其轉換服務程序,然後將所請求的數字對象中的MARC元數據轉換成Dublin Core輸出給用戶。跟蹤元數據發展,積極參與元數據標準制定,加快元數據應用,註重國際接軌。

加快研究有效利用元數據進行檢索(包括異構系統透明檢索)、關聯學習、個性化處理等的機制。

加快元數據與數字對象和數字資源系統有機整合的途徑和方法研究。

促進元數據用於基於知識的數據組織和知識發現的研究。

  • 上一篇:2020年大學生社會活動四大規劃方案
  • 下一篇:在壹本隨意的書上讀壹篇作文
  • copyright 2024歷史故事大全網