2013年10月1日 星期二

OCLC WorldCat 與資料探勘(Data Mining)

WorldCat 為全球最完整的線上圖書館資料庫,透過會員圖書館的合作編目,貢獻了大量的書目資訊,目前已有逾3億筆書目紀錄,逾20億筆圖書館館藏紀錄(註1)。偶然在論壇中看到OCLC所發佈的線上研討會”Best of Show: An OCLC Virtual Conference” (於2013/7/31!~2013/8/1舉辦),其中有關WorldCat的資料探勘(Data Mining)與相關使用介面的開發,十分值得關注未來的後續發展,從中或許看得到未來目錄呈現FRBR模式的想法、豐富的書目加值元素,如作者作品分析資訊、social tagging、書目推薦服務等。

個人從中所得的感想在於: 將不能小覷OCLC WorldCat未來的發展,因為它收錄的書目量之多,所連結的圖書館數之多,這些大量的Data經過再分析與利用,可以產生新的數據與研究結果,不禁讓我聯想起Web of Science的例子, Thomas Reuters透過多年引文數據再利用、分析與加值, 可以開發出ESI之類的學術研究力資料庫,OCLC Worldcat的未來會是怎樣一個局面,很值得觀察。但不可否認的是OCLC研究團隊透過深層數據分析、鏈結資料與使用介面開發,讓WorldCat 不再僅單純呈現圖書館的書目與館藏記錄,而可成為發現書目資訊、分享書目資源的重要工具。

目前OCLC正積極參與或開發的實驗研究計畫,擇幾項說明如下:

(1)    WorldCat Work Pages (http://frbr.oclc.org/pages/)
結合GLIMIR(Global Library Manifestation Identifier)計劃下的分類群集與多語文結搆(特別是對於摘要與標題的處理),讓不同語文地區的使用者可以使用適切語文的作品網頁,並找到所需的語文版本與其館藏,同時也作了作者其它作品或相似作品的推薦服務。

(2)    WorldCat Fiction Finder (http://fictionfinder.oclc.org/)
「WorldCat 小說搜尋」是以 FRBR 為基礎的原型,讓使用者能夠存取超過 290 萬筆書目記錄,內容涵蓋 WorldCat 中所著錄的小說、電子書與音訊資料。

(3)    WorldCat Genre (http://www.worldcat.org/genres/)
「WorldCat資料類型」允許使用者瀏覽數百個依照 WorldCat 熱門度排名的標題、作者、主題、特色、地點等類型字詞下所提供的作品清單。

(4)    WorldCat Cookbook Finder (http://experimental.worldcat.org/xfinder/cookbookfinder.html)
「WorldCat食譜搜尋」提供了數千個圖書館書目記錄中描述有關食譜或是與食品營養相關的作品。使用者可透過人名、地點、主題(例如,課程名、配料、作法等)來查詢,並可於查詢後以作者或主題來瀏覽相關的作品。

(5)    WorldCat Kindred Works (http://experimental.worldcat.org/kindredworks/)
「WorldCat相關作品」是一個實驗性的推薦服務,可幫助使用者發現所選擇書籍、電影和音樂的類似作品,該實驗計畫在分析書目上採用的特點如分類號、標題與資料類型詞彙等,從WorldCat中找出一系列相似度高的作品清單。

(6)    WorldCat Identities (http://www.worldcat.org/identities/)
「WorldCat Identities」乃從 WorldCat 中抽取作者資訊並連結書目資訊分析,為約有 2,500 萬位個人與團體作者建立其摘要頁面,使用者可從中發掘作者出版品之年份分佈、創作對象與創作類型等資訊。

(7)    MARC Usage in WorldCat (http://experimental.worldcat.org/marcusage/)
本實驗計畫是利用「地面實況調查」技術(Ground trothing,意指:透過收集與測試適當的目標數據,建立統計模型來證明或反駁研究假設的論點),來探討與分析目前大多數圖書館使用了幾十年的機讀編目格式(MARC)被使用的情況,這些MARC欄位、MARC分欄或MARC元素被使用與分析的證據,將有助於圖書館思考未來書目著錄元素的下一個方向。