知識圖譜的概念是:知識圖譜是自頂向下(top-down)的構建方式。自頂向下指的是先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫。
該構建方式需要利用壹些現有的結構化知識庫作為其基礎知識庫,例如 Freebase 項目就是采用這種方式,它的絕大部分數據是從維基百科中得到的。
然而目前,大多數知識圖譜都采用自底向上(bottom-up)的構建方式。自底向上指的是從壹些開放連接數據(也就是 “信息”)中提取出實體,選擇其中置信度較高的加入到知識庫,再構建實體與實體之間的聯系。
知識圖譜的體系架構是:
知識圖譜的架構主要包括自身的邏輯結構以及體系架構。
知識圖譜在邏輯結構上可分為模式層與數據層兩個層次,數據層主要是由壹系列的事實組成,而知識將以事實為單位進行存儲。
如果用(實體1,關系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數據庫作為存儲介質,例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構建在數據層之上,主要是通過本體庫來規範數據層的壹系列事實表達。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,並且冗余程度較小。
大規模知識庫的構建與應用需要多種智能信息處理技術的支持。通過知識抽取技術,可以從壹些公開的半結構化、非結構化的數據中提取出實體、關系、屬性等知識要素。通過知識融合,可消除實體、關系、屬性等指稱項與事實對象之間的歧義,形成高質量的知識庫。
知識推理則是在已有的知識庫基礎上進壹步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構建、推理、融合以及應用均具有重要的意義。