法制網首頁>>
法學>>
論法律大數據“領域”的構建
發布時間:2020-08-19 14:52 星期三
來源:法治日報——法制網

□ 王祿生

一、問題的提出:法律大數據“領域理論”的現狀與不足

(一)法律大數據領域本體論有待構建

由于對法律大數據的領域本體論反思還較為缺乏,因此學界一般認為,法律大數據就是在法律領域中使用的具備“4V特征”的數據集。在實踐中,出現了片面強調大體量、全樣本、高速度、實時性、多種類的觀點,甚至人為設定標準來固化地區分“大數據”與“小數據”,如PB量級才是法律大數據、沒有全樣本不是法律大數據等。實際上,“4V特征”并不完全適用于法律領域。因此,要推動法律大數據的研究與應用,必須構建法律大數據領域本體論,挖掘屬于法律的“領域特征”。

(二)法律大數據領域認識論有待更新

由于缺乏對領域認識論的充分反思,當前法律大數據應用較多采取基于大數據分析的知識發現范式。具體而言,就是借助數據挖掘技術從大量判決書、案件卷宗等非結構化、半結構化數據中發現法律規律并加以應用的過程。此種認識論在大數據與大算力的支撐之下取得了一定的成效,但卻與法律領域的特殊需求不完全匹配。這體現在:其一,演繹思維沖突;其二,因果思維沖突;其三,說理思維沖突。可見,為了避免在法律大數據應用中方法論與法律思維的沖突,就勢必需要更新法律大數據領域認識論。

(三)法律大數據領域方法論有待優化

由于在本體論與認識論上套用了大數據的一般分析框架,當前法律大數據在方法論上表現為“通用技術+通用流程”的特點,也就是在數據獲取、預處理、訓練、解釋、應用等的常見步驟中使用通用的大數據分析技術、算法與模型,沒有考慮技術在法律領域的兼容性,更沒有針對法律“領域知識壁壘”而進行專門的技術與流程優化。

二、領域本體論的構建:法律大數據的“3A特征”

(一)本體論視角下法律大數據概念的厘清

“法律大數據”本體論的構建首先需要實現“法律領域中大數據”(big data in law)向“法律領域的大數據”(legal big data)轉變。換言之,在本體論的視角下,“法律大數據”是指在立法、執法、司法等法律過程中形成或依法獲取的,既在一定程度上具備大數據的通用特征,又滿足適配性、正確性和易變性的領域需求,必須結合法律領域的特定算法與模型來實現輔助法律決策、優化法律過程目標的數據集。上述概念有三個關鍵點:其一,法律大數據是“領域大數據”而非“領域中的大數據”;其二,除了通用領域的部分特征之外,法律的特殊性使得法律大數據具有特定的領域特征;其三,法律大數據的領域特征決定了通用大數據分析工具也需要結合法律領域進行優化。

(二)本體論視角下法律大數據的領域特征

法律領域的特殊性決定了法律大數據除了部分具有通用大數據的“4V特征”之外,還具備從屬于法律領域“3A特征”。

第一,法律大數據的適配性(Adaptability)。與其他領域強調樣本的“大與全”相比,法律大數據特別強調樣本的適配性,而并不必然要求大量的全樣本。第二,法律大數據的正確性(Accuracy)。在通用領域中,樣本大數據質量的高低判斷標準通常是純技術的形式判斷,比如數據缺失、數據重復、數據格式不統一等。一般而言,研發者并不需要對樣本數據進行“對”與“錯”的實質價值判斷。與之形成鮮明對比的是,在法律領域中,作為各種算法訓練基礎的法院判決則很可能存在對錯之分,法律大數據訓練樣本質量的高低判斷除了借助技術邏輯進行形式審查之外,還需要依托專業邏輯——基于法學知識的專業判斷。第三,法律大數據的易變性(Astability)。對于通用領域而言,數據的價值是相對穩定的,可以通過多次挖掘進行深度的運用,而對于法律領域而言,部分數據具有易變性,情境一經調整,原有數據將失去挖掘價值。

三、領域認識論的更新:法律大數據的知識發現邏輯

(一)“輕量級理論驅動”的法律大數據認識論

大數據認識論排除理論預設、以數據分析為前置,相信只要擁有足夠數據,數據本身就能夠說明問題。然而,數據產生于更廣泛的知識生產操作,每個學科都有自己數據想象的規范和標準,就像每個領域都有自己被接受的方法和實踐的演進結構一樣。完全脫離理論的大數據挖掘勢必會在數據到結構化知識再到因果推斷之間形成鴻溝。作為對原有大數據認識論的反思,科學界提出了“輕量級理論驅動”(lightweight theory-driven)的認識論,優化單純以數據驅動的認識論。

法學是社會科學的重要領域,具有鮮明的領域特殊性。考慮到通用大數據認識論與法律領域因果思維、演繹思維等方面的不相兼容性所造成的負面影響,結合法律領域特殊性的法律大數據認識論反思就顯得至關重要。這就需要更新通用大數據數據驅動的經驗主義認識論,構建結合法律領域特殊性的“輕量級理論驅動”法律大數據認識論,將法學理論結構映射到法律大數據的知識發現過程中。具體而言,可以從三個方面展開:首先,通過法學理論構建法學領域知識本體,明確法律大數據挖掘的結構、關系和邊界;其次,通過法學理論確定適合特定目標的法律大數據子集;最后,將法學理論作為法律大數據挖掘結果的解釋性框架。

(二)新認識論驅動下的法律大數據知識發現邏輯

在“輕量級理論驅動”的法律大數據認識論的指導下,法律大數據知識發現的邏輯也會產生相應的調整。“輕量級理論驅動”認識論指導下的法律大數據知識發現就是結合法學理論,對符合“3A特征”需求的法律大數據進行知識表示、知識抽取和知識輸出的過程。具體而言,就是針對不同的主題(如類案推薦、辦案證據輔助)進行知識本體構建,在知識本體構建的基礎之上從各類大數據集抽取信息、訓練模型、形成法律知識、裝載到法律大數據倉庫中并根據用戶需求輸出的過程。因此,法律大數據應用通常就是一個從某種法律數據中獲取實質性的、有意義的知識(見解)的文本、數據挖掘過程。

四、領域方法論的優化:法律大數據的知識壁壘及其應對

法律大數據的“3A特征”以及“輕量級理論驅動”的知識發現方式相結合,形成了法律大數據在方法論上面臨的“領域知識壁壘”。因此,在法律大數據“領域理論”的構建過程中,就必須充分了解“領域知識壁壘”的成因,進而有針對性地提出應對之策。

(一)法律大數據“領域知識壁壘”的表現

在技術進步話語所凸顯的技術瓶頸之外,法律大數據分析的每個環節還面臨明顯的“領域知識壁壘”。

首先,在法律知識表示中法律領域本體的構建需要大量法律專業知識的支撐。對此,我們可以從三個方面展開:其一,法律大數據的知識表示通常是在法律專家的知識之上建立的專家規則;其二,不同主題的知識本體有著不同程度的差異;其三,法律的領域本體還具有維度多、屬性多、要素多的復雜性特點。

其次,在法律知識發現的數據獲取和數據標注環節也離不開專業知識。通用大數據領域,常人使用常識就可以實現高質量、高效率的樣本標注。而在法律場景中,標注者不僅要有扎實的專業知識積累,還需要了解案件的整體事實和法律背景,從而做出準確的標注。更為重要的在于法律領域的標注還面臨標準統一性的難題。不同標注人員,即使都具備深厚的法學專業知識,其對同一標注對象也可能會形成不同的判斷。可見,法律領域的特殊性使得數據的獲取難度和成本要大大高于通用場景。

最后,在法律知識應用環節也存在著專業知識障礙。一方面,法律人,尤其是實務部門一線工作人員由于技術知識背景的缺乏,對技術邏輯十分陌生,不清楚技術能夠解決哪些業務問題,也就無法向研發主體提出準確的大數據需求;另一方面,法律人提出的同案同判、財產保全風險預警等諸多業務需求對于技術人員而言也往往具有一定的理解障礙。橫亙在法律大數據技術研發人員面前的鴻溝往往并非技術的瓶頸而恰恰可能是法律人的“常識”。

(二)法律大數據“領域知識壁壘”的應對

面對法律大數據的“領域知識壁壘”,需要在領域方法論上予以應對,通過推動法學與技術的有機融合,提升法律人在法律大數據研發中的地位。與此同時,結合法律大數據的領域特征,開展專有的法律大數據技術創新,而不是把法律大數據視作通用大數據技術在法律領域的平移運用。更為重要的還在于,要轉變法學人才培養的模式,打造法律知識工程師的培養體系,以形成破除法律大數據“領域知識壁壘”的有生力量。

責任編輯:梁成棟
相關新聞
炸金花作弊器 内蒙古十一选五开奖一定牛 乐彩甘肃快三 双色球定胆杀号九九准 淘宝快三一定牛 泰仓配资 广西福彩快3开奖结果 江西多乐彩今天开奖号 牛操盘股票配资平台 内蒙古11选5去哪买 上海11选5秘诀 新基建大数据的股票 甘肃快3走势图今天快3 兴业配资 河南快3遗漏统计 股票在线查询 江西省十一选五真准