汇聚辩护原创,分发辩护指引;剖析证据运用,科研法律适用。
编者按 中国政法大学刑事辩护科研中心,是由于吴宏耀专家领衔若干位高校教师及学生社团“中国政法大学刑事辩护科研会”进行刑辩制度及技能科研的特殊公司。
中心公众号设置了刑辩名人专访、刑事辩护策略办法、证据质证分析、疑难案件辩护指引、典型案例分析、辩护词精选、刑事辩护科研、刑事合规科研等原创专栏,每年将遴选优秀文案结集出版,欢迎投稿!
投稿:发至邮箱fadaxingbian@163.com,视为已授权我中心公众号首发。 感谢张迪科研员的来稿!
张迪|华东政法大学师资博士后(经天学者优博计划)、特聘副科研员,南京大学证据法科研中心兼职科研员,南京大学博士。主要科研行业为数字法学、证据法学。
博士时期在《法学家》《法制与社会发展》等法学和综合类CSSCI期刊发布文案7篇。参与编写教材《数字法治导论》《法律职业伦理》。曾参与国家社科基金重点项目、江苏省社会科学项目。曾得到智慧法治一起体2022年征文一等奖、中国刑事诉讼法学科研会全国刑事证据法学专业论坛三等奖。
大数据证据,人工智能证据,还是算法证据?——“算法证据”概念之提倡
针对大数据关联证据的刑事司法应用,学界已然展开了相应的科研,并初步形成为了三套话语体系,即“大数据证据”“人工智能证据”和“算法证据”。其中,“大数据证据”是学界较为流行的用法,持此种观点的学者认为,大数据证据指的是基于海量电子数据形成的分析结果或报告。[1]持“人工智能证据”观点的学者认为,“人工智能证据是基于人工智能分析形成的可用于证明案件事实的设备意见”[2]。持“算法证据”观点的学者则认为,“从证据法视角来看,算法证据是将海量的案件信息数据进行计算整合,形成结构化和信息化的案件场景自动诠释与自动推理结果”[3]。虽然以上研究成果推动了刑事证据法理论的发展,但客观地说,现有混乱庞杂的话语体系在必定程度阻碍了关联理论的深入科研与实践运用。例如,就“算法证据”这一概念来讲,学界对其内涵的界定就不清晰。“海量的案件信息数据”直接将案外大数据排除在外,同期又将案件所附带生成的裁判信息等包括在内,这直接引起算法证据的内涵过于繁杂且指向不清,咱们很难对其进行聚焦性的科研。因此呢,为了更好地服务于立法和司法实践,在法律尚未确定大数据分析结果的概念和属性时,咱们有必要对以上话语体系进行进一步的审视与反思。正如有学者所言,“法律概念并非措辞和语义的简单表达,而是经过该术语的语词形成、定义方式等向人们传达法律的调节对象。”[4]就“大数据证据”“人工智能证据”“算法证据”这三个概念来讲,其所传达的信息各不相同。下文将对这三个概念进行反思,并这里基本上,重新界定“算法证据”的内涵。
1、大数据证据的概念及其问题
国内对大数据关联证据的科研肇始于海量电子数据所诱发的刑事证据分析困难。[5]其后,沿着这一科研进路,大都数学者认为,在大数据证据的概念下,海量的电子数据是“源”,分析得出的结果是“果”。[6]换言之,主流学界所界定的大数据证据不仅包括了大数据分析报告,还包括了海量的电子数据本身。这一概念看到了海量电子数据的基本性功效,着重强调了大数据分析后的结果,拥有必定的启发道理,但却存在如下问题:
其一,大数据证据的概念混淆了大数据本身和大数据分析结果。实践中海量电子数据可被叫作为大数据证据,大数据分析报告亦可被叫作为大数据证据。但这两者之间存在显著区别,将它们概括在同一概念之下有害于大数据关联证据的理论科研和实践运用。例如,在大数据证据的概念下,大数据证据的证据属性拥有了复合性,单一的法定证据种类都没法用于界定大数据证据的证据属性。这儿需要说明的是,相关大数据证据这一概念所存在的规律问题和运用困难,笔者还将在后文的案例分析中加以仔细阐明。
其二,大数据证据的概念界定虽沿用了证据法学者既有的科研路径,但其违背了概念界定的基本原则。虽然说概念的界定无客观上的正确或错误,重要的是某种特定用法是不是针对大都数人来讲是能够接受的或正在被接受,但清晰的概念界定仍应是学术科研所追求的目的。就大数据证据来讲,其概念本身就存在如下两个问题:一方面,正如前文所述,法律概念要向人们传达的是法律的调节对象。根据此种规律来看的话,大数据证据所要规制的对象是大数据,然则,大数据的价值需要借助算法技术加以挖掘才可得以实现。那样,针对大数据证据来讲,海量电子数据固然重要,然则,算法才是挖掘大数据价值的关键环节,因此呢算法应当作为法律首要的规制对象。另一方面,概念是反映事物特有属性的思维方式,而事物的特有属性指的是某类事物所拥有而其他事物所不拥有的属性。[7]就大数据证据而言,其所拥有的特有属性并非数量巨大的数据,而是实现海量数据价值的算法。归纳而言,既有大数据证据的概念既未表现出大数据关联证据的独特属性,亦未能知道表达出大数据关联证据的首要规制对象。
2、人工智能证据的概念及其问题
人工智能证据指的是基于人工智能分析形成的可用于证明案件事实的设备意见,其更为关注刑事诉讼中人工智能技术的核心功效,着重科研了人工智能技术的特点和功效,推动了刑事证明中对算法的科研。然则,这一概念的提出亦存在有些问题:
其一,该概念并未看清大数据关联证据的内在运行规律。在大数据分析的场域下,大数据和算法是人工智能的核心要素,[8]两者是并行的两个概念。提出人工智能证据的学者认为,人工智能证据与学界所提出的大数据证据拥有很大类似性,但不包含 “直接将大数据以等量复制的数据副本形式”做为证据运用的状况。[9]这一论述似乎在说明人工智能证据的核心特点是人工智能技术。然则,大数据分析结果的产生包含大数据收集与储存、大数据预处理(数据清洗、数据集成、数据归约、数据变换)、大数据分析处理、大数据结果生成(可视化)等环节。其中,人工智能技术仅在大数据分析处理中发挥重要功效。因此呢,人工智能并不可标识出大数据关联证据的所有特点,它忽略了非智能算法的地位、功效和道理,因此呢并未表达出概念本身所应规制的重点对象。
其二,人工智能证据中“人工智能”这一语词的用法过于超前,因而脱离了审判实践。人工智能更加多地强调设备的“自动化”“拟人性”等特点,而现行的大数据分析技术离高度的人工智能还很远。正如有学者所言,“咱们距创造刺猬级别的智能水平还有很长的路要走。截止日前,乃至无人能创造出超过蠕虫的智能。”[10]详细到刑事司法实践中,以设备学习为基本的人工智能仍处在弱智能周期,大数据的分析更加多依靠设计者来构建特定的半智能算法来实现。与此同期,咱们需要思虑的是,刑事诉讼中的人工智能本就应被定位在辅助功能之上,[11]咱们很难将证据的生成交由人工智能来完成。归纳而言,人工智能证据所反映的内涵应当是拥有自我认识的人工智能设备所产生的意见,这种证据在刑事司法实践中或许基本就难以实现。因此呢,用人工智能证据这一概念指叫作司法实践中的大数据关联证据,既不相叫作,亦过于超前。
总而言之,大数据证据和人工智能证据的概念界定都存在必定的问题。算法是大数据关联证据的核心特征和规制对象,用算法证据对大数据关联证据进行界定才是最优解。然而,算法一词本身就存在必定的争议,因此呢咱们有必要在现实案例的基本上,重新界定算法以及算法证据的内涵,以期推动理论与实践的发展与进步。
3、算法证据的概念界定
前文已述,既有学界对算法证据的界定存在内涵庞大、指向不清等问题,因此呢咱们有必要重新界定算法证据的概念。这里之前咱们先要知道算法的概念。算法的概念虽未在学界形成高度共识,[12]但学界较为一致的看法是,算法指包括一系列繁杂的数学规则、能经过预先设定的过程处理特定问题的计算机程序。[13]其设计规律是将处理问题的思路分解为若干环节,再经过详细的程序将这一思路公式化或模拟化,从而借助系统的程序来求解繁杂的问题。[14]在刑事诉讼中,算法证据应做为反映大数据关联证据本质属性的最优概念,但咱们对其内涵的深入理解需要借助于对实践案例的比对和分析。[15]
案例1 在陈德惠律师事务所偷税案中,一审检察机关指控被告单位陈德惠律师事务所采用设立账外账,少列收入,进行虚假的纳税申报,不缴或少缴应纳税款,形成偷税罪。大连市人民检察院技术鉴定处对被告单位供给的所有账目进行鉴定后,认为被告单位自1995年至1999年时期,少缴各类税款共计114.7449万元。[16]
案例2 在李志超组织、领导传销活动案中,四川省丹棱县公安局对云数贸五化联盟会员管理系统备份数据库进行提取并固定。重庆市科信电子数据司法鉴定所对该备份数据鉴定后,出具了[201705]鉴字第015号《司法鉴定意见书》,用于证明李志超会员账号的下线层级、会员及获利的状况。该意见载明,案涉组织下线层级共有130层,下线会员共有212088人。[17]
在案例1中,被告单位在第一时间主动将所有账目交给税务分部的工作人员,这些账目是本案的书证。但因会计账簿拥有特殊性和专业性,通常人没法对其内容进行准确的核算和认定。这些工作需要由专业人士来完成,以给出专业的鉴定意见。在本案中,“大连市人民检察院鉴定书”便是证明被告单位偷税的关键性证据。换言之,案涉的会计账簿本身属于书证,但却衍生出了鉴定意见这一新的证据种类。这二者虽然同源,却属于区别的证据类型。
在案例2中,“会员管理系统备份数据库”系大数据库的一种,其本质上属于电子数据。但因该数据库中包括了20余万会员的关联信息,人力难以完成此数据库的统计和分析工作。因此呢,司法机关拜托鉴定公司对以上数据库进行分析,出具鉴定意见。然而,与案例1所区别的是,案例2中的鉴定公司对大数据进行鉴按时,其并非依靠专家的个人知识和经验,而是依靠特定的算法对案涉数据库进行分析。亦便是说,此份鉴定意见本质上是由于算法作出的设备意见。有学者认为,程序代码是生成这类证据的“专家”,其应被看作是由于人工智能程序代码生成的新型专家证据。[18]这儿咱们能够发现,案例2中的“会员管理系统备份数据库”本身就属于电子数据,“司法鉴定意见书”虽然名义上属于鉴定意见,但其实质上是由于算法所给出意见,这与通常的鉴定意见并不相同。况且,倘若将算法得出的结果划为鉴定意见时,一旦咱们对鉴定意见所依赖的算法产生异议,并需求对其进行鉴按时,就会生成对鉴定意见的鉴定意见,这将引发鉴定混乱的局面。另外,倘若将算法得出的结果归入鉴定意见,由于鉴定公司的特殊背景,这还可能引起司法鉴定公司直接主导算法证据之判断的局面。
归纳而言,经过比对以上案例后咱们能够发掘,无论是“账目”还是“备份数据库”,虽都伴同犯罪行径而生,但其自己都没法直接知道地指向案件的待证事实。倘若想要知道其证明目的,就需要借助专业的知识或技能对其进行分析。只是较为特殊的是,针对大数据关联证据的分析没法完全借助于人力,而需借助于算法,算法才是大数据关联证据发挥证明功效的关键。因此呢,笔者认为,应当运用算法证据来指叫作实践中与大数据关联的证据。当然,算法证据虽能知道其所要规制的对象,但其本身亦拥有必定的争议性。事实上,在社会科学行业,有些概念本身就拥有争议性,但争议性并不寓意着含混不清。[19]在概念存在必定争议性时,咱们能够对其内涵作出有些界定,以保证其在实践中被正确地运用。
第1,在对算法证据的内涵进行界定前,咱们需要区分的是决策辅助算法与基于算法的证据。前者指的是在庭审前、审判和审判后周期为人类决策供给信息,例如犯罪数据挖掘以及用于保释听证会、判刑、缓刑等;后者重点指基于算法所产生的证据,有学者将其分为计算机混成证据、计算机生成证据和直接证据等。[20]本文所叫作的算法证据重点指基于算法所产生的证据,不包含用于决策辅助的算法。
第二,需要知道的是,本文所界定的算法证据既与大数据本身相互独立,又与大数据直接相相关。算法是为认识决大数据而生的,其生成的原由是为了分析大数据,目的是挖掘大数据的内在价值。[21]这是算法与以往普通的电子程序或软件所区别的地区。详细来讲,算法证据的范围重点涵盖大数据预处理、处理分析和结果生成三个环节,不包含大数据的收集和储存环节。
在这些要求下,本文所叫作的算法证据既指案件过程中所产生的与大数据关联的算法,又可指经过算法对案内外大数据进行分析后所产生的证据。前者重点指算法本身,其直接能够做为证据运用。例如,在公众汽车“排放门”事件中,失效守护器算法就直接证明了公众机构的违法目的,属于算法证据。后者重点指运用算法分析大数据后做出的意见。例如,案例2中的鉴定意见,本质上便是算法证据。当然,从这个道理上说,以往亦存在低级别的算法证据,但因其与大数据无关,因此呢不可归入算法证据之下。例如,DNA比对等技术就不属于算法证据。
4、界定算法证据的道理
算法证据的重新界定并非无道理的争辩,在笔者看来,算法证据的界定拥有如下重要道理:
其一,可与既有的证据审查体系相适配。这重点由于算法证据的界定将大数据本身与算法证据相隔离,有利于独立地完善这两类证据的收集、固定和审查行径。例如,在案例2中,“会员管理系统备份数据库”与“司法鉴定意见书”在大数据证据的概念下很难得以区分,然则算法证据的界定将二者独立开来,这有利于控辩审三方针对二者进行全面的审查和判断。
其二,可与算法关联的理论科研成果直接适配。日前,在计算机、出版、公共管理等行业,学者们对算法的科研已然成果颇丰。以算法证据为基本,刑诉学者能够与其他专业的专家就关联的科研成果直接进行对接,这有助于刑事诉讼中算法科研的发展和进步。
其三,有利于强化刑事诉讼各方主体对算法的规制。从互联网时代起始,算法即已作为法律所要规制的对象。算法的不可解释性引起平台机构很容易逃避法律责任,算法的嵌入性结构扩张诱发算法场景化规制困境。[22]尤其是算法的不可解释隐忧是其治理的重点困难。“不可解释隐忧重点关注算法因其生产和应用过程不可为人所理解而可能带来的算法黑箱、不可监督、难以追责等治理议题。”[23]在刑事行业,算法证据的确立有助于刑诉学界加强对算法治理困难的科研。
尾注: [1] 参见刘品新:《论大数据证据》,载《环球法律评论》2019年第1期,第25页;林喜芬:《大数据证据在刑事司法中的运用初探》,载《法学论坛》2021年第3期,第28-30页;元轶:《证据制度循环演进视角下算法证据的程序规制——以神示证据为切入》,载《政法论坛》2021年第3期,第132页。[2] 马国洋:《论刑事诉讼中人工智能证据的审查》,载《中国刑事法杂志》2021年第5期,第161页。[3] 杨继文:《算法证据:做为证据的算法及其适用规则前瞻》,载《地区立法科研》2022年第3期,第38页。[4] 黄志雄:《数据治理的法律规律》,武汉大学出版社2021年版,第182页。[5] 按照知网查找,刑事诉讼中大数据关联证据的科研早显现于2014年,初期表率性的文献有高波:《从制度到思维:大数据对电子证据收集的影响与应对》,载《大连理工大学学报(社会科学版)》2014年第2期,第88-94页;高波:《大数据: 电子数据证据的挑战与机遇》,载《重庆大学学报(社会科学版)》2014年第3期,第111-119页。[6] 参见刘品新:《论大数据证据》,载《环球法律评论》2019年第1期,第25页[7] 参见杨树森编著:《普通规律学》,安徽大学出版社2012年版,第24-25页。[8] 通常认为,“大数据”“算法”“算力”是“人工智能”三要素,亦是人工智能得以快速发展的基础。[9] 参见马国洋:《论刑事诉讼中人工智能证据的审查》,载《中国刑事法杂志》2021年第5期,第162页。[10] [英]汉娜·弗莱:《算法统治世界》,贵州人民出版社2021年版,第16页。[11] 从域内外的司法实践和理论成果来看,刑事证明中人工智能的“证明辅助”功能重点经过智能辅助办案系统得以实现,而该功能详细能够被精细地定位在 知识弥补、知识指引和知识预警这三项功能之上。参见张迪:《刑事证明中人工智能的应用:精细定位、理念反思与路径优化》,载《华中科技大学学报(社会科学版)》2022年第4期,第65-66页。[12] 算法可作狭义界定,亦可作广义或中义界定。在区别视角下,算法的概念存有区别。然则,在某一视角下,算法的概念拥有必定的一致性。相关算法概念的分析和界定,参见丁晓东:《论算法的法律规制》,载《中国社会科学》2020年第12期,第140-141页。[13] 算法与程序、应用、软件等词汇经常被混淆,三者既有区别又有联系:首要,算法的过程是有限的,目的是处理问题,而程序能够无限循环。其次,算法用计算机语言描述后作为程序,程序是算法在计算机上的实现。一个或多个程序的集合就成为了软件。从技术道理上讲,算法描述更为准确和接近程序和软件的本质。参见[美]克里斯托弗·斯坦纳:《算法帝国》,李筱莹译,人民邮电出版社2014年版,第45页。[14] 参见张淑玲:《破解黑箱:智媒时代的算法权力规制与透明实现机制》,载《中国出版》2018年第7期,第49页。[15] 概念的内涵虽是反映在概念中的对象的特有属性,然则概念的内涵并不等于对象本身所固有的特有属性。这是由于概念的内涵是一种主观认识,而事物的特有属性则是一种客观存在。主观认识与客观存在有时相符,有时则可能不相符。想要认识事物的内涵,不可仅从概念入手,还应从客观事物着手分析对象本身的特有属性。参见杨树森编著:《普通规律学》,安徽大学出版社2012年版,第28页。[16] 参见陈德惠律师事务所偷税案,大连市中山区人民法院中刑初字第(2001)第104号刑事判决书。[17] 参见李志超犯组织、领导传销活动案,安徽省灵璧县人民法院(2018)皖1323刑初41号刑事判决书。[18] See Erin Murphy, The New Forensics: Criminal Justice, False Certainty, and the Second Generation of Scientifific Evidence, California Law Review, vol. 95, no. 2, 2007, pp. 721-797.[19] 参见参见[英]W.B.盖里:《本质上有争议的概念》,徐韬译,载《世界哲学》2014年第6期,第87页。[20] 参见弗朗西斯卡·帕米奥托:《审判黑箱:算法不透明性对刑事诉讼公正审判权的影响》,载马丁·艾泊斯、玛尔塔·坎泰罗·伽米托主编:《算法治理——法律和道德挑战》,姚前、冯蕾译,中国金融出版社2022年版,第53、54页。[21] 需要说明的是,大数据指的是哪些体积已然超出了传统道理上的尺度,通常的软件工具难以捉捕、存储、管理和分析的数据。然则,详细多大的数据才可叫作为“大”,并无广泛适用的定义。通常认为大数据的数据量应在“太字节”。当然,这一尺寸体积在区别行业亦是区别的。参见涂子沛:《大数据:正在到来的数据革命,以及它怎样改变政府、商场与咱们的生活》,广西师范大学出版社2015年版,第57页。[22] 参见张凌寒:《算法规制的迭代与革新》,载《法学论坛》2019年第2期,第21-22页。[23]贾开:《人工智能与算法治理科研》,载《中国行政管理》2019年第1期,第19页。以下点击可读:刑辩关注|中国律师制度发展历程史料展域外 | 德肖维茨写给青年律师的32个意见首发 | 石海洋:司法官为何“怕”辩护人问卷调查|中国律师刑事辩护权利保证首发 | 彭晓晴:历时一年两月,总有一款罪名适合到最后不起诉
特邀编审:南开大学法学院副教授,北京云证国际数据安全司法鉴定中心学术部专家,朱桐辉
技术编辑:中国政法大学法学院硕士科研生,王毅丹
|