奇点,一个数学专业名词,如用数字1 除以一个无限趋近于零的数,将得出一个无穷大的数值。在天体物理学术中,奇点则代表一个存在又不存在的点,空间和时间会在该点完结。在大众的认知中,奇点遥不可及,永远存在于未来。
寒武纪,一个地质学术语,指距今约5.42 亿年前—4.88 亿年的地质年代。“寒武纪生命大爆发”被称为古生物学和地质学上的一大悬案,即在寒武纪地层中存在门类众多的无脊椎动物化石,而在寒武纪之前更为古老的地层中却找不到动物化石。达尔文在其《物种起源》中提到这一事实并大感迷惑,为什么生物进化到寒武纪会突然爆发?这个问题至今仍困扰着学术界。
奇点和寒武纪与当下热门的人工智能有什么关联? 人工智能与法律又有什么关联?
未来学家、发明家雷·库兹韦尔将技术的发展与奇点的临近联系起来。他认为当智能机器的能力跨越这一临界点后,电脑将与人脑智能兼容,之后的人类将是“新人类”。因此,奇点又意味着人工智能超过人类智力极限的时间点。那么,科技的进化是否可能如生物一般出现“寒武纪生命大爆发”呢?有人提出,从生物进化视角看,我们很可能进入了人工智能的“寒武纪”。
人工智能领域充满了种种奇思异想及大胆预言,让人如同观看科幻大片一般,既兴奋,又紧张。这种情绪自1956 年“人工智能”一词首次被提出并应用于人工智能夏季研讨会起,已经弥漫了半个多世纪。
2017年,人工智能浪潮席卷中国。,对人工智能理论、技术和应用进行布局,提出“人工智能+X”的复合专业培养模式,法学赫然在列。因此,法律人工智能也引发了法律人的追逐和思考。
我们应该如何理解人工智能? 法律人工智能的发展情况如何?《法律与生活》记者深入三家法律人工智能团队———北京国双科技有限公司、华宇元典信息服务有限公司、无讼网络科技(北京)有限公司,试图透过他们的故事,了解法律人工智能的真实当下。
我们谈论人工智能时,
谈的是什么?
刘激扬 北京国双科技有限公司首席技术官,微软亚洲互联网工程院创建人之一,获得清华大学计算机科学学士学位和美国匹兹堡大学计算机科学硕士学位。
当前,包括法律在内的各个领域对人工智能的讨论热火朝天,不乏诸如“人工智能将取代人类”等危言耸听的说法。但事实上,很少有人能说清人工智能究竟指什么。针对这个问题,本刊记者采访了北京国双科技有限公司首席技术官刘激扬,他从专业视角告诉我们何谓人工智能。
记者:在当前市场范围内,当我们谈论人工智能时,谈的是什么?
刘激扬:人工智能字面上的意思是人工制造的机器所表现的智能,它的核心是让机器具有感知和认知(学习、推理、决策、对话等)能力的一系列技术。这些技术通常以产品的形式为公众所知。在学术上,当科学家谈论人工智能时,更多的是在谈论算法技术,如机器学习和深度学习技术;而在生活中,当公众谈论人工智能时,更多是在谈论具体的某个产品或应用,如语音输入法、人脸识别支付、自动驾驶汽车、阿尔法狗(AlphaGo)下棋等。
记者:人工智能研究的终极目标是什么?
刘激扬:科学研究是无止境的,很难说终极目标是什么。通常来说,人工智能分为弱人工智能、强人工智能(或通用人工智能)和超人工智能三类:弱人工智能指的是在单一领域具有一定智能的专家系统或应用程序,强人工智能指的是拥有自我意识、模拟人类能力(包括视觉、推理、语言、学习)的通用智能,超人工智能指的是所有领域都超过人类的智能。
记者:人工智能的研究领域包含了哪些具体技术?
刘激扬:具体而言,语音识别、图像识别、语义识别、知识图谱等都是人工智能的研究范畴。其中,语音识别和图像识别属于感知范畴。目前,这两个领域取得的巨大突破在细分领域已经可以战胜人类,实现了弱人工智能;语义识别和知识图谱则属于认知范畴,存在很多困难,但应用前景更加广阔,也是从弱人工智能发展到强人工智能的必要条件,是目前人工智能领域最火热的研究方向。
记者:目前,不少公司在寻求人工智能的场景落地,落地的难点体现在哪里?
刘激扬:在应用领域,人工智能发展的难点主要体现在三个方面。
1.数据。目前,取得成功的深度学习技术,特别是监督学习,需要大量的人工标注数据。大数据时代,数据并不欠缺,欠缺的是高质量的人工标注数据,尤其是中文自然语言处理领域,很少有公开的标注数据。
2.应用。人工智能的技术发展很快,但真正落地的应用并不多。这需要技术人员和业务人员密切合作,深入挖掘行业应用场景,用人工智能技术改变产业,促进社会的进步和发展。
3.人才。以深度学习为代表的人工智能兴起的时间不长,学校人才培养有滞后性,专业人才缺口很大,企业间人才竞争则更激烈。
01
法律人工智能团队:
不会出现“机器人法官”
王锰 北京国双科技有限公司司法大数据事业部总经理,。
“如果有人说法律领域已经多么人工智能化,我们会认为这里面存在一定吹嘘的成分。实事求是地说,人工智能在司法领域的应用还停留在较浅的层面,未来仍有相当长的路要走。”中国首家赴美上市的企业级大数据和人工智能解决方案提供商北京国双科技有限公司(以下简称国双)司法大数据事业部总经理王锰在接受本刊记者采访时说。
面对这段相当长的路,,成为国双法律人工智能版图的描绘者之一。
在国双,有很多像王锰一样拥有法律背景的司法专家,他们与这家科技公司里的工程师一起将人工智能领域的通用技术应用到司法场景中。
大数据的洪荒之力
2016年是机器智能历史上一个具有纪念意义的年份,谷歌的围棋计算机阿尔法狗在与世界著名选手李世石的对局中,以4︰1取得压倒性胜利。计算机之所以能战胜人类,是因为机器获得智能的方式与人类不同——不是靠逻辑推理,而是靠大数据及智能算法。自然语言处理与搜索专家吴军在《智能时代》一书中以此开篇描述这个以大数据为基础的智能时代。
大数据为什么重要?它的洪荒之力来自何处?根据吴军的类比,大数据之于人工智能好比蒸汽机之于第一次工业革命、电之于第二次工业革命。
“大数据是人工智能的基础,正是由于数据越来越多以及处理大数据的能力越来越强,才催生了深度学习的出现及其在语音识别、图像识别、围棋等应用领域的成功,引爆了这波人工智能的浪潮。”刘激扬在接受采访时说道。
在计算机领域,大数据被分为结构化数据、半结构化数据、非结构化数据三类。典型的结构化数据是表格,每个空格所填写的内容都是确定的,基本上没有任何自由发挥的空间;相反,非结构化数据则任由人们进行天马行空的想象,诗歌、散文、小说都是非结构化数据;处于两者之间的便是半结构化数据,裁判文书是最典型的例证,有着标准格式,但真正撰写时不同法官会有不同的表述方式。
国双首席执行官、毕业于清华大学计算机系的祁国晟此前在接受媒体采访时曾描述过自己在微软亚洲研究院实习时所接触的一个项目,即自然语言分析。这个项目主要是训练机器读论文,然后回答“谁是这个领域的专家”。
“论文是非结构化数据,当时我觉得这类数据很有意思,不是1+1=2这类结构化数据。未来数据分析不只是1+1=2,还必须对非结构化数据进行有效分析。”祁国晟意识到了非结构化数据的重要性。国双确立了“结构化数据和非结构化数据不能分而治之的路线”。这就需要在各个领域构建一个数据库。
“司法领域的大数据主要包括裁判文书、电子卷宗、用户交互数据。对于裁判规则等经验性的思考,如果没有一定的表现形式,是无法转化为数据的。”王锰说。当前,随着中国裁判文书网的开通,大量半结构化数据成为共享资源,将有助于中国法律人工智能的发展。
机器学习裁判文书
人类是如何学习的?
一个蹒跚学步的小女孩在图画书上看到一个四个轮子的立体图形叫做“车”后,当她在车水马龙的大街上看到一辆真实的“车”时,会随口喊出“车”;参加《最强大脑》节目的学霸不费吹灰之力走出挑战迷宫时,他们同时动用了大脑里的记忆力、空间想象力、创造力……
那么,面对裁判文书,机器是如何学习的呢?
这首先依赖于人工智能技术的场景化。“基于大量历史数据和知识图谱,人类将行业专家的经验教给计算机。这就是产业智能。”祁国晟说。王锰也认为“通用技术一定要场景化,否则是无法进一步使用的”。这也是包括国双在内的科技公司所做的将人工智能产业化。
“出释入典”知识产权案例指导服务平台就是人工智能法律场景化的例证之一,研发过程便包括了机器学习。
2015年,,希望其协助研发一个知识产权案例指导平台。
基地成立的专家委员会从全国24万份涉及知识产权的裁判文书中筛选出更有研究价值和更具指导意义的600份裁判文书,交给了国双进行深度加工,目的在于让法官、律师、专家、普通公众等社会各界人士在遇到某一知识产权问题时,可以通过这一平台找到对应的知识和案例。
在对一份裁判文书进行深度加工时,最重要的工作是将裁判文书的信息进行碎片化处理,包括标注法官、律师、判决时间以及归纳争议焦点、提炼裁判规则等。这些信息最终以代码的形式存储在机器中。
事实上,这就是机器学习裁判文书的过程。在机器学习过程中,技术人员和司法专家团队扮演了非常重要的角色。“在做语音转写工作时,我们需要建立一个法律词库。以‘异议’这个法律术语为例,我们会告诉技术人员这个词在法庭上大多表示‘反对’,而不是我们通常所理解的表示其他某种内涵,”王锰举例说,“技术人员并不是学法律的,我们这些学法律的人也不懂技术,双方需要进行沟通、磨合。”
像“异议”这样一个普通的法律术语,需要经过法律人的“翻译”、程序员的理解、以代码形式进入法律词库才能完成学习。可想而知,成千上万份法律文书需要经过怎样的处理才能进入机器的“大脑”。
在人工智能的通用技术场景化过程中,像王锰一样拥有法律背景的司法专家起到了桥梁作用。他们将高门槛的法律知识转化成技术人员能听懂的语言,帮助他们挖掘各种应用场景。与此同时,技术人员会将人工智能在其他行业里的应用情况告诉司法专家,让他们进一步思考如何在司法场景中推广类似成果。
法律人拥抱智能时代
除了做一名法官、检察官或律师,身处智能时代的法律人又多了一项职业选择——做科技公司的一名司法专家。
2015年,王锰加入国双。可以说,他是最早一批站在人工智能前沿法律人中的一员,将自己职业生涯的下半场交到了一家科技公司手中。他坦承,这一方面是出于个人考虑,想经历不一样的人生;另一方面,。
“最大的变化是工作方式的变化,可以说是完全不一样。”王锰说,、写判决;现在是外出与客户沟通,回来指导产品设计,学着从商业角度考虑问题,这是完全不同的思维方式。”
国双司法大数据事业部咨询总监李斌曾经是一名检察官。她对人工智能的理解非常明确:“机器是肯定不会取代法官的,所有涉及人性和价值判断的判决都应该由人做,而不是机器。即使机器能达到帮法官判案的程度,也不应该由机器来做。”
对此,王锰也持同样的观点。他认为:“人工智能在法律领域并不是决定性的因素,绝对不会说出现一个机器人法官,由人工智能代替法官去裁判。在可预见的未来,人工智能主要用于减轻法官、检察官的工作负担,通过提升法官办案能力从而促进司法公正。”
尽管如此,人工智能技术的发展仍会在一定程度上挑战传统法律人。“以法官为例,以前,法官遇到问题时会请教老法官、向领导汇报,最后提请审委会讨论。现在,随着司法改革的推进,法官需要对自己的裁判结果充分负责,这就需要说明为什么我的裁判是有道理的、是符合司法实践的普遍性的。这时,用好技术工具显得很重要,法官可以在快速找到相似案情的裁判文书后确定其有无参考价值,继而衡量自己做出的判决有没有偏离主流的认定标准。”王锰说。
谈到当前人工智能发展的难点,刘激扬认为:“缺少人才是一个重要方面,以深度学习为代表的人工智能兴起的时间不长,学校人才培养有滞后性。”
对于尚未走出高校的法学专业学生如何应对法律与科技融合的现状这个问题,李斌说:“学好法律知识仍是最基础的。但面对科技发展的潮流,如果不丰富自己的能力,只是满足于做一名律师助理或者书记员,一定会面临被取代的风险。”
02
侯晓焱:
在法律智能公司做研究的前检察官
侯晓焱 北京华宇元典信息服务有限公司法律研究院首席专家,、一个博士学位。
2017年12月,侯晓焱的第一本学术独著《进退之间:证据不足不起诉实务研究》付梓出版。也正是在这一年,,进入北京华宇元典信息服务有限公司(以下简称华宇元典),担任法律研究院首席专家。
这本立足于我国刑事司法实践的著作为侯晓焱二十余年的检察官生涯画上了一个句号,但这并不代表她的研究之路就此结束;相反,出于对法学实证研究的热爱,侯晓焱选择加入华宇元典这家年轻的科技公司。
华宇元典是北京华宇软件股份有限公司的子公司,是一家专注于法律大数据与法律智能的科技公司,成立至今不到两年。在这里,传统法律人将与前沿科技产生怎样的碰撞?
离开舒适区,走进大数据
“当我在元典进行大数据研究时,检索呈现的结果会对我既有的设想产生一定的冲击,有时甚至是颠覆。对研究者来说,这种冲击会激发我继续寻找答案的动力。”侯晓焱在接受本刊记者采访时兴奋地说道。
1995年,。在之后的二十余年里,她的工作除了办案,就是做研究。如果一定要用成果衡量她的研究水平,那便是她在职期间拿下了两个硕士学位、一个博士学位,合著、参与撰写、组织编写的书籍近十部,并获得数个调研成果奖项。侯晓焱是一个有目标感的人,她的时间随着目标而流转,直到达成最初的想法。一项又一项的课题就是这样完成的。
在过往的实务研究中,侯晓焱一直喜欢用数据。这一方面是出于她对数学的偏爱,另一方面是为了解决实践中产生的疑惑。2003年,为了详细了解刑事诉讼法1996年修正案在保障犯罪嫌疑人、被告人辩护权方面的实施情况,侯晓焱主持了一项关于在押人员获得律师帮助权利的调查,面向海淀区的177名在押人员,了解他们聘请律师的情况。不知不觉,从实务和数据入手成为她的研究习惯。
大数据,这个新兴的研究工具在2017年吸引了侯晓焱的注意。在她看来,虽然大数据仍是实证研究的延续,但作为一种新兴的研究场景,它在一定程度上展示了事情的全貌,能让人们看到事物发展的趋势。
“我是一个不满足于已有成绩的人,总是想出去看看,以前去中国香港、美国读研也是这样。,在职业的下半场,也想换一种工作体验。面对不一样的环境,你的工作和生活会遇到意想不到的改变。”侯晓焱说。
在一段时间里,。出于职业敏感和对生命的敬畏,侯晓焱下意识地开始思考这种现象背后的刑事案件细节和缘由。在华宇元典研发的智库平台上进行检索后,。“为什么会这样?刑事司法研究应该关注现实中的真问题。”她总是喜欢追问。
这一追问,便在大数据与小样本之间建立了关联。2018年1月12日,在北京大学法学院凯原楼307会议室,侯晓焱受北京大学法律人工智能研究中心的邀请,介绍了使用大数据做研究的体会:“面对大数据,我们都会有些茫然,不知该如何入手。事实上,大数据包含小样本,前者呈现全貌和趋势,后者展示细节和原因。”
在此前清华大学法学院法律与大数据研究中心的成立仪式上,侯晓焱便认为,法学研究方法需要进一步融合,特别是法教义学需要借鉴、运用法学实证研究成果。“从大数据提供的全貌中一层一层地探究下去,研究者可以跳出法学,关联到社会、管理、经济等方方面面。这就好像打开了一扇新的窗口,原来我不确定真问题是什么,经常会遇到伪问题,但现在借海量样本,我能获得新的灵感。这才是研究的真正价值所在。”面对环境的转变,侯晓焱说。
面对人工智能,从知识图谱做起
2017年5月16日,侯晓焱第一次走进北京中关村东升科技园一座朱红色的大楼,这是华宇元典所在地。与她一同拜访华宇元典的包括高校的两位法学教授和来自美国加利福尼亚大学伯克利分校、长期关注中国司法大数据运行的瑞秋·斯特恩。这里的工作平台完全开放,绿色植物随处可见。
选择加入华宇元典,侯晓焱并没有思考很长时间:“毕竟大数据和人工智能都属于新事物,一定要身在其中,受到耳濡目染的熏陶才能真正了解。”对于人工智能,她最先学到的是知识图谱,这是一种让计算机理解知识的途径。
“知识图谱是一种知识间结构关系的可视化呈现,简单地说,是一种挖掘、分析、构建、绘制知识之间相互联系的技术。”华宇元典首席执行官、同样具有法学背景的邹劭坤在接受本刊记者采访时说道。
相比于知识图谱,在实际应用中,更容易理解、能被更形象呈现的是知识管理。具体到法律领域,侯晓焱举了故意杀人罪的例子:从这个罪名的犯罪构成入手,如果按照当前的三阶层犯罪构成体系,可以依次从事实、违法性、有责性三个层面进行评价。其中的事实认定需要确定行为人、行为对象等,违法性可能涉及正当防卫等违法阻却事由,有责性可能涉及行为人的年龄或者精神状态。如此不断展开延伸,就会形成一个树状图。这个树状图会在数据库里形成一个层级分布的模型。这是法律知识图谱制作的第一步。接下来,法律人和程序员将密切合作,将法律知识转化为机器可以认知并学习的知识图谱。
“事实上,我们法律人在看一份判决书的时候,也在按这样的方式思考,但人脑进行的是综合思维。如果交给机器的话,就需要将整篇文书的信息拆解开来进行标注。这样,就可以让机器不断学习。”侯晓焱解释道。
作为一门传统学科,法学长期积淀下来的法律规定和理论学说浩瀚如烟,标注时长没有尽头。包括华宇元典在内的不少科技公司都在一步一步地绘就这一奠定法律人工智能基础的知识图谱。
为了完成标注,最初,华宇元典通过法律人与程序员结对子的方式在计算机前一行一行地敲代码;现在,他们利用内部研发的工作平台,在法律人与程序员之间进行了更高效的分工,标注效率得到了较大提升。
华宇元典首席执行官邹劭坤介绍,我们做的并不是一套黑盒系统,也不是预言机器,法律是一个较为复杂的系统,对新案件不太可能做出精准的预测。我们只是通过分析已有案件中的关键因素,尝试性地呈现客观规律,包括分析同类案件的定罪率、量刑区间等,并将整个推理过程及数据在系统里清晰、完整地呈现。
“一开始,我完全不懂这些。来到这里后,我从做知识图谱学起。”侯晓焱说。现在,她会试着将自己的研究思路用树状图展示出来,遇到不懂的地方就与公司的同事进行交流。
转变思维,做法律与科技的使者
“其实,我的想法是有些改变的。以前,我没有想过技术能为法律人做什么,当看到公司研发的办案系统确实能帮助法官、检察官处理一些重复性的工作时才意识到科技对于法律的实际价值。”侯晓焱说。
侯晓焱所说的办案系统包括华宇元典研发的、。前者被外界称为“睿法官”,协助法官办案,在案件进入二审程序后,“睿法官”可以对一审判决书、上诉状等材料进行先期分析,识别影响案件定罪量刑的相关要素及当事人上诉的理由。
“有了机器的帮助,法官、检察官可以集中精力做一些更重要的事。”侯晓焱说。现在,她还不太了解知识图谱背后的程序是如何运行的,但她在慢慢学习。吴军的《智能时代》、杨澜的《人工智能真的来了》、玛格丽特·博登的《人工智能的本质和未来》都是她了解人工智能的入门读物。不仅如此,为了做好数据研究,她开始研读统计学。
“四十多岁了,还在学习。”面对年轻人,侯晓焱不由得感慨道。20年前,备考研究生那年,她在每年办理一百多起案件的同时,利用业余时间背单词、上辅导班,最终同时收获了北京大学法学院刑法学专业的录取通知书和香港城市大学法学院的录取通知书。
在中国香港、美国读书时,侯晓焱想做一名传递中国和境外司法实践经验的使者。如今,她与公司法律研究院的同事一起在法律与科技之间架起了一座桥梁。“人工智能已经是整个国家的战略,法律领域也不能置身事外。所以,我把自己的工作当成一种使命。”侯晓焱表示。
工作变化更带给侯晓焱一种思维层面的转变。“我们要培养一种数据思维,数据不会凭空摆在我们面前,如果它是真实的,就是可以解读的。这有助于让我们的论证和决策更加严谨,告别拍脑门式的假大空。”侯晓焱说。
03
升级“法小淘”:未来道阻且长
蒋友毅 无讼网络科技(北京)有限公司联合创始人、首席执行官。
“大家好,我是法小淘。别看我很小,但我的肚子里却装着很多、很多的法律知识。”一个稚嫩、调皮的声音在2016年全球规模最大的云计算科技大会的法律专场上响起,与此相对应的屏幕上呈现一个可爱的卡通形象。
2016年10月15日,无讼网络科技(北京)有限公司(以下简称无讼)创始人蒋勇在现场推出无讼的法律人工智能产品法小淘。它的形象源自中国古代神兽甪端,甪端与獬豸的共同点在于头顶上的独角。
推出法小淘时,蒋勇不禁自嘲这看上去有些像动画片里的卡通形象。的确,从实物形象上来说,法小淘并不是真正意义上的机器人,而是在计算机程序控制下回应现实情况。不过,这代表了无讼对法律人工智能的想象力与野心。
数据基础
在解释法小淘的功能时,蒋勇针对一个模拟的不正当竞争案例进行了现场线上演示。他通过手机上的应用与法小淘进行了一对一语音对话,告诉它案情、地点,、专业律师等。
上述功能实现的前提是此前无讼推出的建立与法律大数据紧密联系的无讼案例和无讼名片。前者是一款案例检索工具,目前已拥有超过5000万份的裁判文书,在检索条件下能识别每一份裁判文书中的案件类型、、代理律师、原被告诉求等;后者则是一款基于案例数据库的律师名片,可以将律师与案例数据进行关联匹配。这些都为法小淘的推出奠定了基础。
与法小淘建立联系并不难,打开无讼的手机应用程序便可以对其进行提问。在无讼联合创始人、首席执行官蒋友毅眼中,法小淘是最了解律师专业能力与服务经验的“机器人”,有10万名律师朋友,并且了解每一名律师擅长的领域。
有人担心,通过大数据推荐律师可以在一定程度上消除信息不对称的弊端,但另一方面会加剧“马太效应”——资深律师因数据丰富会在匹配方面获得更大的优势,而年轻律师、跨界律师则较之以往更难获得机会。
在蒋友毅看来,这种担心是不必要的。事实上,年轻律师会获得更多的机会,因为基于大数据的律师推荐标准并不在于选出在某一个领域最为资深的律师,而在于找到与当事人需求最匹配的律师。大数据会从律师的专业能力、服务精神、价格等方面为当事人的需求匹配最适合的律师。此时,面对那些对经验要求不高、在价格上相对敏感的客户,年轻律师会更有优势,也可以通过这些服务机会积累更多经验。
逐步成长
在美国的法律人工智能领域,最著名的应用是被称为“人工智能律师”的罗斯(Ross)。罗斯的孕育者是罗斯智能公司(Ross Intelligence)。这是一家致力于法律服务的人工智能创业公司,其首席技术官、联合创始人吉姆·奥夫比亚格勒(Jimoh Ovbiagele)在接受媒体采访时介绍,罗斯在接收到问题后,只需几秒钟就可以完成从阅读海量法律文书到找出含有问题答案的精确段落的整个过程。
罗斯的研发融合了很多不同的自然语言处理和机器学习技术,这也是法小淘在“成长”中需要使用的技术。蒋友毅介绍,无讼在阿里云底层技术的支持下,用机器学习的相关算法建立了一套文本与案例之间的初始相似模型,用无讼案例数据库中海量的案例、法规等数据对法小淘进行训练。它会不断地从这些数据中汲取养分,在数据与数据之间建立越来越准确的关联,相似模型本身也会在这个过程中不断优化。
“截至目前,法小淘已经学习了超过5000万份裁判文书数据和超过10亿条企业大数据信息。”蒋友毅在接受本刊记者采访时说道。除了智能匹配律师,目前,法小淘还可以根据全网数据,从公司治理、合同管理、合规经营、劳动人事、知识产权、财务账款六大模块帮助企业监测法律风险,并且实现基础问题的智能问答。
产学结合
2017年12月3日,在2017年的无讼有声大会上,无讼在推出针对企业的法律服务产品无讼法务的同时,宣布与中国科学院软件研究所(以下简称软件所)联合成立了人工智能实验室。
事实上,从2017年7月开始,双方已经开始合作。由软件所的老师带队,与无讼的法律知识专家组成一个20人左右的团队,一起在无讼的办公场所开展研发。“法律人与工程师的思维方式不同,前者思考问题相对全面、谨慎,习惯于规避风险,追求尽善尽美;后者则强调试错和快速迭代。这会带来思维方式上的碰撞,两者的融合也使我们在产品设计时能做到兼具两者的优势。”蒋友毅说。
当前,多家致力于法律人工智能的公司都与科研机构建立了联系。这源于法律人工智能发展中的两个关键点:一是对法律知识图谱的构建,二是基于经验数据的机器学习。如果缺乏有效且足够量级的数据,最终的实际效果会大打折扣。
“就目前来说,各个行业对人工智能的应用重在场景的挖掘,相应的数据沉淀十分不足。这导致人工智能应用整体处于较为初级的发展阶段,尤其是法律服务领域,很大程度上还是需要通过人的服务完成。只有一些纯信息服务,如简单的咨询,才可以通过人工智能完成。”蒋友毅解释道。面对如此现状,在探索法律人工智能时,学术界与产业界的结合便显得尤为重要,“这并不意味着人工智能在法律服务领域的应用空间不大;相反,人工智能更大的价值在于预判风险,特别是对于企业来说,通过风险预判事先消除法律风险,将为企业创造更大的价值,同时也为法律服务提供更大的市场空间”。
无论是罗斯还是法小淘,都面临自然语言理解的障碍。虽然罗斯已经甩开了很多竞争对手,“就职”于纽约一家律师事务所,但它仍需要阅读更多的案例。同样,法小淘的升级迭代也有很长的路要走。
04
进军法律界,
人工智能倒逼法律职业专业化
文/李则立
不少法律人对人工智能的热潮持保留态度。有人说,人工智能号称深度学习,为何现在看起来并没有那么“智能”?还有人说,我们发展人工智能是等着自己被替代吗?这可能是因为我们更多地关注到技术问题,而忽略了法律人拥抱人工智能的现实需求和内在逻辑。我们不妨从问题出发谈谈人工智能有何特别之处、开发路径是怎样的、法律人推进人工智能的内在需求是什么。
人工智能的真实当下
人工智能与之前大量使用的“专家系统”之间最重要的差别在于适应性。简单来说,专家系统是一套程序员事先设定的固定程序,但在现实使用中,专家经验在很多时候难以用准确的规则表达,即使写出了明确的规则,也常常不能保持逻辑自洽,如果出现新问题就很难满足使用者的需要。而人工智能可以不依赖规则,也就是说,在没有人的指令下,它可以基于神经网络、深度学习自动寻找规律、得出结论。面对海量数据,人工智能优势较明显。
一个新的解决方案出现后,似乎给我们带来了新的希望。人们不禁要问,现在的人工智能究竟有多智能?就目前而言,我们还不能高估人工智能。科幻小说《三体》的作者刘慈欣说,我们处在人工智能的史前时代。法律科技公司甚至都站出来说法律人工智能应该降温了!因为谈前景的人太多,以至于把合理预期都变成了当下真实。
从法律人的角度看,目前的法律人工智能还没那么“聪明”,甚至看起来有点儿“傻”。以最为重要的两项技术应用为例:一是图像识别,将以纸质文本形态存在的起诉书等材料识别成电子文本,这已经是相当成熟的人工智能技术了,但如果在纸质文件上盖章,它的识别就会发生困难。二是语音识别,将语音自动转换成文字。目前,虽然这项技术已经被大量应用,但也千万不要以为书记员马上就要被取代了。如果庭审时当事人不时说几句上海话,机器立刻就懵了。
这时,如果想让机器准确理解债权、物权,就有些奢侈了。所以,千万不要以为有了神经网络、深度学习,机器就将无所不能,甚至马上要取代人类。当然,也不能因为人工智能目前的发展水平如此,就认为这不过又是一个如镜花水月般的“法律自动售货机”。
人工智能的可能未来
图像识别就好比让机器长了眼睛,语音识别则像是让机器有了耳朵。眼睛和耳朵有什么稀奇?从生物进化视角来看,我们很可能进入了机器的“寒武纪”。达尔文的进化论有一个很难解释的缺陷就是“寒武纪生物大爆炸”。为什么生物在一代一代地缓慢进化,到了寒武纪就突然爆发了呢?有一派理论认为,这是因为生物“看见”了,这让动物突然变得积极主动。更重要的是,眼睛作为传感器,能收集大量数据,而随着数据量的增加,大脑的学习速度就会加快,进一步推动生物进化。人类作为最智能的视觉动物,人脑中有一半神经网络致力于视觉处理。
那么,科技的进化是否可能如生物一般出现进化的“寒武纪大爆炸”呢?
凯文·凯利认为,科技本身是一个物种,与微生物、植物、动物一样,而且具有自动生长的内在机制,如有了电,就一定会发明电灯,即使爱迪生没做出来,也一定会有其他人做出来。当机器有了眼睛和耳朵,也就是有了“感知”,必然会向着“认知”方向进发。这也就是人工智能界所说的、从感知智能向认知智能发展的大趋势。
人工智能的实现路径
到此为止,你可能会承认人工智能有一个成长过程,只是现在看起来有点儿傻,将来会变得很聪明。那能不能等到他长大成熟再来应用呢?何必现在就着急入场?这涉及人工智能的实现路径。
我们能不能等到人工智能变得全知全能以后再来用于法律行业?这个问题存在一定争议,特别是阿尔法元(AlphaGo Zero)出现后,不少参与开发法律人工智能的法官说,我们的路是不是走错了?阿尔法元不用任何人类产生的数据,通过自我学习就打败了阿尔法狗(AlphaGo)。那么,是否可能出现一种可以适用于任何领域的人工智能呢?
我个人比较倾向凯文·凯利的观点,不存在一个适用于任何领域的人工智能。凯文·凯利说:“我们总是希望创造一个像瑞士那样有很多功能的东西,但这种智能可能在许多方面都不错,却不可能在所有方面都做到极致。”
工程学原理告诉我们,一个产品不可能在所有指标上都达到最佳状态,必须有所妥协。比如手机,如果以苹果为标杆,那么,其他所有品牌的手机都可能在一个或多个性能的数据上超过苹果。苹果为什么不能将每个性能都做到极致呢?因为不可能,我们的世界是有极限的,只能在极限以下寻找一个最优解。
等待全知全能的人工智能走不通时,目前我们所知道的路径就是沿着算法、专家、数据相结合的模式演进。两个模式的最大区别在于是否需要应用人类的数据对机器进行训练。也就是说,如果机器不能脱离人类而完全自学成才,就需要人类“教”机器,但成本巨大,可以说是“坑深路远”,需要投入大量的人才、资金、技术。
人工智能带来的副产品
这条路如此艰难,何必还要匆匆赶路?实现人工智能会带来什么好处?没错,人工智能从来只是手段,目的取决于人工智能所带来的益处是否与行业发展的内在需求相一致。我们不妨看看人工智能发展过程中产生的副产品。
第一,可以倒逼打通数据孤岛,实现数据管理。人工智能在这个时代爆发的推动因素主要是算法、计算能力、大数据的发展。对专门行业来说,算法、计算能力属于通用资源,最重要的是大数据。如果实现大数据,一是必须打通数据孤岛,、、;二是促进内部数据管理,不论是政法机关、律师事务所还是其他行业部门,都需要整合内部数据;三是促进数据收集完备,如电子卷宗随案生成。开发人工智能是一个倒逼机制,最后都需要做好数据管理。
第二,倒逼专业化、职业化发展。在开发人工智能过程中,需要让机器理解规则。这时,就需要做到标准化,以降低机器理解成本。此外,人工智能的开发可以有效积累专家经验。法律行业之所以被认为是一个传统行业,其中一个重要原因是知识管理方面的问题。无论是在司法机关还是在律所,一位带头人的离开往往会宣告一个业务“巅峰”的结束;而将有效专家经验嵌入人工智能系统,可以保证法律行业稳定的专业水准。如此一来,司法实践将朝着专业化、职业化方向发展。
因此,人工智能实现与否,法律人可以不感兴趣,但在实现人工智能过程中,有可能完成法律行业讲了很多年却一直没有完成的事,这正是我们所感兴趣的原因。正是在这个维度上,我们可以说发展人工智能有意义、值得做。(摘编自微信公众号法影斑斓)
本文系原创,欢迎转载,请注明出自法律与生活杂志微信公众号,谢谢!
法律与生活杂志社微信号
LawAndLife_1984
长按识别二维码关注我们