基于NLP技术的建设工程合同风险智能检测框架研究
1 引 言
目前以EPC、PPP总包合同和全过程咨询合同为代表的新型承发包模式和咨询取得更广泛的应用,建设工程合同内约定的投资总额逐渐增大,其条款约定也愈发复杂。由于项目承包人和咨询单位普遍承接多个工程项目,同时与多位发包人签订不同类型的合同文本,由此带来大量合同风险管理工作。合同是项目管理的依据,建设工程合同是约定当事人责权利关系的书面协议。建设工程合同风险指建设工程合同订立、履约至终止全过程潜在的不确定因素,可能诱发法律纠纷并致使责任方承担巨额赔偿责任。2019年建筑纠纷案件仍保持较高增长趋势,裁判文书总数46.7万份,涉及金额4376亿元,表明依赖经验的建设工程合同风险管理仍存在大量问题,信息化、智能化水平亟需提高。
近年来大数据(Big Data)、人工智能(Artificial Intelligence,AI)、自然语言处理(Natural Language Processing,NLP)等前沿信息技术已逐步应用于建设工程项目合规性检测、辅助决策等领域。新兴数据科学的发展,为合同风险管理摆脱固有模式提供技术支持。但合同属于商业秘密,研究人员难以获得大量公开的合同文本数据,同时合同文本篇章结构、表述方式不同于日常用语,因此合同风险检测研究尚处于起步阶段。在计算机和AI技术取得长足进步的今天,采用智能化手段提升合同检测效率,减少条款缺漏风险,不仅满足建设工程合同风险控制的实践需要,也成为合同管理领域最前沿的研究方向之一。
本文首先总结了NLP技术在合同风险中的研究与应用。针对尚无系统性研究合同风险检测的现状,构建了基于NLP技术的建设工程合同风险智能检测框架,设计合同结构完整性和合理合法性检测模块。最后提出了合同风险检测技术在合同风险管理的应用前景,为合同风险智能检测研究方向提供参考。
2 建设工程合同风险智能检测
由于我国建筑市场发包人普遍处于强势地位,部分发包人在招投标阶段要求签订己方企业编制的合同文本,导致承包人、全过程咨询单位在面向不同发包人时,需要同时管理各类合同,增加合同风险管理的工作内容。同时EPC、PPP等总包合同具有标的金额巨大、条款内容复杂的特点,要求合同审查人员具有更高的合同管理水平和管理效率,大幅提升合同风险管理的难度。合同风险因素包括合同缺陷风险和履约过程风险,前者指合同订立阶段因条款缺漏、内容二义性、责权关系失衡等条款实质内容不足的风险,可通过合同检测及时规避;后者指合同履约阶段因工程变更、工期延后、支付违约、质量缺陷等事件引发的风险,并通过索赔和争议解决方式进行风险控制。
在建设工程合同订立阶段,合同风险检测通常由公司各部门分别审核、共同会商。由于检测结果依赖审查人员经验积累和主观判断,因此合同风险管理的水平参差不齐。并且在短暂招投标期内,合同审查人员的检测效率往往无法满足大量合同风险分析的要求。在合同履约过程中合同风险仍不断显现,引发大量合同纠纷案件,致使责任方承担支付索赔要求的风险。
建设工程合同风险智能检测是借助自然语言处理技术、人工智能、深度学习等新型计算机技术,智能化地解决合同风险管理中依赖审核人员经验且审查效率低效的问题,避免因条款缺漏、责权利关系不平等造成合同履约过程当事人出现机会主义行为的可能性。合同风险智能检测为解决合同风险管理长期存在的条款理解不一致、审查效率低下、风险审查不全面等问题提供可行的思路和途径。
3 NLP技术在建设工程合同风险中的研究与应用
建设工程合同是通过自然语言编写的非结构化文本数据,合同的文本词汇和语法规则含有丰富的语义信息。然而基于定性或定量分析的传统风险评价方法无法直接从文本抽取有价值的信息数据。自然语言处理技术(NLP)作为将非结构化文本自动进行结构化处理的计算机技术,成为实现合同风险智能检测的关键工具。NLP技术是涵盖语言学、计算机科学和AI的综合学科,也是目前AI领域主要的研究方向。深度学习(Deep Learning,DL)技术则进一步扩大NLP在自动抽取信息、智能学习语料特征的能力。NLP技术的中文应用主要关注汉字信息操作和处理方法研究,分析粒度包括词汇级、句子级和篇章级。NLP技术按分析方法可分为三类:
(1)基于规则。
早期NLP技术以研究语言学为基础,倾向于规则驱动。基于规则的NLP技术将合同风险人工抽象为语法规则合集,规定一组数据和结果符合“IF-THEN”逻辑,判断目标语料是否满足预设的风险规则。
(2)基于统计。
为减少手动建立大量规则,倾向于数据驱动的统计NLP技术研究逐渐占据主导地位。基于统计的NLP技术以数学和概率统计学为基础,从大规模真实语料中发现知识,将语言事件概率数值作为可信度并通过排序确定风险结果。
(3)基于深度学习。
基于DL的NLP技术是基于统计NLP技术的改进,改善后者易忽视文本数据规则,处理情感分析等复杂语义分析任务时效果不佳的问题。研究人员开始使用词向量模型(Word Embedding)、词袋模型(Bag of Words,BOW)、向量空间模型(Vector Space Model,VSM)等数学方式表示自然语言,人工神经网络(Artificial Neural Network,ANN)也已经在中英文分词、语块分析、命名实体识别等NLP任务取得良好效果。
NLP技术在建设工程合同风险中可分为三个层次的研究与应用,基础技术研究是对语法规则的研究,包括合同文本词法分析、句法分析和语义分析等;共性技术研究是从基础技术衍生,能够独立解决某类NLP任务的研究,包括词频统计、合同文本分/聚类、条款信息抽取与检索等;应用研究是综合使用多种基础技术和共性技术的高级语言学问题研究,包括合同文书推荐和问答系统等。NLP技术在合同风险的应用图谱见图1。
3.1 合同文本分类
文本分类(Text Classification,TC)主要实现合同分类任务。文本分类是分析文档类别的过程,常用文本字段概念作为预定义标签。由于传统文本分类方法依赖领域知识,DL技术被引入NLP文本特征抽取中,减少人工预处理和后加工过程。
3.2 合同条款信息抽取与检索
3.2.1 信息抽取
信息抽取(Information Extraction,IE)主要用于提取合同实体数据信息及主体关系。信息抽取是识别文本语料的结构化命名实体关系数据的过程,分为基于规则和基于统计两类。随着文本数据增多和精度要求提高,DL正逐渐取代传统信息抽取技术来满足更多应用需求。Tian等人基于双向长短时记忆网络和Gaussian LDA模型设计一种智能合约分类算法,能够抽取智能合约源代码、标签、账户信息等数据的语法规则和上下文信息,实现对海量智能合约的快速分类和准确检索。高丹等人提出一种基于卷积神经网络和改进核函数的多实体关系抽取技术,实现从大规模法律文书中抽取实体关系,提升法律从业人员案由分析的效率。
3.2.2 信息检索
信息检索(Information Retrieval,IR)主要用于检索合同文书和争议解决案例。信息检索指根据需求快速匹配海量信息资源的过程,分为基于本体和基于NLP两类。基于本体的检索准确度高,但构建领域本体耗时长且依赖人员专业领域知识。向量空间模型(Vector Space Model,VSM)和Word2vec等DL技术能够提升检索效率,VSM通过关键字内容和词频比较文本相似度,Word2vec通过构建词向量并分析语义关系实现检索。
3.3 合同文书推荐系统
推荐系统(Recommender System,RS)主要用于合同案例推荐、风险对策生成等任务。推荐系统从大量数据中计算相似度最高的案例并个性化推荐给用户,包括基于协同过滤、基于内容和混合三类。DL技术提升了推荐系统从多源异构数据自动学习数据统一表征的能力,改善数据稀疏和冷启动问题。Bansal等人利用深度递归神经网络将文本序列编码成一个潜在向量的模型,该模型通过进行多任务学习大幅提高了合同文书推荐系统的准确性。刘葛泓设计并实现基于文本卷积神经网络的法律智能问答系统,通过构建合同法语料库并学习合同法文本特征,实现对合同法领域问题和相关回答的智能分类和问答匹配功能。
4 建设工程合同风险智能检测框架的构建
尽管NLP技术已经实现条款信息抽取、裁判结果预测等小应用,然而针对建设工程合同篇章结构和条款语义等风险智能检测尚无系统性的研究与实现。本文提出结合NLP和DL技术的建设工程合同风险智能检测框架,利用卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)和正则表达式技术自动检测条款缺漏及潜在的不合理责权利关系,展开合同风险智能检测领域的初步探索。建设工程合同风险智能检测分为合同结构完整性和条款合法合理性检测两模块。
4.1 合同结构完整性检测
合同订立阶段即使双方当事人同意采用标准合同条件,仍可能存在一方修改条款的风险,因此该模块重点检测通用条款结构的完整性,检测过程如图2所示。
4.1.1 合同文本分类
工程合同按项目参与方分为施工、勘察、监理、分包合同等,按合同条件又分为标准和非标准两类,合同种类多样导致不同合同章节编排、语言叙述存在明显差异,因此需要区分合同类别,属于多类别分类问题。传统分类方法简单但训练耗时长,本文使用Word2Vec进行合同文本表示,引入LSTM网络解决CNN网络嵌入层训练参数多、长文本分类效果不理想的问题,加强模型对上下文关系学习能力。最后融合两个深度学习分类器提取文本特征,提高合同分类的准确度。
4.1.2 合同条款缺漏检测
工程合同条款包含合同主体及参与方、约定关系等内容,同一条款可能包含多个标签,且标签间存在关联性,属于多标签分类问题。首先使用文本数据增强技术提升训练集数据量,然后使用基于多头注意力机制的BERT预处理模型半监督训练提取符合条款定义的文本段,形成多标签分类模型。若识别标签缺失,说明存在条款缺漏;若识别标签完整,则进一步匹配条款文本语义一致性。结合BERT模型和LSTM网络构造条款缺漏检测模型,分别从单词、短语和句子层面判断文本相似度。判断条款缺漏时,若结果为“是”则对缺漏条款进行风险评价;若“否”说明合同通过检测,进入下一流程。
4.2 合同条款合理合法性检测
由于承发包人地位不对等,发包人有机会修改合同条件的专用条款对其有利,因此本模块重点关注专用条款是否违背权益性规则,即承包人是否承担额外责任和错误分配合法权利,检测过程如图3所示。条款匹配模型用于匹配专用条款与通用条款,风险审查模型用于判断权益性条款的风险情况。
4.2.1 专用条款结构化处理
一个完整合理的合同条款符合“主语-谓语-宾语”语序结构,即SVO(Subjuct&Verb&Object)三元组列表。本文使用正则表达式提取专用条款SVO三元组列表,提炼每个语句的关键要素,最大程度简化条款语法结构。
4.2.2 权益性规则匹配
提取通用条款权益性条款的关键词和权益性规则,权益性规则主语部分由主语概念组成,如行为主体;谓语部分由情态动词和谓语中心词表示主体行为;宾语部分包括行为指向对象和修饰属性关键词。由于一条合同条款同时包含若干权益性规则,因此需逐一匹配所有专用条款SVO三元组与通用条款权益性规则是否对应。
4.2.3 条款风险检测
由于通用条款语义元组列表的谓语成分仅包含核心动词,因此还需比较权益性规则与SVO三元组的情态词极性。若极性一致,说明主体被允许做出与通用条款规定相同的行为,该条款通过检测;若极性不一致,说明条款存在风险因素,审查人员应做出风险应对措施。
5 结 语
本文总结了NLP在合同风险中的研究与应用现状,目前NLP技术主要被用于文本分类、信息抽取和文书推荐等某一小类自然语言处理任务中,尚无系统性的风险检测研究与实现。在此基础上,本文构建了基于NLP和DL技术的合同风险智能检测研究框架,实现对合同风险的充分检测,起到对合同管理经验的辅助作用。首先在合同结构完整性检测模块,使用CNN、LSTM和BERT模型识别被遗漏的通用条款。其次在条款合理合法性检测模块,用正则表达式分析专用条款不合理的责权利分配情况,最后输出合同风险条款的检测结果。本文对合同风险智能检测进行框架设计和初步实现,后续本领域研究需要加强NLP技术对条款标签高阶相关性学习和正则表达式处理复杂条款的能力,进一步提升合同风险智能检测的准确性。
[2]SALAMA D M,EL-GOHARY N M.Semantic Text Classification for Supporting Automated Compliance Checking in Construction[J].Journal of Computing in Civil Engineering,2016(1).
[3]TIAN G,WANG Q,ZHAO Y,etal.Smart Contract Classification With a Bi-LSTM Based Approach[J].Ieee Access,2020,8(43806-16.
[4]高丹,彭敦陆,刘丛.海量法律文书中基于CNN的实体关系抽取技术[J].小型微型计算机系统,2018(5):1021-6.
[5]王海亮.基于文本挖掘的法律咨询系统研究和实现[D].北京:北京化工大学,2017.
[6]BANSAL T B D,MCCALLUM A.Ask the GRU:Multi-Task Learning for Deep Text Recommendations[M].IEEE Conference Record of Seventh Symposium on Switching & Automata Theory.IEEE,2016.
[7]刘葛泓,李金泽,李卞婷,等.基于Text-CNN联合分类与匹配的合同法律智能问答系统研究[J].软件工程,2020(6):8-12+4.
[8] 黄文路.基于本体和NLP的建设工程施工合同风险条款智能识别研究[D].厦门:厦门大学,2020.