樊勇、杜涵:税收大数据——理论、应用与局限
字号

一、引言

大数据作为近十余年新兴发展的数据类型,协同其他多种信息技术,在我国已经取得了一系列创新和突破。

2021年3月中共中央办公厅、国务院办公厅印发的《关于进一步深化税收征管改革的意见》强调,应充分运用大数据等现代信息技术加快推进智慧税务建设,深化税收大数据共享应用,依法运用大数据精准推送优惠政策信息。基于我国二十余年税收征管系统信息化建设的实践,特别是金税工程三期以来在多税种、多部门和多征税环节的联网管理经验,以及政府部门、科研院所和信息技术企业之间的产学研联动,我国已经具备了进一步发展税收大数据的技术条件,但综合讨论税收大数据理论、应用与局限的学术研究还不系统完备。

到目前为止,国内关于税收大数据的文献主要讨论三类问题。第一类,论证将大数据与税收治理相结合的必要性和可行性。如“管数制”作为一种税收征管的创新模式,董蕾等(2017)分析了“管数制”在大数据时代的具体内涵和完善措施。第二类,具体讨论大数据在税收领域的一项应用。如王晓东等(2017)构建了一种以涉税大数据为纳税人贴标“画像”的探索性方案。第三类,整理并总结部分发达国家税务机关应用大数据的先进经验。如李万甫等(2016)通过介绍美国和英国在税务部门设置专业化的税收大数据分析机构,提出我国应建立“用数据说话、用数据决策、用数据管理并促进数据创新”的税收分析机制。

基于以上研究,本文将进一步探究国内税收大数据的定义、特点、来源、规模和创新优势,举例分析我国税收大数据的主要应用,并讨论在数字经济时代推广税收大数据可能面临的局限性。

二、大数据与税收大数据

(一)大数据

大数据从获取数据、储存数据和分析数据三个方面打破了传统数据的应用限制,极大地扩宽了数据的应用范围,也提高了数据的使用效率。大数据的特点可以被概括为“4V”:海量性(Volume)、高速性(Velocity)、多样性(Variety)和价值性(Value)。其中,海量性是指随着不断产生和获取数据,数据的规模将不断变大;高速性是指在商业应用中对数据的收集和分析应具备及时性;多样性是指数据类型的丰富程度,既包括传统的结构化数据,也包括半结构化数据及非结构化数据;价值性是指隐藏于庞杂数据下的价值。近些年,大数据技术的普及离不开协同技术的支持,这些技术主要包括:第一,云计算技术,基于云计算的分布式储存技术使得储存数据更加高效,并行计算将大大提高获取和分析大数据的效率;第二,物联网,物联网下种类丰富的终端能产生大量的数据,并且由物联网生成的数据类型通常是半结构化或非结构化数据;第三,数据中心,数据中心通过构造高速联通的内部网络,能够提供可靠的数据备份;第四,分布式计算,分布式计算依靠分布式文件系统,能够为运行大数据提供系统支持。

(二)税收大数据

1.税收大数据的定义与特点。一般可以认为,税收大数据是指在税收征管过程中形成的一类大数据集,包含结构化数据和非结构化数据。税收大数据能充分发挥大数据获取数据及时、储存容量庞大以及分析数据迅速等技术优势。相比于传统的税收统计数据和税收调查数据,我国税收大数据的特点表现在三个层面:第一,在数据特征层面,数据的获取技术具备更强的及时性,数据的获取手段更加多样化,数据的结构化程度大大下降;第二,在数据来源层面,国内税收大数据的来源以申报系统数据和其他征管系统数据为主,具备覆盖税种齐全、动态性强以及跨平台交互信息等特点;第三,在数据应用层面,将机器学习、云计算以及数据挖掘等技术综合应用于税收征管和经济分析等领域是目前的主流趋势。

2.税收大数据的构成与规模。通常而言,税收大数据包括可以用于税收征管和经济分析的全部数据。具体而言,税收大数据主要由六类数据信息组成:第一类,纳税人申报数据;第二类,申报数据以外的其他征管系统数据;第三类,纳税人的基本信息和其他涉税信息;第四类,纳税人的生产和经营信息(如发票等);第五类,税收统计数据和税收调查数据;第六类,其他非结构化数据(如PDF格式的公文等)。

税收大数据具备容量大、种类多的特点,又由于已开发的税收大数据是整体数据的冰山一角,我们很难准确地估算出税收大数据的整体容量。不过,以申报系统数据为例,可估算出每年通过申报系统生产出的数据规模。对税收大数据覆盖的7000万户企业纳税人展开估算,假设平均每户纳税人申报5类税种、平均每类税种需填写5张申报表、各税种平均每年申报8次并且每张申报表平均以100KB的大小存储,可以保守估算出每年仅从申报系统新增的税收大数据容量接近1400TB,税收大数据的容量在政务系统数据中排名领先。

3.税收大数据的创新优势。传统的税收分析方法已经不能完全满足当前税收分析工作中的实际需要。首先,传统的税收分析对数据的使用效率偏低,部分税收分析人员未能合理使用数据信息,更不能挖掘数据的深度价值;其次,职能部门之间以及数据库系统之间的信息联通较差,协同分析效率较低,反馈的问题也较为滞后。税收大数据能充分发挥大数据的技术优势,弥补传统税收分析方法的部分不足。参考Einav等(2014)将经济分析在大数据时代的创新概括为三类,我们从数据特征层面、数据来源层面以及分析方法层面展开讨论税收大数据的创新优势。

(1)数据特征层面。相比于以往的观测数据,在大数据时代应用于经济分析的数据具备以下新的特征。第一,数据的获取技术具备更强的及时性。以税务年鉴数据为例的政府统计数据会更重视数据的精细度和准确度,其发布日期会存在一定时间的滞后,然而征管部门的税收大数据是持续更新的,从而能够更有针对性地指导经济政策的落实。第二,数据的获取手段更加多样化。在移动互联网和云计算技术日益发展的今天,地理定位信息、网络搜索信息、个人消费信息以及企业采购信息等数据都可以在大数据时代更易于获取和储存。这些信息能够更全面地刻画纳税人的综合纳税水平,从而协助税务机关全方位、立体化地识别纳税人的不遵从行为。第三,在大数据时代获取的税收数据,它的结构化程度较以往明显下降,因此税收大数据具备更低的结构化水平和更丰富的分析维度,税务机关和科研单位可以充分利用非结构化的数据,综合分析纳税人一系列的历史信息。

(2)数据来源层面。Einav等(2014)把用于经济分析的大数据来源拓展为公共部门和私人部门,但结合我国税收大数据的发展现状,国内税收大数据的来源仍以税务机关的征管数据为主。在税收理论与政策的研究领域,国外已经有大量文献采用征管数据开展研究。征管数据适用于全样本分析,这相比于传统的调查数据,能够有效避免后者可能存在的样本容量较低、高收入群体瞒报收入以及时间覆盖范围较短等问题。此外,相比于传统的调查数据,征管数据能够较大程度地避免调查数据中存在的数据遗漏、样本有偏等问题。

(3)分析方法层面。聚束分析法(bunching)作为近十年应用税务部门征管数据取得创新性进展的研究方法之一,能够从更好地解决内生性问题的角度,分析劳动者福利变化等经济问题。Chetty等(2011)应用1994年至2001年丹麦税务部门的征管数据分析了劳动者在超额累进税制下调整劳动供给的行为;Kleven等(2013)应用2006年至2009年巴基斯坦税务部门的征管数据分析了劳动者在全额累进税制下调整劳动供给的行为。此外,在大数据时代,将机器学习和数据挖掘等技术手段应用于税收大数据,也将不断拓宽税收大数据的分析视角。例如,应用回归树的方法编制合成指数、应用数据挖掘的方法识别高逃税风险纳税人以及应用关联规则算法为纳税人“画像”等。

三、税收大数据的应用

当前,税收大数据能够应用于多个领域。在发挥传统税收数据优势的基础上,税收大数据能够充分发挥覆盖税种齐全、动态性强的特点,借助机器学习和数据挖掘等协同技术,应用于编制经济景气指数、促进纳税遵从以及优化纳税服务等领域。今后,联合银行征信系统构建的企业信息联网核查系统将为税收大数据提供更多维度的应用方向。

(一)税收大数据与编制经济景气指数

应用税收大数据开展分析和研究,能够自下而上地反映经济发展水平。测度经济发展水平可采用编制经济景气指数的方法。经济景气指数能够有效用于分析经济波动并预测经济发展趋势。编制经济景气指数有两项关键步骤:第一,选取适宜的经济指标;第二,编制合成指数。根据选取经济指标种类的不同,合成指数可分为同步合成指数、先行合成指数和滞后合成指数。同步合成指数可以反映当前经济景气变动的总体状况,先行合成指数可以对未来经济景气动向进行预测,滞后合成指数可以佐证先行合成指数所预测动向的准确度。

由于数据种类有限以及计算方法相对滞后,传统的经济景气指数已不能充分反映经济发展的真实状况。针对这些问题,税收大数据可充分发挥覆盖税种齐全、动态性强的优势,在大数据集中找到更加准确、灵敏的同步指标和先行指标(如将增值税作为同步指标之一,将进口货物增值税作为先行指标之一),进一步地采用机器学习的方法编制合成指数。基于税收大数据编制的经济景气指数能够满足上述两项关键步骤的技术要求,其在一定程度上能更精准地反映经济发展的真实状况。基于税收大数据编制的经济景气指数较传统的经济景气指数,其进步性主要表现在两个方面。第一,在计算方法层面,应用机器学习的方法研究经济问题已经成为一种趋势,如机器学习中的岭回归方法(ridgeregression)和LASSO法等。在编制经济景气指数的过程中,回归树善于处理数据集中的非线性关系,也善于在数据集中找到最重要的特征,因此可以应用回归树的方法编制合成指数。第二,在数据特征层面,以增值税发票数据为例,通过发票数据的进项情况和销项情况能更好地反映微观企业的经营水平以及产业链条的通畅程度,从而找到更灵敏的同步指标和先行指标。应用机器学习的方法编制经济景气指数需要尽可能多的数据容量,而税收大数据能够在数据容量方面保证经济景气指数的精准度与灵敏度。

(二)税收大数据与促进纳税遵从

促进纳税遵从的途径有很多,如完善现行税制、加大稽查力度等。当前,税收征管改革的重点方向之一是从“以票管税”转向“以数治税”,应用税收大数据能通过精准评估逃税风险进一步促进遵从行为。我国税务机关在长期的税源治理和税收征管过程中,为减少税收流失作出了突出的贡献。由于税务机关的稽查资源有限,以往税务机关主要以抽查的方式检查逃税行为,使得部分纳税人存在逃税的侥幸心理。在大数据时代,税务机关基于税收大数据采用数据挖掘的方法,能够实现深度挖掘纳税人的涉税信息,评估潜在逃税风险,并对高逃税风险的纳税人重点监测,促进纳税遵从。

应用税收大数据促进纳税遵从的优势在于借助机器学习和数据挖掘的方法在纳税人逃税事前刻画涉税风险特征,根据纳税人的历史涉税信息,测算纳税人的涉税风险概率,评估风险等级,进而重点监督高逃税风险纳税人。应用税收大数据促进纳税遵从的核心是评估纳税人涉税风险,包括三项关键步骤。第一,确定风险疑点纳税人。税务机关基于多类风险识别模型找到对应的风险疑点纳税人,构建风险疑点纳税人数据库,提取风险疑点纳税人的特征。第二,动态调整风险识别模型,获取风险指标。随着数据仓库中不断补充和更新风险疑点纳税人,税务机关及第三方企业会动态地修正风险识别模型的阈值及指标参数,实现在闭环内动态调整风险识别模型,逐步得到种类丰富且灵敏的风险指标。第三,建立随机模型,重点监督高逃税风险纳税人。将多种风险指标投入指标池,不同的风险监控模型从指标池中自动选择关键指标并评估全体纳税人,最终实现对高逃税风险的纳税人重点监督,进而促进纳税遵从。

(三)税收大数据与优化纳税服务

纳税服务有很多种方式,例如开通服务热线开展纳税咨询辅导、在办税服务大厅协助纳税人申报纳税等。在大数据数时代,应用税收大数据的纳税服务更有可能实现“精细服务”,进一步优化纳税服务的质量。基于税收大数据优化纳税服务主要是通过为纳税人“画像”实现。为纳税人“画像”具象化了纳税人的特征,从而促进了税务部门纳税服务水平的专业化和差异化(王晓东等,2017)。相比于以往通过在办税服务大厅发放问卷或上门走访等方式的纳税服务,税务机关应用“画像”技术的优势可以概括为:从需求侧发现问题,在供给侧解决问题。根据纳税人真实申报的数据,并针对纳税人的涉税信息和经营信息,精准且迅速地分析纳税人的纳税服务需求,从供给侧优化服务水平,促进办税缴费便民利民。

通过“画像”技术,税务机关基于税收大数据优化纳税服务,提升了纳税服务的智能化程度和精细化程度。第一,税务机关能够预先判断企业的经营处境,监测企业产业链的畅通水平,提前向有潜在需求的纳税人提供更加便利化的纳税服务,以提高纳税服务的智能化程度。第二,税务机关能够精准筛选出在纳税申报时未能充分享受优惠政策的纳税人,通过定向推送税收优惠政策、及时提醒纳税人申报等方式,完善纳税服务的精细化程度。“画像”技术的重点和难点是税务机关如何借助税收大数据精准识别纳税人的特征,进而实现精准服务。参考应用大数据为企业“画像”的现有技术,我们提出一种探索性方法:参考第三方评估报告,分析企业最新的财务状况,采用词频分析等文本分析的方法为目标企业贴标签,再结合企业的登记信息,有针对性地向企业推送最新的税收政策及指导建议。目前,国内的税收大数据主要由税务机关掌握。随着数据隐私保护技术的发展,税务机关可通过与第三方企业强化合作,有效提升“画像”技术的效率并优化纳税服务的水平。

此外,还有两类拓宽应用税收大数据的方向,且二者之间可相互配合、并行发展。第一类,优化现行税收征管系统,深度挖掘现有数据库的潜在信息。现行税收征管系统存在数据关联性不强、完整性不足的问题,尤其是原国税、地税数据库之间的大部分信息仍相互独立。如能实现将原国税、地税数据库合并,将为税收分析特别是国内税制的经验分析提供强有力的支撑。与此同时,还应充分发挥增值税征收环节环环相扣的特点,搭建发票大数据平台。第二类,构建新型的信息交互平台,从多维度搭建税收大数据网络。以构建企业信息联网核查系统为例,企业信息联网核查系统搭建了各部委、人民银行以及其他参与机构之间信息共享和核查的通道,实现企业相关人员手机号码、企业纳税状态以及企业登记注册信息核查的三大功能。相较于以往仅在税务系统核查纳税人的遵从行为,联接银行、电信、交通运输及市场监管等多部门的信息交互平台,能够起到从多方位监管和约束纳税人依法纳税的作用,以实现多维度开发和应用大数据。

四、税收大数据的局限

大数据作为数字经济时代蓬勃发展的新兴技术,社会各界一边高度肯定和期待它的价值,一边也在思考影响其发展的局限和隐患。同样,税收大数据的发展也受到理论基础、技术水平和隐私安全等方面的限制。

(一)理论基础的局限性

当前,关于大数据的理论体系还处在摸索中,从提出新的学科概念到形成成熟的理论体系仍有较长的一段路要走。大数据分析需要结合数学、计算机科学、统计学以及数据科学等不同学科的方法与工具,从传统数据中发现不易察觉的模式、趋势、异象、关联以及因果效应等其他信息。有研究认为,经济大数据主要的研究目的是探究经济变量之间的因果关系和预测关系,从而揭示经济运行规律、评估政策实施效果以及预测经济发展等目标(洪永淼等,2020)。尽管大数据分析并不会否定传统统计建模和统计推断的基本思想,但是面对结构更加多元、容量更加庞大的数据集,目前仍缺乏多学科交叉分析大数据的理论基础。在这种情况下,如果从多种角度研究同一组大数据,可能会得出截然相反的结论,又囿于理论基础的不足,结论之间不能得到统一。未来,成熟的理论基础能够帮助解决知识碎片化和结论融合困难的问题,从而实现基于税收大数据的经济分析“既见树木,又见森林”。

(二)技术水平的局限性

税收大数据作为当前我国税务系统信息化建设的重点发展方向之一,仍面临着诸多技术困难。参考分析大数据技术挑战的文献,我们具体讨论税收大数据在清理数据和管理数据层面的技术水平局限性。

1.清理数据层面。随着税收大数据的发展,税收数据的容量和种类得到极大的丰富,但也不可避免地产生了大量冗余、低效的数据。因此,开发轻量化的数据库软件以及选用高效处理大数据的研究方法是缓解技术水平局限的第一类突破口。

2.管理数据层面。除了数据的储存环境面临泄露数据的风险,来自储存容量的压力也不容小觑。数据持续更新是确保大数据分析有效性的前提,尽管云技术提高了数据储存的容量,大量的无用信息对数据储存的压力依然很大。因此,在保证数据持续更新的基础上,避免泄露数据隐私以及缓解数据储存的压力是缓解技术水平局限的第二类突破口。

(三)隐私安全的局限性

传统的数据保护模式和策略已经不能完全适用于大数据时代保护隐私的需要。参考现有文献将大数据隐私的风险因素分为生产、储存、处理三个阶段的做法,我们从数据流通和数据储存两个阶段分析税收大数据的隐私安全。

1.流通阶段。涉及隐私安全的风险可能发生于税收大数据的生产阶段和处理阶段。在数据生产阶段,以纳税人申报数据为例,纳税人通常不愿将申报信息直接分享给第三方机构。因此,税务机关需增强申报系统的安全等级,申报人可安装反病毒插件来避免数据泄露。在特殊情况下,如税务机关与第三方机构开展合作,税务机关应充分担负起保护数据安全的责任,在第三方机构获取纳税人涉税信息前确保数据的高度脱敏。在数据处理阶段,税务机关同第三方开展信息共享时,仍需严格高度脱敏,以防泄露涉及纳税人隐私的信息。此外,在数据处理阶段,复制数据、合并数据集以及对外公布研究成果时也应留意使用数据的规范性。

2.储存阶段。由于云技术能够实现数据存储的可视化,在分布式储存的环境下联合调用多个数据中心开展数据分析,能够大大降低数据泄露的风险。当数据储存在云端,数据的保密性、完整性以及易获得性是保证数据安全的关键。如果税务机关采取与第三方云平台合作来储存税收大数据,不仅要在技术层面完善数据的保密性和完整性,更要在制度层面和法律层面严格约束第三方云平台对涉密信息的管理。

五、结语

构建税收大数据平台将会是一项长期的工作,合理地开发和应用税收大数据将在经济分析、税务管理以及纳税服务等领域发挥重要的作用。现阶段,尽管我国的税收大数据已经取得了一定的成果,大数据技术在税务领域的应用前景依旧十分广阔。需要注意的是,只有将处理数据的硬件实力连同研究人员开拓研究维度的技术水平同步提高,才能确保税收大数据实现可持续发展,否则将很难跳出传统税收经济分析的研究范式。在开发税收大数据的过程中,税务部门应充分承担起保护纳税人隐私的职责,司法部门也应加强针对第三方平台的保密约束。只有在数据隐私安全得到充分保护的制度环境下开发和应用税收大数据,才能保证税收大数据的良性发展。

来源:微信号:人大财税研究所,https://mp.weixin.qq.com/s/eMpCe17zlN2q2xqXAk60BQ 发表时间:2021年9月8日

中国民生调查2022
协办单位更多
V
海关总署研究中心
V
中国石油集团国家高端智库研究中心
V
贵州省人民政府发展研究中心
V
成都高质量发展研究院
V
中国东北振兴研究院
访问学者招聘公告
关于我们
意见建议
欢迎对中国智库网提出宝贵的意见和建议!