当美国国防部(DoD)于2020年9月宣布其新的数据战略时,对于在私营部门IT领域有经验的人来说,大部分目标听起来并不陌生。
美国国防部计划转变为一个以数据为中心的组织,并利用数据帮助国防部完成一系列任务,从更充分的备战和改善战场结果到更有效的操作和采购。
为了帮助实现这些目标,国防部认识到能够快速和规模化地定位、访问和提供数据的重要性。这是一个重大的挑战,因为国防部是美国政府中最大的机构,也是世界上最复杂的机构之一。国防部拥有130万现役部队,75万文职雇员,81.1万国民警卫队和预备役部队,是美国最大的雇主。
图1:美国五角大楼
国防部的战略概述了指导原则,包括数据治理、管理、伦理、采集、合规和人工智能训练等数据。它还列出了四种基本能力:架构、标准、治理以及人才和文化。
国防部数据战略概述了七个目标。如果使用正确,国防部的战略将使数据:
1.可见性:允许数据使用者定位他们需要的数据;
2.可访问性:意味着数据使用者可以检索他们需要的数据;
3.可理解:这样数据使用者就可以识别内容、上下文和适用性;
4.关联性:使数据使用者能够通过固有的关系利用数据元素;
5.信赖:指使用者可以对各个方面的数据有信心进行决策;
6.互操作性:这意味着数据使用者对数据有共同的表示/理解;
7.安全性:保护数据,防止未经授权的使用/操作。
与私营部门的许多数字化转型项目一样,国防部不能下线和替换系统,不能重新开始建设以支持其数据战略。遗留系统在国防部很常见,当他们说这是“关键任务”时,事实也确实如此——支持任务和行动,保护服役人员和平民。
本文将探讨国防部数据战略面临的四个技术挑战:可访问性、可发现性、安全性和弹性。这些挑战并非不可克服,但是需要在遗留系统的功能范围内解决这些问题,这些遗留系统起初设计时并未考虑满足新数据战略目标所需的互操作性和连接性。国防部的规模、合作伙伴和承包商生态系统的广度以及任务的关键性增加了数据集成和安全挑战的复杂性。
数据的可访问性
数据可访问性是从存储数据的系统中检索数据的能力。它不仅仅是访问数据并将其保存到其他地方或进行查看。为了实现成为以数据为中心的组织的目标,国防部需要授权数据使用者访问数据并在其他平台上使用数据,并将其与来自不同来源的数据结合起来进行分析和解释。这可能意味着将数据放入分析工具,或使用它来创建人工智能或机器学习模型。
当涉及到数据可访问性时,组织面临的问题是,数据从来都不是一个“通解”。在像国防部这样规模的组织中,数据的量和它所采用的多种形式是非常惊人的。像国防部这样的大型组织每天都在处理结构化(例如,数据存储在关系数据库中)、非结构化(例如,数据存储在电子表格和文件中,以及任务环境中的传感器数据)、存储在本地应用、存储在大型机等遗留系统或存储在基于云的应用(即SaaS)中的各种数据。
在许多这样的实例中,数据存储在应用程序或某个环境中,在设计时它的可访问性并没有问题。例如,大型机的设计是为了稳定和非常高的硬件利用率,而不是为了与基于云的应用连接以共享数据。
新的应用程序提出了另一个可访问性挑战。得益于云的应用和服务,无/低代码编程平台,以及国防部对持续集成/持续交付(CI/CD)软件开发实践的承诺,新应用的部署获得了前所未有的快速和便捷。这些应用能够快速上线,并且能够快速扩展以生成新的数据源和存储库。就像每个组织一样,国防部的数据和IT的未来并非静态,所以任何围绕可访问性的策略都需要能够快速适应新的数据源。
图2:美国国防部DevSecOps技术栈(来源:美DoD官网)
任何解决数据可访问性挑战的方案都需要关注基本互操作性以外的情况。复杂IT环境中的数据存储在不同格式和不同类型的数据库中。将原始数据从一个应用程序转移到另一个应用程序只能解决部分问题。为了便于访问,需要对数据进行转换、调换和建立关联。访问高质量数据需要理解并整理,而不仅仅是导入到新的应用程序中。
想想美国国防部的人事记录,它是美国最大的雇主。试想一下,名字可以以不同的方式输入,甚至是在一个结构化数据库中:姓氏优先;名字优先;中间名初始可选;中间名默认初始要求;唯一标识等等,如社保号码或入伍人员编号。这种规模的数据存储肯定存在重复的数据,比如曾在军队多个部门服役的人员姓名。访问来自不同系统的所有数据并尝试创建单一格式可能会带来巨大的麻烦。我们需要的是一种智能的可访问性方法,这种方法可以在不需要大量手工编码的情况下迅速定位。
仅仅依靠开发团队来解决数据可访问性问题并不现实。应用开发资源的竞争激烈,导致项目漫长且昂贵。
实现数据可访问性的更好方法是使用一个为数据集成而设计的低代码/无代码平台。低代码和无代码环境不是为应用程序开发资源创建冗长的队列,而是通过授权业务流程所有者,帮助普及数据集成和可访问性。
为最常见的应用程序和平台部署具有即时可用连接器的平台图形化映射和转换数据的能力也会有所帮助克服可访问性的挑战。最后,将锁定在各种应用程序和孤岛中的数据作为API公开,将使用户和应用程序能够在最短的时间内访问这些数据,因为用户可以利用可重复利用的API,而不是编写一次性的集成。
API是解决数据可访问性挑战的一个飞跃,但单独来看,API的创建带来的问题差不多与其为IT组织解决的问题一样多。正如我们将在接下来将讨论的,正确管理和保护API将提高可访问性,同时满足国防部总体数据战略的治理需求。
发现数据
提高数据可访问性使组织中的数据向数据消费者和应用程序开放。但是在一个像国防部这样规模的组织中,了解现有的数据类型,如何使用它们,以及谁可以使用它们可能是一项重大的挑战。
试想追踪补给和设备对国防部的任务有多重要:该机构拥有什么,储存在哪里,如何运输等等。使数据易于发现也起到了类似的作用。要根据数据做出快速、准确的决策,就需要了解使用者可以使用哪些数据。如果数据使用者知道什么是可用的,他们就不会浪费时间和资源试图寻找数据或创建数据源来访问已经存在的信息。
要想在数据可访问性方面获得投资回报,就需要数据的可发现性。API需要公开和发布,以打破数据孤岛并提供价值。
回到军用物资的类比上,如果没有人知道仓库里的物资在哪,它们就没有太多价值。与此同时,士兵们不能简单地出现在某个仓库并要求任意设备。需要有适当的政策来授权谁可以访问供给物资,并确保设备当前的正常状态。数据也是如此。
登记API有助于数据发现,但不能是静态的,因为数据并非静态。API有一个生命周期,从初始到退役,在这个过程中需要对它们进行管理和更新。需要对API进行监控,以了解谁在使用它们以及如何使用它们,这对于规划新的API创建、API退役等等都是有用的信息。
最后,API需要策略来管理谁或什么可以访问它们,以及如何使用数据。这对于像国防部这样的机构来说尤为重要,因为敏感信息随处可见,而且大量的数据给API管理和监控带来了挑战。
在国防部,从军事情报到人事档案等敏感信息,安全是最重要的。
数据安全
数据可访问性的目标是将数据从孤岛和遗留应用中解封,并将其投入使用。对于任何想要更加以数据为中心的组织来说,这都是重要的一步。将数据作为API公开和发布有助于数据使用者理解对他们可用的数据以及如何在自己的应用中使用这些数据。开放性对于可访问性和可发现性都很关键。
出于必要原因,数据安全试图对这种开放性施加限制。像国防部这样规模和范围的机构会产生大量的数据,其中一些数据需要限制授权。
国防部的数据安全面临双重挑战。首先,谁可以通过API访问可用的数据?国防部的规模、承包商和合作伙伴的数量使准入问题比许多私营企业更为复杂。第二,如何控制对数据的访问?国防部中军事和民用角色的数据使用者发现,随着他们在工作、级别和命令之间的变动,其职责和权限会发生变化。管理访问需要是一项相对简单的任务,以满足国防部数据战略的速度和规模要求。
策略驱动的API方法将有助于在需要时限制访问。这是前面提到的API生命周期和管理的一部分。另一个可以应用于API的流行数据安全策略是零信任,即将每个用户和应用都被视为威胁,直到证明其是安全的。由于国防部需要的访问粒度,像零信任这样的策略不仅需要管理“南北向”通信,还需要管理“东西向”通信,以控制对数据的访问。
API监控将有助于跟踪API的访问和使用。API网关作为数据的安全访问点,而不是直接与数据通信的源。它们通过保护对API的访问以及应用运行时的治理来保护数据和应用。微网关占用的空间更小,在分布式环境中执行类似的功能。它们可用于管理API访问并防止主网关过载。微网关可以帮助在分布式环境中管理、最小化和保护东西向通信。
图3:webMethods平台(来源:Software AG官网)
通过API公开、发现和保护数据,国防部数据使用者将能够找到并使用他们有权访问的数据。但是将数据集成应用于像国防部这样的大型机构需要具备弹性。要确保API和应用能够及时交付所需的信息。
弹性
国防部产生和存储了大量的数据,并支持大量用户。在国防部发现的某些数据与在大型私营企业中发现的数据类似:雇员记录、福利信息、应付和应收账款、采购信息等等。
其他与国防直接相关的数据类型对国防部来说更为独特,比如武器系统、情报和后勤信息。
最后,还有一些很少有人希望在国防部的任务中被找到的数据类型,比如天气数据,它是国防部通过世界上最复杂的气象卫星所收集;由美国陆军工程兵团(U.S. Army Corps of Engineers)收集和管理的内河运输数据,作为其维护全国各地大坝、船闸和堤坝任务的一部分;以及全球定位系统(GPS)数据,因为GPS由美国空军管理。
所有这些数据不需要相同的管理方式,但它们都需要可访问性、可发现性和安全性。但是庞大的数据量意味着任何让用户能够轻松获得数据的策略都需要在数据量、并发用户数和访问数据所需的时间方面进行扩展。后一点在用于指挥和控制(C2)系统中尤其重要,因为及时访问数据是生死攸关的问题。
当国防部表示它想以数据为中心,并把数据作为决策中心时,就没有可商量的余地了。集成解决方案需要提供对最重要数据的实时访问,即使是在连接有限或不可靠的偏远地区,也要保持高可用性。它们甚至需要能够在断开连接时提供对数据的访问。
灵活的架构和混合部署模型,包括基于云的系统使用,将有助于创建匹配用例的集成解决方案,并识别指挥和控制系统与那些访问内河运输数据的系统之间的区别。内存数据缓存有助于提供及时访问数据,这是国防部许多任务关键系统所必须的。
后边我们将讨论,该平台旨在克服供应商在帮助国防部实现其数据战略目标时将面临的各种挑战。一种以API为主导的具有可访问性、可发现性、安全性和弹性的方法在类似于国防部要求的场景中已被证明是可行的。但是API驱动的方法只有在适当的治理、实时访问、灵活的部署模型等条件下才可能成功。
基于API的混合集成软件方式
Software AG的webMethods平台提供了一种基于API的混合集成方法,这将帮助国防部及其合作伙伴的数据使用者和IT主管与该机构的数据战略保持一致。
在像国防部这样的大型IT环境中,从遗留系统到新的基于云的应用,webMethods提供了任意连接的一系列功能,包括:
专为主流企业记录系统构建的连接器使连接变得容易,无需创建自定义点对点集成的时间和费用。有超过300个即调即用的连接器。
无代码、低代码的开发环境减轻了应用开发团队的负担,提供了更快的集成,同时消除了应用的依赖性。
映射和转换功能,将驻留在不同系统的数据重新创建公共数据格式。
一旦数据源连接起来,Software AG的webMethods就可以轻松地将数据公开为API,消除了数据可访问的复杂性,并在不让用户完成众多步骤的情况下抽象出数据使用者需要的信息。
Software AG还提供了保护和监视API所需的管理和治理。大型与微型API网关在数据中心或边缘应用即时安全策略,而可审计性有助于跟踪谁、什么正在使用API以及如何使用这些API。API门户用于公开API,为数据使用者提供一站式服务来识别当前可用的API并控制对潜在敏感数据的访问。API门户允许开发人员测试可用的API,以帮助他们更好地理解如何使用这些API为其应用增加价值。
webMethods平台的架构灵活性帮助它满足了像国防部这样的复杂组织中出现的许多用例。它提供基于云的、内部部署和边缘部署模型,每个模型都具有最高的安全级别。内存数据缓存意味着对数据的快速访问,而高可用性意味着当任务关键型应用需要数据时,数据就在这里。
图4:美国防部Platform One软件生态系统(来源:美DoD官网)
webMethods是一种厂商中立的数据集成方案,为国防部部署的复杂环境提供连接。它是被国际上一些大型组织所证实和依赖的单一的、统一的平台,用来应对有关数据可访问性、可发现性、安全性和弹性的挑战。Software AG的webMethods已经在国防部的机密和非机密环境中应用,包括美国海军ERP计划,以及其他联邦政府机构,如美国国税局(IRS)。webMethods在DoD Iron Bank存储库中可用,作为基线Platform ONE的功能扩展。
要实现国防部数据战略的目标并非易事。快速的能力发展将至关重要。通过基于API集成、公共系统的连接器以及低代码/无代码功能,Software AG的webMethods平台可以很好地帮助克服总体战略及其实现所面临的一些重大挑战。
来源:腾讯安全天幕团队