随着 AIGC 技术持续创新发展,基于 AIGC 算法模型创建、生成合成数据(synthetic data)迎来重大进展,有望解决 Al发展应用过程中的数据限制,进一步推动 AI技术更广泛的应用。因此,业界非常看好合成数据的发展前景及其对人工智能未来发展的巨大价值。数据是人工智能的燃料和驱动力,合成数据将极大拓展人工智能发展应用的数据基础,可以认为,合成数据关乎人工智能的未来。
▲合成数据为AI模型训练开发提供强大助推器,推动实现AI2.0
可以说,目前人工智能仍处在1.0阶段,数据方面的限制在很大程度上阻碍了人工智能更广泛的应用和部署。合成数据有望解决这些问题,推动人工智能迈向 2.0 阶段,可以在更大程度上拓展人工智能的应用。具体而言,对于人工智能而言,合成数据可以发挥诸多价值:
1.实现数据增强和数据模拟,解决数据匮乏、数据质量等问题,包括通过合成数据来改善基准测试数据(benchmark data) 的质量等:
2.避免数据隐私/安全/保密问题,利用合成数据训练 AI模型可以避免用户隐私问题,这对于金融、医疗等领域而言尤其具有意义:
3.确保数据多样性更多反映真实世界,提升AI的公平性,以及纠正历史数据中的偏见,消除算法歧视。
4.应对长尾、边缘案例,提高Al的准确性、可靠性,因为通过合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景,更好确保AI模型的准确性:
5.提升AI模型训练速度和效果。总之,利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练 AI 模型,进而极大扩展 Al 的应用可能性,将人工智能推向新的发展阶段。
▲合成数据助力破解Al“深水区”的数据难题,持续拓展产业互联网应用空间。
合成数据早期主要应用于计算机视觉领域,因为计算机视觉被广泛应用于自动驾驶汽车、机器人、安防、制造业等领域,在这些应用场景中打造AI模型都需要大量的被标注的图像、视频数据。生成性AI受欢迎的原因是能够通过合成数据以成本更低、易规模化、隐私保护合规的方式提供接近真实世界的数据。
▲合成数据产业加快成为数据要素市场新赛道,科技大厂和创新企业抢先布局
合成数据对人工智能未来发展的巨大价值使其加速成为 AI 领域的一个新产业赛道。一方面,国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。另一方面,合成数据作为AI领域的新型产业,相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温,开始涌现了合成数据即服务这一发展前景十分广阔的全新商业模式。
▲合成数据加速构建AI赋能、数实融合的大型虚拟世界
合成数据指向的终极应用形态是借助游戏引擎、3D 图形、AIGC 技术构建的数实融合的大型虚拟世界。大型虚拟世界对于人工智能的核心价值在于,为测试、开发新的人工智能应用,提供了一个安全、可靠、高效以及最重要的是一一低成本的、可重复利用的环境。展望未来,可以从三个方面来理解大型虚拟世界为什么成为 AI 数实融合的关键场景。
第一,大型虚拟世界可以提供人工智能开发所需的数据和场景,为 AI 应用开发提供“加速度”。
第二,大型虚拟世界为各行各业训练开发AI提供了试验田。
第三,在大型虚拟世界中通过AI连通虚拟与现实,实现AI数实融合。
总之,大型虚拟世界对于支持人工智能研究开发、促进数实融合的巨大可能性,值得持续深挖和不断探索。