投资慧眼Insight - 近期,Meta、Google(GOOG)和微软(MSFT)等重要的人工智慧公司已经开始使用合成数据开发AI模型,包括聊天机器人和语言处理器等等。
通常,人工智慧系统的训练都是采用互联网产生的高质量数据,然而该部分比较有限,因此迫使人工智慧公司转向合成数据作为替代方案。顾名思义,合成数据是人工智慧系统生成的一种人工数据,因此也被称为虚假数据。
对于合成数据的可靠性,斯坦福大学教授Percy Liang曾指出,「合成数据不是真实的数据,就像你做梦登上了珠穆朗玛峰并不是真正登顶了一样。」
此外,一位研究员观察到了「模型崩溃」案例,即使用合成数据训练的人工智慧模型出现了不可逆转的缺陷,并输出了荒谬的结果。
与此不同,剑桥大学博士Zakhar Shumaylo曾指出,」如果处理得当,合成数据会很有用。然而,对于如何才能处理得当,目前还没有明确的答案。 」
目前来看,对于合成数据的可靠性以及如何使用等问题都未达成一致,但是它又是AI发展的关键,意味着AI要想获得进一步的发展,必须要攻克合成数据相关问题。