Cartesia宣称其AI模型足够高效,可在任何地方运行
Cartesia探索更高效的AI架构
根据TodayUSstock.com报道,随着AI开发和运行成本的不断上升,Cartesia的创始人Karan Goel及其团队正在寻找降低AI成本的途径。Cartesia开发了一种名为状态空间模型(SSM)的新型AI架构,这种架构能够更高效地处理大量数据(如文本和图像)。Goel认为,新的模型架构是实现真正有用AI的关键,尤其是在当前竞争激烈的AI市场中,构建最佳模型至关重要。
从学术到创业:Cartesia的起源
Goel和Albert Gu在斯坦福大学的AI实验室中相识,后者也成为Cartesia的联合创始人之一。Goel曾在Snorkel AI和Salesforce工作,而Gu则在卡内基梅隆大学担任助理教授。两人继续合作研究SSM,并于2023年共同创立Cartesia,目的是将他们的研究成果商业化。
Cartesia的创始团队包括斯坦福大学的Christopher Ré教授,并参与了多个SSM衍生项目,最著名的是Mamba模型。Mamba起初是一个开源研究项目,由Gu与普林斯顿大学的Tri Dao教授共同发起。
Cartesia的Mamba模型与SSM架构
Cartesia基于Mamba模型进一步开发并训练了自己的SSM模型。与传统的Transformer架构不同,SSM能够通过压缩历史数据,提供更高效的数据处理方式,从而在处理大量数据时节省计算资源并提高效率。
SSM与Transformer的对比
Transformer架构在AI应用中广泛使用,但其工作原理也导致了高昂的计算成本。每当Transformer处理新数据时,它需要扫描整个“隐藏状态”来“记住”先前的数据。而SSM则通过压缩数据来提高效率,能够在处理大型数据时,节省大量的计算资源,并在某些数据生成任务中优于Transformer。
特性 | Transformer | SSM |
---|---|---|
数据处理方式 | 逐步更新“隐藏状态”以记住所有先前数据 | 压缩并更新数据,只保留必要信息 |
计算需求 | 高,需要扫描整个隐藏状态 | 低,节省计算资源 |
适用任务 | 广泛应用于文本、图像生成等任务 | 在长时间数据和大规模数据处理上表现优秀 |
Cartesia的伦理问题和应对措施
Cartesia开发的Sonic模型,能够克隆人声或生成新的语音,并调整语音的语气和节奏。这项技术引发了伦理争议,尤其是在声纹克隆和隐私保护方面。Goel承认,Cartesia的Sonic模型训练过程中使用了包含未经授权版权书籍的数据集“Pile”,这在某些情况下可能涉及版权问题。
为了解决这些问题,Goel表示Cartesia正在采用自动和人工审核系统,并在开发语音验证和水印技术方面进行努力,以减少滥用和偏见问题。
Cartesia的商业模式与前景
Cartesia的主要收入来源是Sonic的API服务,客户包括Goodcall等自动呼叫应用。Cartesia提供免费试用,但收费计划则根据使用量而定,最高可达到每月299美元。Goel强调,用户可以选择是否让其数据用于训练模型,且Cartesia为大企业客户提供定制的数据保留政策。
Cartesia的技术不仅为游戏和语音配音等领域提供支持,还推出了优化版Sonic On-Device,能够在手机等移动设备上实时运行,进行语音翻译等应用。
总结与展望
Cartesia凭借其创新的SSM架构,在提高AI处理效率和降低成本方面展现出巨大潜力。尽管面临伦理问题和竞争压力,但其技术优势和商业模式使其在市场中占据一席之地。随着Sonic和其他产品的不断发展,Cartesia有望成为未来多模态AI应用的领军者。
名词解释
SSM(状态空间模型): 一种新型AI架构,通过压缩历史数据来提高计算效率,适用于大规模数据处理。
Transformer: 一种广泛应用的AI架构,处理数据时通过逐步更新“隐藏状态”来记住先前的数据。
Pile: 一个开源的数据集,包含大量的未授权版权书籍,常被AI公司用于训练模型。
API: 应用程序接口,一种允许不同软件之间进行交互的技术。
2024年相关大事件
2024年12月: Cartesia成功融资2200万美元,进一步推动其SSM技术的商业化应用。
2024年8月: Cartesia推出Sonic On-Device版本,支持在移动设备上进行实时语音翻译。
来源:今日美股网