字节发布豆包视觉理解大模型

前沿科技
分享至
评论

  12月18日,在火山引擎Force大会上,字节跳动正式发布了豆包视觉理解模型,此模型最大的亮点在于其极具竞争力的价格:每千tokens输入仅需3厘人民币,这意味着1元钱即可处理284张720P的图片。相较于行业平均价格,豆包视觉理解模型的价格降低了85%,大幅降低了AI技术的使用成本,推动了AI技术的普及和应用发展,标志着视觉理解模型也进入了“厘时代”。

字节发布豆包视觉理解大模型

  豆包视觉理解模型不仅能够精准识别视觉内容,更重要的是,它还具备出色的理解和推理能力。意味着它可以根据图像信息进行复杂的逻辑计算,完成诸如分析图表、处理代码、解答学科问题等任务。此前,豆包视觉理解模型已经接入了豆包App和PC端产品,并在实际应用中展现出强大的性能。火山引擎总裁谭待介绍,该模型能够根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。

  除了视觉理解模型,豆包大模型的其他产品也迎来了一系列重要的更新。豆包通用模型Pro已全面对齐GPT-4,而使用价格仅为后者的八分之一;音乐模型也从生成60秒的简单结构升级到生成3分钟的完整作品,并支持十余种不同的风格和情绪选择;文生图模型也升级到了2.1版本,首次在业界实现了精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。

THE END

数码评测