12月18日,在火山引擎Force大会上,字节跳动正式发布了豆包视觉理解模型,旨在为企业提供更具性价比的多模态大模型能力。该模型的发布,旨在降低企业应用多模态大模型的门槛和成本,推动AI技术的普及和应用发展。据官方介绍,豆包视觉理解模型在处理千tokens输入时的价格仅为3厘(即0.003元),这意味着用户仅需花费一元钱,即可处理多达284张720P分辨率的图片。这一价格相较于行业平均水平降低了85%,为企业用户带来了前所未有的实惠。
豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此模型依托字节跳动强大的算法和算力支持,能够快速准确地完成图像识别、理解等任务,为企业用户提供高效、稳定的视觉理解服务。此前,豆包视觉理解模型已经接入豆包App和PC端产品,并在实际应用中展现出良好的性能。
多模态大模型作为当前人工智能领域的前沿技术,能够同时处理和理解文本、图像、视频等多种类型的数据,对于提升企业智能化水平、优化业务流程具有重要意义。然而,高昂的处理成本一直是制约其广泛应用的关键因素之一。字节跳动此次发布的豆包视觉理解模型,通过大幅降低应用成本,有望加速多模态大模型在各行业的落地应用,推动人工智能技术的普及和发展。豆包大模型日均tokens使用量超过4万亿,发布7个月以来增长超过33倍,显示出其强大的市场潜力。