映像理解に特化した大規模AIを開発する企業Twelve Labs(トゥウェルブラボ)は13日、高度化された映像言語生成モデル「Pegasus-1.2(ペガサス1.2)」を発表した。
Pegasusは、Twelve Labsが独自に開発した800億パラメータ規模の超巨大映像言語生成モデルで、2023年11月に初めて公開された。長時間の映像をテキストで要約したり、映像に関するあらゆる質問に対応するなど、映像を基にしたテキスト生成機能を初めて実現したモデルだ。
今回発表された「Pegasus-1.2」は、前バージョンと比較して大幅に進化している。映像画面と音声を同時に解析し、より正確なテキストへ変換する能力を強化した。また、短い動画から1時間以上の長い動画まで、幅広いコンテンツを処理できるように精度を高めた。さらに、一度処理した映像は、再分析時にはより高速かつ低コストで処理できる。
特に、今回のモデルは比較的軽量ながらも高い性能を実現している。同社によると、GPT-4oやGoogleのGemini 1.5 Proよりも速い応答速度を記録したという。主要な競合のAPIと比較しても、優れた機能をより低コストで提供できるということだ。
これについて、Twelve Labsの最高技術責任者(CTO)であるイ・スンジュン氏は、「Pegasus-1.2は革新的な時空間情報の解析手法を取り入れ、映像をより正確に分析できるようになった。これにより、さまざまな業界のニーズに対応可能なAIソリューションへと進化した。」と述べた。
原文:https://www.unicornfactory.co.kr/article/2025021217173127267