「GPT-4oやGeminiより速い！」… Twelve Labsが映像AIモデルを発表

2025.02.14

UNICORN FACTORY

#LLM #AI #UNICORNFACTORY

映像理解に特化した大規模AIを開発する企業Twelve Labs（トゥウェルブラボ）は13日、高度化された映像言語生成モデル「Pegasus-1.2（ペガサス1.2）」を発表した。

Pegasusは、Twelve Labsが独自に開発した800億パラメータ規模の超巨大映像言語生成モデルで、2023年11月に初めて公開された。長時間の映像をテキストで要約したり、映像に関するあらゆる質問に対応するなど、映像を基にしたテキスト生成機能を初めて実現したモデルだ。

今回発表された「Pegasus-1.2」は、前バージョンと比較して大幅に進化している。映像画面と音声を同時に解析し、より正確なテキストへ変換する能力を強化した。また、短い動画から1時間以上の長い動画まで、幅広いコンテンツを処理できるように精度を高めた。さらに、一度処理した映像は、再分析時にはより高速かつ低コストで処理できる。

特に、今回のモデルは比較的軽量ながらも高い性能を実現している。同社によると、GPT-4oやGoogleのGemini 1.5 Proよりも速い応答速度を記録したという。主要な競合のAPIと比較しても、優れた機能をより低コストで提供できるということだ。

これについて、Twelve Labsの最高技術責任者（CTO）であるイ・スンジュン氏は、「Pegasus-1.2は革新的な時空間情報の解析手法を取り入れ、映像をより正確に分析できるようになった。これにより、さまざまな業界のニーズに対応可能なAIソリューションへと進化した。」と述べた。

原文：https://www.unicornfactory.co.kr/article/2025021217173127267

UNICORN FACTORY

2021年に発足したUNICORN FACTORY（ユニコーンファクトリー）は、MONEY TODAY（マネートゥデイ）が韓国の総合誌で初めてスタートさせたスタートアップ専門のメディアプラットフォームです。溢れるニュースの中でスタートアップ生態系に必要なニュースだけを厳選し深く伝えます。

「GPT-4oやGeminiより速い！」… Twelve Labsが映像AIモデルを発表

RELATED ARTICLES関連記事