Turing社、高性能日本語VLM Heron-NVILA-Liteと大規模データセットを公開

Turing社、高性能日本語VLM Heron-NVILA-Liteと大規模データセットを公開
PR TIMES より

記事の要約

  • チューリング社が日本語VLM「Heron-NVILA-Lite-15B/2B/1B」を公開した
  • 15Bモデルは複数のベンチマークで高性能を達成、2BモデルはiPhoneでローカル高速推論可能
  • 世界最大規模の自律移動データセット「STRIDE-QAデータセット」の一部を無償公開

チューリング社による日本語VLMと大規模データセットの公開

Turing株式会社は2025年5月12日、新たな日本語VLM「Heron-NVILA-Lite-15B/2B/1B」を公開した。150億パラメータの15Bモデルは、複数の日本語視覚-言語ベンチマークにおいて同パラメータ規模のオープンモデルを上回る性能を達成しているのだ。

20億パラメータの2Bモデルは、iPhone上で完全ローカルかつ高速に推論が可能である。この開発は、経済産業省/NEDOによる生成AI研究支援プログラム「GENIAC」の一環として実施された。

さらに、インターリーブ形式で構築された世界最大規模(自社調べ、インターリーブ形式の日本語-画像のデータセットとして)の日本語-画像の大規模データセット「MOMIJI」、および世界最大規模の言語と三次元情報を伴う自律移動データセット「STRIDE-QAデータセット」の一部も公開している。

公開されたモデルとデータセットの詳細

モデル/データセット詳細URL
Heron-NVILA-Lite-15B150億パラメータの日本語視覚-言語モデルHugging Face
Heron-NVILA-Lite-2B20億パラメータの日本語視覚-言語モデル、iPhoneでローカル高速推論可能
MOMIJI2億4900万枚の画像URLとテキストJSONL形式のデータセットHugging Face
STRIDE-QA-Mini3500時間超の運転データから抽出した、約10万組のQ&Aを含む自律移動データセットHugging Face

視覚言語モデル(VLM)について

視覚言語モデル(VLM)は、画像とテキストの両方を理解し処理できるAIモデルである。画像認識や自然言語処理の技術を組み合わせ、画像の内容をテキストで説明したり、テキストに基づいて画像を生成したりすることができる。

  • 画像とテキストの対応関係を学習
  • 画像の内容をテキストで記述
  • テキストに基づいて画像を生成

VLMは、自動運転、医療診断、製品開発など、様々な分野で活用が期待されている。

Heron-NVILA-Liteに関する考察

Heron-NVILA-Liteの公開は、日本語VLMの研究開発において大きな一歩となるだろう。高性能なモデルと大規模データセットの公開により、更なる研究開発の加速が期待できる。しかし、モデルのサイズやデータセットの規模が大きくなるにつれて、計算コストやデータ管理の負担も増加する可能性がある。

そのため、モデルの軽量化や効率的なデータ管理技術の開発が重要となるだろう。また、倫理的な問題やプライバシー保護についても考慮する必要がある。公開されたデータセットの利用規約を遵守し、責任あるAI開発を進めることが求められる。

将来的には、より高精度で、より少ない計算リソースで動作するVLMの開発、そして、より多様なタスクに対応できる汎用性の高いVLMの開発が期待される。これらの技術革新により、自動運転やロボット工学などの分野で、より高度なAIシステムの実現が可能になるだろう。

参考サイト/関連サイト

  1. PR TIMES.「150億パラメータ規模で世界最高性能、日本語VLM「Heron-NVILA-Lite-15B」を公開、2BモデルはiPhone上でローカル高速推論 | Turing株式会社のプレスリリース」.https://prtimes.jp/main/html/rd/p/000000065.000098132.html, (参照 2025-05-13).

関連タグ