
目次
記事の要約
- FastLabelがストックマークへLLM開発用データを提供
- 日本語特化型LLM開発に必要な独自データ作成
- 経済産業省・NEDOのGENIAC第2期プロジェクト支援
FastLabelによるストックマークへのデータ提供
FastLabel株式会社は2025年5月13日、ストックマーク株式会社へ日本語特化型LLM開発に必要な独自データを作成し提供したことを発表した。このデータは、経済産業省・NEDOが推進するGENIAC(国内生成AI開発プロジェクト)第2期における支援の一環として提供されたのだ。
提供されたデータは、数万枚のパワーポイントデータをテキストデータに変換したものだ。図表や画像の意味や意図も自然言語でテキスト化され、ストックマークによるハルシネーションを抑止したドキュメント読解基盤モデルの開発に活用された。
FastLabelはデータ収集・生成からアノテーション、モデル開発、DataOps構築までを支援する企業であり、今回のデータ提供は同社の豊富な経験とノウハウに基づいている。GENIACの審査基準を満たすデータ作成も支援したのだ。
今回のデータ提供は、日本語LLM開発におけるデータ不足という課題への有効な解決策を示唆している。高品質な日本語データの提供によって、より精度の高いLLM開発を促進する役割を果たしたのだ。
GENIACプロジェクトとデータ提供の詳細
項目 | 詳細 |
---|---|
プロジェクト名 | GENIAC(国内生成AI開発プロジェクト) |
実施時期 | 2024年10月発表の第2期 |
提供データ | 数万枚のパワーポイントデータ(テキスト化、図表・画像の意味・意図を含む) |
支援内容 | データ作成、GENIAC要件への対応 |
提供先 | ストックマーク株式会社 |
提供元 | FastLabel株式会社 |
LLM開発における課題とFastLabelの支援
日本のLLM開発は、日本語データの不足とAIエンジニア不足という課題を抱えている。公開データの少なさ、日本語特有の表記揺れや曖昧さがモデル学習を困難にしているのだ。
- 日本語データの不足
- 高品質データセットの限定性
- AIエンジニア不足
FastLabelは、これらの課題に対し、高品質な日本語データを提供することで、ストックマークのLLM開発を支援した。限られた人員のリソースをデータ作成に割く必要性を軽減したのだ。
日本語LLM開発支援に関する考察
FastLabelによる高品質な日本語データの提供は、ストックマークのLLM開発を大きく前進させたと言えるだろう。ハルシネーションを抑止した、ビジネスドメインで信頼できるモデルの開発に貢献したのだ。
しかし、今後、より複雑な日本語表現や専門用語への対応、データの継続的な更新などが課題となる可能性がある。データの質と量の確保、そしてアノテーションの精度向上は、LLM開発の成功に不可欠だ。
FastLabelは、データ提供だけでなく、アノテーションやモデル開発支援といった幅広いサービスを提供している。これらのサービスをさらに強化し、多様なニーズに対応することで、日本のLLM開発をさらに加速させることが期待される。
参考サイト/関連サイト
- PR TIMES.「FastLabel、ストックマーク株式会社へ日本語特化型LLM開発に必要な独自データを作成し提供 | FastLabel株式会社のプレスリリース」.https://prtimes.jp/main/html/rd/p/000000177.000065427.html, (参照 2025-05-14).