By Francisco Soares, Head of Client Solutions & AI Innovation, Ichizoku株式会社
本記事は、Riot Games Daniyal Manlar 氏の講演をもとに、音声LLMでボイスチャットを安全化する実装要点を日本企業向けに簡潔に整理します。音声特徴の直接分類/課題と克服サイクル/大規模運用スタック/日本企業への示唆に焦点を当てます。
重要なポイント
- 文字起こしを介さない直接分類
Whisperの音声特徴を直接解析し、不適切発言を分類。精度・多言語対応・速度・コストの同時最適化を達成 - 課題に対する反復サイクル
データ不足/ラベル不一致/ポリシーの限界/低遅延・低コスト要件に、Foundation Models+再ラベリング+再学習で継続改善 - スケールする本番基盤
NVIDIA Triton、GPUマルチテナント、CI/CD+Canaryで、日々数百万件規模の音声イベントを安定処理 - 日本企業への適用余地
ゲーム以外でもコールセンターや金融等の音声コミュニケーションで有効。ポリシー更新とガバナンスを中核に据える
2025年9月にシリコンバレーで開催されたThe AI Conference 2025に参加した際のレポート「Silicon Valley Trip Report #03 The AI Conference 2025 シリコンバレーから学ぶ日本への示唆 – 業界を牽引するリーダーたちが語る、世界の AI潮流と日本企業の次の一手 -」から抜粋しお届けします。フルバージョンはこちらからダウンロード頂けます。
オンライン体験の「見えないリスク」
オンラインゲームにおけるボイスチャットは、チームプレイの醍醐味である一方、誹謗中傷や不適切な発言が飛び交う場にもなり得ます。数百万人規模のプレイヤーが同時に声でやり取りをする中で、それを安全に管理することは容易ではありません。
この課題に挑んでいるのがRiot Gamesです。サンフランシスコで開催された The AI Conference にて、同社のソフトウェアエンジニア Daniyal Manlar(ダニヤール・マンラー)氏 は「Voice Chat Moderation at Scale: Building Safer Voice Comms in Games with Audio LLMs」という講演で、最新の取り組みを紹介しました。私はIchizokuのHead of Client Solutions and AI Innovationとして参加し、そこで得た知見を日本企業の皆さまと共有したいと考えています。以下に講演の内容をご紹介いたします。
Whisperを「文字起こし」から「直接分類」へ
Riot Gamesが活用したのは、OpenAIが開発したオープンソースの音声認識モデル Whisper です。通常は音声をテキストに変換するために利用されますが、Riotはあえて「文字起こし」を省き、音声特徴量を直接解析して不適切な発言を分類する手法を採用しました。
その結果、以下のような成果が得られました。
- 精度向上:イントネーションやゲーム特有のスラングまで把握。誤変換による見落としを回避。
- 多言語対応:96言語をカバーしているため、グローバルなプレイヤーベースにも対応可能。
- 高速化:文字起こし工程を省くことでレイテンシーを削減。
- コスト削減:外部の文字起こしサービスを利用しないため、運用コストを大幅に低減。
日本でも、ゲームだけでなくコールセンターや金融サービスなど、声によるコミュニケーションが多い分野で応用可能性があります。
直面した課題と克服の道筋
しかし、PoCから本番環境への移行には多くのハードルがありました。Riotは次の4つの大きな課題に直面しました。
1. データ不足:不適切発言のポジティブ事例が少なく、学習が難しい。
2. ラベル付けの難しさ:雑音やあいまいな発音により、アノテーションの不一致が多発。
3. ポリシーの不備:新しいスラングや文化的ニュアンスをルールでカバーしきれない。
4. 運用面の制約:低遅延かつ低コストで推論を行う仕組みづくりが必要。
これらを解決するために、Riotは Foundation Models を活用し、ポリシーの補強、データ再ラベリング、再学習を繰り返すサイクルを構築しました。その結果、検出精度が向上し、誤検知も減少。安定した本番運用が可能になりました。
大規模運用への展開
最終的に、Riotは以下の技術スタックを構築し、日々数百万件規模の音声イベントを処理できる体制を整えました。
- NVIDIA Triton による高スループット推論
- GPUマルチテナント運用でコストを最適化
- CI/CDとCanary デプロイによる安全なモデル更新
単なる技術検証にとどまらず、プレイヤー体験の安全性を根本から改善する仕組みが整備されたのです。
日本企業への示唆
Riotの事例は、日本企業にとっても大きな学びになります。
- テキスト前提の発想を超える:音声特徴を直接扱うことで、新たな精度と速度を実現。
- 言語の進化に対応:新語やスラングは常に変化するため、ポリシーとAIを継続的にアップデート。
- ガバナンスを強化:書面上のルールを機械学習に落とし込むプロセスが必須。
- スケール設計を初期から意識:低遅延・低コストの両立を前提とした設計が鍵。
最後に
Riot Gamesの事例は、音声AIが「安全な対話の基盤」を提供できることを証明しています。日本のエンターテインメント、金融、ヘルスケア、BPO業界など、声を通じた信頼がビジネスの根幹を支える分野にとって、このアプローチは大きなインパクトをもたらすでしょう。
Ichizokuでも、音声LLMやエージェント型AIを日本市場向けに活用し、安全ですべての人に開かれた顧客体験を実現する取り組みを進めています。
未来のコミュニケーションは、単に言葉を理解するだけでなく、「人そのものを理解する」AIによって支えられていくのです。
【FAQ】よくある質問
1. なぜ「文字起こしなし」で分類するのですか?
誤変換の見落とし回避、イントネーションやスラングの把握、多言語対応、レイテンシ削減、コスト低減が同時に狙えるためです。
2. 本番化に向けた主な課題は?
データ不足、ラベル不一致、ポリシーの不備、低遅延・低コスト要件です。
3. どのように克服しましたか?
Foundation Models を活用し、ポリシー補強→再ラベリング→再学習のサイクルを回して検出精度向上と誤検知減少を実現しました。
4. 運用スタックの要点は?
NVIDIA Triton による高スループット推論、GPUマルチテナントでのコスト最適化、CI/CD+Canaryで安全なモデル更新です。
5. 日本企業への適用領域は?
ゲームに限らず、コールセンターや金融サービスなど音声コミュニケーションが多い領域で活用可能です。ポリシー更新とガバナンスを前提に設計します。