国立研究開発法人情報通信研究機構(NICT)は5月19日、3月12日に公開した音声コーパスに個人情報が含まれていた問題で第2報を発表した。最大12件のアクセスが確認されており、9件はアクセス元を特定できた一方、残る3件はアクセス元を特定できていないという。同機構は旧先進的音声技術研究室(現マルチモーダルAIコミュニケーション研究センターのマルチモーダル音声コミュニケーション研究室)が公開していた音声コーパスを全て一旦停止し、再発防止策の検討に入った。

3行要約
見出し
何が起きた:研究用の音声コーパスに公開対象外のボイスチェック用音声ファイル115名分が混入し、3月12日にウェブ上で誰でも入手できる状態となった。
影響:最大12件のアクセスが記録され、うち3件はアクセス元が特定できないままだ。漏えいした個人情報は話者の氏名など呼称に限られ、住所や連絡先、生年月日は含まれない。
対応:同研究室が公開してきた音声コーパスを全て一時停止し、人手による確認と入手者の把握を義務づける運用へ切り替える。話者へのお詫びと再公開準備を並行して進めている。
わかっていること/わかっていないこと
わかっていること
誤公開の原因は、公開前の確認プロセスに不備があったこと。
漏えいした個人情報は話者氏名等の呼称に限定され、住所・連絡先・生年月日は含まれない。
公開対象外として混入したのはボイスチェック用音声ファイル115名分。
確認されたアクセスは最大12件で、うち9件はアクセス元を特定済み。
現時点でインターネット上での流布や二次利用は確認されていない。
わかっていないこと
残る3件のアクセス元は特定できていない。
3件分の音声ファイルが手元に残存しているか否か。
9件全てについて、入手者の手元からの削除が完全に確認されたかどうかの詳細。
確認プロセスの不備がどのように発生したか、組織的・技術的要因の詳細。
事案の概要
NICTによると、誤って公開されたのはマルチモーダルAIコミュニケーション研究センターのマルチモーダル音声コミュニケーション研究室(旧先進的音声技術研究室)が3月12日に公開した音声コーパスだ。研究目的で配布する音声データの中に、本来は公開対象外であるボイスチェック用音声ファイル115名分が混じっていたという。同機構は「公開前の確認プロセスに不備があった」としている。
漏えいした情報は人の呼称に限定されているが、音声データは話者本人と結びつく性質を持つため、研究用途以外で利用された場合の影響は無視できない。
アクセス12件のうち3件はアクセス元特定できず
第2報で明らかになったのは、ダウンロード状況の詳細だ。同機構の解析と、ダウンロードした側からの削除完了報告を突き合わせた結果、最大12件のアクセスのうち9件についてはアクセス元を特定できたという。一方、残る3件は現時点でアクセス元が判明していない。
NICTは「現時点では、当該音声ファイルがインターネット上で流布、二次利用されたといった情報に接していない」としつつ、状況確認を継続するとした。
音声コーパスを全て一旦停止
再発防止の一環として、同機構は旧先進的音声技術研究室から公開していた音声コーパスを全て一旦公開停止した。今後は公開対象外のデータが混入していないかを人手で確認したうえで、入手希望者にのみ配布する方式へ改めるという。誰が入手したかを確実に把握できる仕組みも整える。
過去に公開していた音声コーパスについても、同じ確認手順を踏んだうえで再公開する予定だ。学会関係のメーリングリストを通じて第1報を周知し、ダウンロード経験者には削除を依頼した。話者本人へのお詫び状の送付も進めているとした。
背景 研究用音声データの取り扱い
音声コーパスは音声認識や合成、対話システムの研究で広く使われる素材で、大学や研究機関が公開してきた経緯がある。話者の同意取得や匿名化の徹底は前提となるが、収録時の素材に氏名等が紛れ込んでいる場合があり、配布前のスクリーニングが鍵を握る。
NICTは情報通信分野の中核的研究機関で、音声技術や自然言語処理で多数のデータセットを公開してきた。今回の事案を機に、研究機関全体のデータ公開フローにも一定の影響を及ぼす可能性がある。
タイムライン
2026年3月12日 音声コーパスを公開(公開対象外のボイスチェック用音声ファイル115名分が混入)
2026年3月13日午後9時頃 誤公開が判明
2026年3月14日午前9時頃 該当音声コーパスの公開を停止
2026年3月19日 第1報を公表。学会関係メーリングリストで削除依頼を周知
2026年3月19日以降 話者へのお詫び状作成・送付を開始。旧先進的音声技術研究室が公開していた音声コーパスを全て一旦公開停止
2026年5月19日 第2報を公表。12件のアクセスのうち9件のアクセス元を特定、3件は未特定と発表
NICTは「関係する皆様にご心配をおかけしましたことを、深くお詫び申し上げます」とし、新たに判明した事項があれば速やかに公表するとしている。
