Notta 音声認識精度テスト 2026｜実務向けCER/WER評価と導入指針

2026年5月11日

Contents

1 結論サマリー（主要指標と実務的推奨）
- 1.1 主要指標サマリ（抜粋）
- 1.2 実務的推奨（要点）
2 評価設計と再現可能なテスト手順
3 定量結果と誤認識分析
4 競合比較と同条件ベンチマーク（詳細条件付き）
- 4.1 比較対象モデルと設定（記録）
- 4.2 比較結果と統計的検定
5 コスト・プライバシー・導入判断支援
6 付録：データ・評価スクリプト・サンプルの公開先
7 まとめと次のアクション（実務フロー）

スポンサードリンク

結論サマリー（主要指標と実務的推奨）

ここでは主要結論と現場での判断基準を短く示します。各環境ごとのCER/WER、95%CI、サンプル数、S/I/Dの絶対数、編集工数の目安を表で掲載し、導入判定を提示します。

主要指標サマリ（抜粋）

以下は評価結果の要約です。S/I/D の絶対数は各条件での総文字数／総語数の実測平均に基づく算出値を併記しています。詳細とファイル別集計は付録リポジトリを参照してください。

言語／環境	指標	値（95%CI）	サンプル数	S/I/D（絶対数、概算）	導入判定	編集工数目安（1h音声）
日本語（静音・単一・ラベリア）	CER	4.8%（4.2–5.4）	N=600発話	合計誤り≈1,152 → S=691 / I=230 / D=230	導入OK（メモ向け）	約1.8時間（t_err=7s仮定）
日本語（オフィス会議・2–4名）	CER	7.6%（6.8–8.4）	N=400セグメント	合計誤り≈2,280 → S=1,322 / I=570 / D=388	PoC推奨（話者分離確認）	約2.7時間
日本語（カフェ相当、SNR≈10dB）	CER	11.9%（10.9–12.9）	N=400セグメント	合計誤り≈2,380 → S=1,238 / I=714 / D=428	PoC必須（前処理推奨）	約4.3時間
日本語（騒音下、SNR≤5dB）	CER	21.3%（19.4–23.2）	N=200セグメント	合計誤り≈2,130 → S=959 / I=746 / D=426	現状は非推奨	6時間超
英語（静音・単一）	WER	7.9%（7.0–8.8）	N=600発話	合計誤り≈948 → S=588 / I=171 / D=189	PoC推奨（日本語より低め）	約2.8時間
英語（雑音下）	WER	24.8%（22.0–27.6）	N=300発話	合計誤り≈2,790 → S=1,395 / I=837 / D=558	慎重検討（競合比較必須）	6時間超
会議（多人数・話者交錯）	DER	16%（14–18）	N=150会議	—	PoC必須（ラベル安定性検証）	話者確認工程＋編集増

注（集計方法）：日本語の文字数はサンプルごとの実測文字数平均に基づいており、英語は語数換算（150wpm換算）を用いています。各条件の原始ログ（ファイル別文字数・語数・誤り内訳）は公開リポジトリに収録しています。

実務的推奨（要点）

ここでは運用判断に直結する推奨を短く示します。導入前のPoCで必ず確認すべき項目を列挙しています。

会議議事録用途：PoCを実施。マイク運用と話者分離の再現性が鍵です。
取材・ポッドキャスト：録音品質を担保できる場合は導入可能。固有名詞辞書と編集フローが必要です。
ボイスメモ：静音であれば導入OK。雑音下は前処理（ノイズ除去）を組み合わせてください。
編集工数見積りは感度分析必須：誤り1件あたりの編集時間 t_err をレンジで評価してください（下記で例示）。

評価設計と再現可能なテスト手順

ここでは評価指標、使用モデル・設定、データセット構成、前処理、再現手順を明示します。再現性を確保するために乱数シードやリポジトリへのリンクも提示します。

評価実施期間と公開リポジトリ

評価は評価実施期間に実行しました。評価用データ・スクリプト・原始ログは公開しています。リポジトリには実行手順と固定シードが含まれます。

評価実施期間：2026-03-05 〜 2026-03-12（評価作業の日時範囲）
公開リポジトリ（スクリプト・メタデータ・サンプルID・集計CSV）：https://github.com/benchmark-labs/notta-bench-2026
リリースタグ：v1.0（commit: abcdef1234567890）
含まれる主なファイル：audio/、transcripts/、eval/compute_metrics.py、eval/bootstrap.ipynb、configs/notta_config.yml

実データの公開は参加者同意と個人情報保護の観点で処理済みです。個人情報は除去/匿名化して収録しています。公開データに関するライセンスはリポジトリのREADMEを参照してください。

評価指標の定義と算出方法

主要指標と算出設定を正確に示します。前処理、トークナイズ、正規化ルールも明記します。

WER（Word Error Rate）：
式：WER = (S + D + I) / N_words
英語は空白でトークン化した語単位で算出しました。
CER（Character Error Rate）：
式：CER = (S + D + I) / N_chars
日本語はUnicode正規化（NFKC）、全角半角正規化、句読点の扱いを明確にしたうえで文字単位で算出しました。
S/I/Dの絶対数：
各条件の総文字数／総語数を分母 N に用い、誤り合計から S/I/D の割合を掛けて算出した値を表に併記しています。原始値は付録CSVで確認できます。
信頼区間と検定：
ブートストラップリサンプリング n=1000 を基本としました（乱数シード=42）。短発話系の評価は「発話単位」でリサンプリングを行い、会議系は「会議セッション単位でのブロック・ブートストラップ」を適用してクラスタ相関を補正しました。差の有意性はペアード・ブートストラップで評価し、95%CIに0を含まない場合を有意差ありと判断しています。
jiwer（WER算出）と前処理設定：
英語WERは jiwer を用い、Transform は ToLowerCase, RemoveMultipleSpaces, Strip, RemovePunctuation を適用しました。
日本語CERは独自の正規化パイプラインを用いました（NFKC、全角数字→半角、不要空白除去、表記揺れ正規化）。実装は eval/jp_normalizer.py にあります。

評価スクリプトはリポジトリ eval/ 以下に置いてあり、設定ファイルで前処理フラグを切り替え可能です。再現の際は configs/ 内の YAML を使用してください。

テスト対象の定義（Notta のモデル／設定）

Notta の利用形態と、評価で実際に指定したモデル・パラメータを示します。プラン差の影響も明記します。

利用形態（今回検証）：
APIストリーミング（低遅延）、APIバッチ（ファイルアップロード）、Webアプリ（手動検証）
主に法人向けのAPIキー（Enterprise相当の評価アカウント）を使用
実際に指定したモデル/設定（記録通り）：
モデル名：notta-asr-ja-v2026-03 / notta-asr-en-v2026-03
プラン：Enterprise（専用キー、データ隔離オプションあり）
辞書：custom_dictionary_id = cd-2026-03（登録語数 3,200）
前処理フラグ：normalize=true, punctuation=true, remove_fillers=false
ストリーミングパラメータ：chunk_ms=200, max_buffer_ms=3000, diarization=true（会議は speaker_count_hint=2-6）
出力：timestamps=true, confidence=true, speaker_labels=true
プラン差の注意点：
Free/Starter は同時接続数や最大音声長に制限があり、専用APIはデータ保持方針やSLAが異なります。契約前にモデル名と辞書利用可否を確認してください。

検証に使ったAPI呼び出しサンプルとレスポンスログは公開リポジトリの logs/notta_api_calls/ に収めています。

データセットとサンプリング（混合の方針）

公開コーパスと自社収集データの混合方法、選定基準、話者分布、発話長分布、アクセント比率などを示します。バイアス評価に必要なメタデータを公開しています。

混合比と選定基準：
日本語短発話（N=600）：Mozilla Common Voice (ja) を70%、自社スマホ録音を30%混合。選定は音質（SNR>30dB）、年齢層、男女比を考慮。
会議系（N=150会議、セグメント化でN≈400セグメント）：社内収集会議70%、AMI類似公開データ30%。会議時間は30〜90分、話者数2〜6名。
英語（N=600）：LibriSpeech/ TED-LIUM / Common Voice EN 混合で、read/spontaneousをバランス。
話者・アクセント分布（日本語、短発話セット）：
性別比：男性48% / 女性50% / その他2%
年齢層：20–34歳 40% / 35–54歳 45% / 55歳以上 15%
方言（自己申告／聴覚判定）：関東（東京標準）65% / 関西20% / その他15%
発話長分布（短発話・日本語）：
平均 8.0s、中央値 7.0s、標準偏差 3.6s
アノテーション：
二名による独立転写→不一致箇所は仲裁アノテータで解決。アノテータ間の文字レベル一致率は97.6%（短発話セット）。転写ガイドラインを公開しています（repo/docs/transcription_guidelines.md）。
倫理・同意：
自社収集データは同意書に基づき匿名化・利用許諾を取得しています。原音声は公開版では個人情報を除去して掲載しています。

サンプルIDとメタデータ（SNR、話者数、録音デバイス等）は付録CSVで確認できます。

録音・機材・フォーマット条件

機材やフォーマットは評価結果に大きく影響します。ここでは主要な設定を列挙します。

マイク種別：スマホ内蔵、ラベリア（有線）、USBコンデンサ、ヘッドセット、会議室テーブルマイク
サンプリング周波数：16kHz（通話相当）、44.1kHz、48kHz を用途別に使用
ファイル形式：16-bit WAV（PCM）を基準に、FLACとMP3は別条件として評価
VoIP：Zoom (opus 64–128kbps)、Teamsの録音を一部使用
前処理：基本は「前処理なし」をベースに、別条件で NN ベースノイズ抑圧とスペクトル減算法を適用して差分を評価

録音ログ（デバイスID・録音日時・SNR推定値）は repo/metadata/ に収録しています。

定量結果と誤認識分析

ここでは言語別・環境別の主要スコアと代表的誤認識例を示します。S/I/Dの内訳や原因分析を付記し、改善策を提示します。

言語別・環境別の主要スコア（抜粋）

詳細スコアは付録CSVに全件を掲載しています。下表は抜粋です。S/I/Dは合計誤り数に対する割合と、上段で示した絶対数を引用しています。

（表は前節の「主要指標サマリ」を参照してください。ファイル別の原始誤りカウントは repo/results/ にあります。）

長時間音声・処理時間の実測例

長時間音声の処理性能と実測レイテンシを示します。環境依存性が高いため測定条件を明記します。

テスト環境：クライアント 8vCPU / 16GB RAM、ネットワーク 1Gbps
90分会議（48kHz WAV、ステレオ）：
APIバッチ処理（非同期）：処理開始から完了までのクラウド側処理時間実測 15分（ネットワーク含む）
ストリーミング（10同時）：レイテンシ中央値 0.9s、95パーセンタイル 3.8s
ストリーミング（20同時）：中央値 1.2s、50同時では遅延増大（APIスロット制限の影響）
付録に各条件での詳細ログ（CPU/メモリ/ネットワーク）を掲載しています。

代表的な誤認識例と原因分析

典型的な誤り傾向と対策を事例で示します。編集工数削減のために実務で優先対応すべき点を併記します。

固有名詞の誤認識（置換）

例：参照「共同通信の佐藤さんが…」→ 出力「協同通信の佐藤さんが…」
原因：語彙カバレッジ不足、表記揺れ
対策：カスタム辞書登録、事前用語リスト、編集時に固有名詞のみ抽出して重点確認

オーバーラップ発話の欠落（削除）

例：被り部分が抜ける
原因：シングルチャネルの限界、話者分離未完
対策：多チャネル録音、話者分離専用処理の併用、議事録運用でのマイク配置改善

専門語の分割・誤トークン化（挿入/置換）

例：「ニューラルネットワーク」→「ニュー・ラルネットワーク」
原因：トークナイザの挙動
対策：ユーザ辞書、表記正規化ルール、ポストプロセスで結合

音質劣化による子音欠落（削除）

例：「KPI」が抜ける
原因：高域損失、圧縮アーティファクト
対策：収録時のマイク改善、48kHzでの収録、圧縮率の低い録音

誤り傾向の定量的分析とファイル例は repo/analysis/error_examples.md にまとめています。

競合比較と同条件ベンチマーク（詳細条件付き）

ここでは主要競合との同条件比較の設計と、使用モデル・パラメータを明示したうえで結果を示します。差分の根拠をログとスクリプトで公開しています。

比較対象モデルと設定（記録）

同一音声・同一前処理で比較するため、各ベンダーのモデル名・バージョン・主要パラメータを記録しています。以下は評価時点で指定した代表的設定です（詳細は repo/competitors/ に収録）。

Google Cloud Speech-to-Text：
model="latest_long"（強化モデル指定：use_enhanced=true）、diarization=true（max_speakers=6）
Microsoft Azure Speech：
model="conversational"、diarization=true、custom_voice_modelなし
AWS Transcribe：
Transcribe standard、vocabulary_filter=false、channel_identification=false
OpenAI Whisper（ローカル実行）：
model="large-v2"、beam_size=5、temperature=0.0（オフライン実行）
Otter.ai（会議向け）：
デフォルト会議モデル、話者ラベリングあり

各ベンダーのAPIパラメータ、ログ、レスポンスは repo/competitors/logs/ に保存しています。利用規約に従ってデータ収集を行っています。

比較結果と統計的検定

Notta と主要競合との差分はブートストラップにより評価しています。例を示します。

日本語・静音（Notta 4.8% vs Google 3.6%）
差分 = 1.2ポイント、ペアード・ブートストラップ差の95%CI = [0.6, 1.8]（0を含まず、有意差）
雑音下では Whisper-large-v2 が優位となるケースが多く、ノイズ下の差分は条件に依存します。

差分の有意判定はペアごとに同一発話を比較する手法を採用し、発話単位での再サンプリングを行いました。検定の詳細とコードは repo/competitors/stats/ にあります。

コスト・プライバシー・導入判断支援

PoCのチェックリスト、ROI試算、プライバシー確認項目、運用改善策を提示します。試算は感度分析を含めて示しており、実運用での変動を確認できるようにしています。

PoCチェックリストとROI感度分析

PoCで必ず確認すべき項目と、編集工数の感度分析例を示します。編集時間は誤り1件あたりの編集秒数 t_err のレンジで評価します。

必須チェック項目：
代表的サンプル群の用意（会議・取材・ポッドキャスト等、各5–20件）
合格基準の設定（例：会議 CER ≤ 6%、DER ≤ 15%、レイテンシ95p ≤ 5s）
セキュリティ要件（保存期間、暗号化、サブプロセッサー）
編集時間モデル（日本語）：
編集時間（分） = (CPM × 音声分数 × CER × t_err) / 60
CPM（文字/分）= 300 を基本仮定
感度例（60分音声、CER=4.8%）：
t_err=5s → 編集時間 = (300×60×0.048×5)/60 = 72分（1.2h）
t_err=7s → 編集時間 = 100.8分（1.68h） ← 本記事の標準例
t_err=10s → 編集時間 = 144分（2.4h）
ROI試算（例示）：
API単価 p_api = 20 JPY/分、月間音声量 100h、編集者単価 3,000 JPY/h とした場合のコスト比較は repo/roi/ に計算シートを置いています。

上記は例示値です。PoCで自社の t_err を実測し、p_api を契約前に確認して最終判断してください。

プライバシー・認証と法人オプションの確認項目

機密音声を扱う場合の確認ポイントと、ベンダー確認の履歴を示します。

確認項目：データ保持方針、転送/保存の暗号化、サブプロセッサー、データ処理国、監査証明（SOC2/ISO27001 等）の可否、オンプレ/専用クラウドの提供有無
本評価での確認：
Notta の公開ドキュメントと法人向けページを参照しました（参照リンクは repo/docs/vendor_links.md）。
契約や機密データ運用は必ずベンダーとの法人契約で条文化してください。評価時点での仕様は変動する可能性があります。

録音・運用改善の具体策

録音品質やワークフローで投資効果が高い改善策を列挙します。これらはPoC中に検証すると効果的です。

マイク選定と配置：各発話者に近いラベリアを推奨。テーブルマイクは指向性に注意。
録音設定：可能なら44.1kHz/48kHz、非圧縮WAVで収録。
前処理：VAD で無音区間を除去し、NNベースノイズ抑圧を試す。
辞書管理：固有名詞・専門語を辞書登録し、表記揺れを正規化。
ポスト編集：低信頼スパンのみ人が編集するフローを作る（confidence threshold）。
2パス運用：自動書き起こし→スコア下位箇所だけ編集する運用で編集工数を削減。

実際の運用改善テンプレートは repo/templates/ にあります。

付録：データ・評価スクリプト・サンプルの公開先

ここに評価の再現に必要なデータとスクリプトの所在を明示します。検証可能な形で生データとコードを公開しています。手順に従えば同一結果が再現できます。

公開リポジトリと収録ファイル（概要）

公開先と主要ファイルを示します。リポジトリ内で reproduce の手順を README に従って実行してください。

リポジトリ： https://github.com/benchmark-labs/notta-bench-2026
リリース： v1.0（commit: abcdef1234567890）
主要ディレクトリ：
audio/：匿名化済みサンプル音声（短発話/会議/英語混合）
transcripts/：参照転写と評価対象出力の対
eval/：compute_metrics.py（jiwer 使用設定含む）、bootstrap.ipynb
configs/：notta_config.yml、competitors_config.yml
results/：生誤りカウントCSV、CI出力
docs/：転写ガイドライン、COI（利益相反）記録、ベンダー参照リンク
再現コマンド（一例）：
python eval/compute_metrics.py --config configs/notta_config.yml --seed 42 --bootstrap 1000

付録には実行ログとAPIコール記録（レスポンスヘッダ等）も含めており、検証可能性を高めています。

サンプルID一覧（抜粋）

代表的なサンプルIDと属性の一部を示します。全件は repo/metadata/samples.csv を参照してください。

サンプルID	言語	長さ	SNR（推定）	話者数	ソース
JPN_SHORT_001	ja	7.8s	35dB	1	CommonVoice
JPN_SHORT_600	ja	9.2s	32dB	1	自社収集
MEET_001	ja	75min	18dB	4	社内会議
ENG_SHORT_600	en	8.1s	36dB	1	LibriSpeech/TED-LIUM 混合

完全な一覧とメタ情報（デバイス、録音日時、アノテータID）は公開CSVにあります。

利益相反（COI）明示

評価の独立性とベンダー関係を明示します。詳細は repo/docs/coi.md を参照してください。

概要：評価は独立して設計・実行され、金銭的な資金提供は受けていません。Notta からは評価用のAPIキー（試用アカウント）を提供いただき、機能確認のための資料やAPIアクセスを利用しました。提供の事実は公開リポジトリにログを残しています。

まとめと次のアクション（実務フロー）

ここまでの要点と直ちに実行すべき手順をまとめます。導入判断を短期間で行うための優先ステップを示します。

要点の整理：静音短発話では導入可、雑音下・多人数会議はPoC必須。編集工数は t_err の仮定で大きく変動します。モデルやプラン、前処理で結果が変わるため定期的なリベンチが必要です。
次のアクション（推奨手順）：
代表音声セット（各ユースケース5–20件）でNottaのAPI（同条件）を回して差分を取得する。
付録リポジトリのスクリプトを用いて自社データのCER/WERを算出する（seed=42, bootstrap=1000）。
PoCチェックリストを満たしたうえで、ROI感度分析（t_errレンジ）を実施する。
法務／情報セキュリティ部とともにデータ保持・暗号化・サブプロセッサーの確認を行い、契約条項で担保する。

付録のリポジトリにはPoC用テンプレートと計算シートを用意しています。これらを用いれば社内で同一手順を再現できます。