IBM Watson Blog

2024/9/26 追記:Watson Speech to Text 新しい日本語モデル(Large Speech Model)のリリース

記事をシェアする:

2024/9/26追記:Watson Speech to Textの新しいモデルであるLarge Speech Modelが、日本語モデルを含めて正式にリリースされました。従来のモデルを上回る高速・高精度の最新モデルを是非ご活用ください。
https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-models-large-speech-languages&locale=ja

なお、日本語前世代モデルを継続してご利用いただいているお客様に対する前世代モデルのサービス終了時期につきまして、現時点では未定となっております。

2024/1/24追記:Watson Speech to Textの日本語前世代モデルを既にご利用いただいているお客様への追加のご案内です。現在日本語次世代モデルをさらに改良したLarge Speech Modelの開発を行っております。
https://www.ibm.com/blog/ibms-new-watson-large-speech-model-brings-generative-ai-to-the-phone/

クローズドベータという位置付けで評価を進めており、正式リリースについては時期を含めて現時点では未定です。そのため既に日本語前世代モデルをご利用いただいているお客様に対するサービス終了時期につきましても現時点で未定となっており新しいモデルのリリース後に改めてご案内いたします。

 

2023/7/19 追記:Watson Speech to Text の日本語前世代モデルを既にご利用いただいているお客様につきまして、日本語前世代モデルのサービス終了予定として先にお伝えしておりました2023年12月31日以降も、日本語前世代モデルを引き続きご利用可能とさせていただくこととなりました。
これは、日本語次世代モデルの改良のために、少なくとも2024年1-3月期まで期間を必要とすることによるものです。
日本語前世代モデルを既にご利用いただいているお客様に対するサービス終了時期につきましては、改良した日本語次世代モデルをリリース後に、改めてご案内いたします。

 

2023/5/8 追記:日本語前世代モデルは2023年12月31日にサービス終了となります。

 

Watson Speech to Text  新しい日本語次世代テレフォニーモデルをリリースしました

このサービスは、日本語の次世代テレフォニー・モデル ( ja-JP_Telephony) を提供します。新しいモデルは、低遅延(Low latency)をサポートし、一般出提供されています。 また、言語モデルのカスタマイズと文法もサポートしています。 次世代モデルと低遅延について詳しくは、以下を参照してください。

 

次世代英語モデルと日本語モデルの言語モデル・カスタマイズの向上

本サービスでは、次世代の英語モデルおよび日本語モデルの言語モデル・カスタマイズが改善されました。

  • en-AU_Multimedia
  • en-AU_Telephony
  • en-IN_Telephony
  • en-GB_Multimedia
  • en-GB_Telephony
  • en-US_Multimedia
  • en-US_Telephony
  • ja-JP_Multimedia
  • ja-JP_Telephony

 

モデルに対する可視の改善: 新しいテクノロジーにより、新しい英語モデルと日本語モデルのデフォルトの動作が改善されます。 特に、新しいテクノロジーは、以下のパラメーターのデフォルトの動作を最適化します。

  • これらのモデルの新規バージョンに基づくカスタム・モデルのデフォルトの customization_weight は、 0.2 から 0.1に変更されました。
  • これらのモデルの新しいバージョンに基づくカスタム・モデルのデフォルトの character_insertion_bias0.0のままですが、モデルは音声認識のためのパラメーターをあまり必要としない方法で変更されています。

 

新しいモデルへのアップグレード: 改善されたテクノロジーを利用するには、新しいモデルに基づくすべてのカスタム言語モデルをアップグレードする必要があります。 これらの基本モデルのいずれかの新規バージョンにアップグレードするには、以下を実行します。

  1. モデルに含まれるカスタムの単語、コーパス、または文法を追加または変更して、カスタム・モデルを変更します。 変更を加えると、モデルは ready 状態に移行します。
  2. POST /v1/customizations/{customization_id}/train メソッドを使用して、モデルをリトレーニングします。 リトレーニングにより、カスタム・モデルが新しいテクノロジーにアップグレードされ、モデルが available 状態に移行します。 注: POST /v1/customizations/{customization_id}/upgrade_model メソッドを使用して、カスタム・モデルをこれらの新しい基本モデルの 1 つにアップグレードすることはできません。

 

新しいモデルの使用: 新しい基本モデルにアップグレードした後、音声認識の customization_weight パラメーターと character_insertion_bias パラメーターに特に注意して、アップグレードしたカスタム・モデルのパフォーマンスを評価することをお勧めします。 カスタム・モデルをリトレーニングする場合は、以下のようにします。

  • カスタム・モデルは、カスタム・モデルに対して新しいデフォルトの customization_weight である 0.1 を使用します。 カスタム・モデルに関連付けたデフォルト以外の customization_weight は削除されます。
  • カスタム・モデルでは、最適な音声認識のために character_insertion_bias パラメーターを使用する必要がなくなった可能性があります。

言語モデルのカスタマイズの改善により、高品質の音声認識においてこれらのパラメーターの重要性が低くなります。

  • これらのパラメーターにデフォルト値を使用する場合は、アップグレード後もデフォルト値を使用し続けます。 デフォルト値は、音声認識に最適な結果を提供し続ける可能性があります。
  • これらのパラメーターにデフォルト以外の値を指定する場合は、アップグレード後にデフォルト値を試してください。 カスタム・モデルは、デフォルト値を使用した音声認識に適している場合があります。

これらのパラメーターに異なる値を使用すると、カスタム・モデルでの音声認識が改善される可能性があると考えられる場合は、音声認識を改善するためにパラメーターが必要かどうかを段階的に変更してみてください。

注: 現時点では、言語モデルのカスタマイズの改善は、前述の次世代の英語または日本語の基本言語モデルに基づくカスタム・モデルにのみ適用されます。 時間の経過とともに、他の次世代言語モデルにも改善が提供されます。

詳細情報: アップグレードおよびこれらのパラメーターを使用した音声認識について詳しくは、以下を参照してください。

 

問題の修正: 文法ファイルで数字のストリングが正しく処理されるようになりました。

問題点の修正: 文法を使用すると、より長い数字ストリングが正しく処理されるようになりました。 以前は、認識を完了できなかったか、誤った結果が返されていました

 

重要: 前世代モデルはすべて非推奨になり、2023 年 7 月 31 日にサービスを終了します。

2023/5/8追記:日本語前世代モデルは2023年12月31日にサービス終了となります。

すべての前世代モデル(日本語モデルを含む)は非推奨になり、 2023 年 7 月 31 日にサービス終了になります。 その日に、すべての前世代モデルがサービスおよび資料から削除されます。 2023 年 7 月 31 日までに同等の次世代モデルに移行する必要があります。

注: 前世代の jp-JP_BroadbandModel がサービスから削除されると、次世代の jp-JP_Multimedia モデルが音声認識要求のデフォルト・モデルになります。

 

リリースノート:https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-release-notes&locale=ja#speech-to-text-15february2023

More IBM Watson Blog stories

敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載

IBM Data and AI, IBM Partner Ecosystem

目次 販売管理システムを知名度で選んではいないか? 電子取引データの保存完全義務化の本当の意味 ふくろう販売管理システムは「JIIMA認証」取得済み AIによる売上予測機能にも選択肢を 「眠っているデータの活用」が企業の ...続きを読む


セキュリティー・ロードマップ

IBM Cloud Blog

統合脅威管理、耐量子暗号化、半導体イノベーションにより、分散されているマルチクラウド環境が保護されます。 2023 安全な基盤モデルを活用した統合脅威管理により、価値の高い資産を保護 2023年には、統合された脅威管理と ...続きを読む


量子ロードマップ

IBM Cloud Blog

コンピューティングの未来はクォンタム・セントリックです。 2023 量子コンピューティングの並列化を導入 2023年は、Qiskit Runtimeに並列化を導入し、量子ワークフローの速度が向上する年になります。 お客様 ...続きを読む