US2022310080(GOOGLE LLC [US])
When the utterance-level confidence score 350 fails to satisfy (e.g., is less than) the confidence threshold (e.g., decision block 450 is “No”),
【0070】
発声レベルコンフィデンススコア350がコンフィデンス閾値を満足していない場合(例えばコンフィデンス閾値未満である場合)(例えば決定ブロック450が「ノー」である)、
then the confidence-based routine rejects the transcription 204 generated by the first speech recognizer 200 and passes the audio data 202 to the second speech recognizer 402 for processing to re-transcribe the utterance 12 .
コンフィデンスベースのルーチンは、第1の音声認識装置200によって生成された表現形式204を拒否し、発声12を再転記する処理のために音響データ202を第2の音声認識装置402に引き渡す。
The transcription 204 generated by the second speech recognizer 402 may be passed back to the user device 110 and/or to the downstream NLU module for interpretation.
第2の音声認識装置402によって生成された表現形式204はユーザデバイス110に戻すことができ、および/または翻訳のために下流側のNLUモジュールに戻すことができる。
In examples where the first speech recognizer 200 is local and executing on-device 110 and the second speech recognizer 402 is server-side and executing on a remote server 410 ,
第1の音声認識装置200が局所で、かつ、デバイス110上で実行し、また、第2の音声認識装置402がサーバ側で、かつ、遠隔サーバ410上で実行する例では、
the confidence-based routine causes the user device 110 to transmit the audio data 202 to the remote server 410 via a network (not shown) so that the second speech recognizer 402 executing thereon can transcribe the utterance 12 .
コンフィデンスベースのルーチンは、遠隔サーバ410上で実行する第2の音声認識装置402が発声12を転記することができるように、ユーザデバイス110に、ネットワーク(図示せず)を介して音響データ202を遠隔サーバ410に送信させる。
The second speech recognizer 402 may leverage a large language model trained on large-scale language model training data(*large-scaleはdataに係るのでは?)making the second speech recognizer 402 more suitable for recognizing proper nouns or less-common words not present in the training data used to train the first speech recognizer 200 .
第2の音声認識装置402は、大規模言語モデル訓練データ上で訓練された大型言語モデルを利用して、第2の音声認識装置402を適切な名詞の認識により適したものにすることができ、あるいは第2の音声認識装置402を、第1の音声認識装置200を訓練するために使用される訓練データには存在していない共通ワードがより少ないものにすることができる。
US9619465(GOOGLE INC [US])
[0053] The translation quality of a statistical machine translation (SMT) system can generally be improved by increasing the size of either or both of the translation model (TM) and the language model (LM) of the system.
【0038】
統計的機械翻訳(SMT)システムの翻訳品質は、一般的に、システムの翻訳モデル(TM)及び言語モデル(LM)のいずれか又は双方のサイズを大きくすることによって、改善し得る。
Hence, the system 200 may have large translation and language models that need partition in practical implementations in part due to the limited storage capacity in a single machine.
従って、システム200は、部分的には、単一の機械における限定された記憶容量のために、実用的な実施例では、区画を必要とする大きな翻訳及び言語モデルを有し得る。
As an example, large language models for English can be derived from about 200 billion words to 8 trillion words and are from about 1 Terabyte to 4 Terabytes in size.
一例として、英語用の大規模言語モデルは、約2千億語乃至8兆語から導出することができ、また、サイズが、約1テラバイト乃至4テラバイトである。
A large TM may be on the order of magnitude of 200 million words or larger. As more documents are made available on line, the LM may increase further in size.
大きなTMは、2億語以上の大きさのオーダであってよい。より多くの文書がオンラインで利用可能になるにつれて、LMは、サイズが、更に増大し得る。
Hence, partition provides an effective approach to high-quality MT systems using the distributed machine processing.
従って、区画は、分散型機械処理を用いて、高品質MTシステムへの効果的な手法を提供する。
Replication and load balancing can also be used in such DMT systems and other MT systems based on large language and translation models.
複製及び負荷分散は、大きな言語及び翻訳モデルに基づき、そのようなDMTシステム及び他のMTシステムにも用い得る。
※コメント投稿者のブログIDはブログ作成者のみに通知されます