
[英]Training / using OpenAI GPT-3 for translations
我正在尝试使用 OpenAI 将我的产品描述从一种语言翻译成其他一些语言(EN、DE、CZ、SK、HU、PL、SI...)。 翻译,尤其是对 SK/CZ/HU/PL 语言的翻译(主要是语法上)非常糟糕(使用text-davinci-003模型)。 我有一个想法——我已经有几千种类似的产品被专业翻译人 ...
[英]Training / using OpenAI GPT-3 for translations
我正在尝试使用 OpenAI 将我的产品描述从一种语言翻译成其他一些语言(EN、DE、CZ、SK、HU、PL、SI...)。 翻译,尤其是对 SK/CZ/HU/PL 语言的翻译(主要是语法上)非常糟糕(使用text-davinci-003模型)。 我有一个想法——我已经有几千种类似的产品被专业翻译人 ...
[英]loss is drastically decreasing whereas BLEU score stays at zero during training of the seq2seq RNN for machine translation
我正在尝试使用 LSTM 训练用于机器翻译的 RNN。 然而,第一批的 BLEU 减少到零,并在所有训练期间保持在这个水平。 与此同时,损失正在急剧减少。 可能是什么问题? **代码: ** 训练,在开发数据集和损失上评估的 BLEU 分数图 训练,在开发数据集和损失上评估的 BLEU 分数图我认 ...
[英]Early stopping based on BLEU in FairSeq
我的目标是在 FairSeq 中训练翻译 model 时使用 BLEU 作为早停指标。 按照文档,我将以下 arguments 添加到我的训练脚本中: 我收到以下错误: 系统信息: fairseq版本:0.10.2 手电筒:1.10.1+cu113 更多细节: 当我尝试 f.netune M2M1 ...
[英]Do huggingface translation models support separate vocabulary for source and target?
到目前为止我看过的每个例子似乎都在源语言和目标语言之间使用共享词汇表,我想知道这是否是 Huggingface 模型的硬编码约束,或者我的误解,或者我只是没有看在正确的地方了吗? 举一个随机的例子,当我在这里查看文件时, https://huggingface.co/Helsinki-NLP/op ...
[英](Mis)-using open.ai whisper for text-to-text translation
我注意到使用 openai whisper 语音到文本库转录多种语言的语音有时会准确识别另一种语言的插入,并会提供预期的 output,例如:八十多个人 is the same as 八十几个人. So 多 and 几 are interchangeable and they can both me ...
[英]Link Google automl translation custom model with glossary
我已经使用 Google automl 构建了自定义翻译 model 和词汇表。 这导致了两种不同的路径,一种用于使用 model,另一种用于词汇表。 我想知道是否可以将 model 和词汇表链接起来,以获得将模型+词汇表与不同的翻译工具(在我的例子中是 Wordbee)连接起来的单一路径。 我现在 ...
[英]Which BLEU smoothing function is commonly used for Image Captioning evaluation?
我正在图像字幕领域研究和运行一些实验,我无法完全弄清楚的一件事是我何时必须评估我训练的模型:我应该使用哪些 NLTK 平滑函数。 当我尝试在没有 Smoothin function 的情况下运行 BLEU 测试时,我收到一条警告告诉我这样做,但其中有 7 个。 由于没有 Image caption ...
[英]How to perform word-level alignment between a sentence and its translation?
我想在多语言翻译设置中对齐源句和目标句。 从概念上讲,我想对示例性英语源句和德语目标句执行以下操作: 字级 alignment 将是:0-0 1-1 2-2 3-3 4-7 5-4 6-5 7-6 或者在源句和目标句长度不同的情况下: 字级 alignment 应该类似于: 0-0 1-1 2-2 ...
[英]Stream audio from videoconference to azure speech translate using python
I am using a Mac and am trying to capture Zoom audio output as input for Azure speech-to-translation model using python and Blackhole. 我已将缩放设置为 并将 A ...
[英]Choose vocabulary size of tokenizer
我有一个数据集,其中包含大约 150,000 个用于机器翻译任务的句子对。 我必须从源语言和目标语言的数据集构建一个标记器。 我应该为分词器选择词汇量吗? 谢谢 ...
[英]How do we generate the first target words in machine translation?
我正在学习使用变压器的机器翻译任务。 据我所知,变形金刚 model 根据源句的前一个词预测目标句的下一个词。 但是,在 MarianMT model(或 T5)中,我发现它的标记器没有句子开头标记(<cls> 或 <s>)。 我认为需要一个标记来开始预测目标句子中的第一个 ...
[英]How to inspect values in binarized FairSeq datasets?
运行fairseq-preprocess脚本会生成二进制文件,其中包含 integer 个索引,对应于字典中的令牌 ID。 当我不再拥有原始标记化文本时,探索二值化数据集的最简单方法是什么? 该文档没有详细说明如何加载数据集以进行调试。 ...
[英]What are the differences between BLEU score and METEOR?
我试图理解评估机器翻译评估分数的概念。 我了解 BLEU 分数是如何达到的。 它查看不同的 n-gram,如 BLEU-1、BLEU-2、BLEU-3、BLEU-4,并尝试与人类书面翻译相匹配。 但是,我真的无法理解 METEOR 分数用于评估 MT 质量。 我正在尝试直观地理解基本原理。 我已经 ...
[英]Find translations of a given word in the corpus e.g. by machine learning, word2vec, text mining
我正在使用这个线程来获得一些想法并找到一些可能性。 我有大约 1000 篇讲道及其翻译成另一种语言。 讲道的长度是不同的。 这些是宗教布道文本。 由于领域(宗教),有很多词可以根据上下文以不同的方式使用。 同一个词可以变成不同的意思。 有没有办法,我可以“以编程方式”获得目标语言中给定单词的翻译? ...
[英]How to strip a certain piece of text from each line of a text file?
我已经下载了带有英语-德语句子对的制表符分隔的 tatoeba 数据集,以在其上训练 NMT model。 不幸的是,每一行都以各种附加信息结尾: 如何剥离文本文件中每一行第二句之后的部分? 我尝试在 python 中这样做: ...但这没有用。 我正在寻找的是一个看起来像这样的文件: 对于任何 ...
[英]What is the difference between MarianMT and OpusMT?
我目前正在比较各种预训练的 NMT 模型,不禁想知道 MarianMT 和 OpusMT 之间的区别是什么。 根据 OpusMT 的Github ,它基于 MarianMT。 然而,在Huggingface 转换器实现中,所有预训练的 MarianMT 模型都以“Helsinki-NLP/opus ...
[英]Creating a Neural Machine Translation basics
我目前正在进行一个项目设计,我将创建一个程序\/模型来将我的母语方言翻译成英语,我想问在创建我的项目时有什么书或任何东西可以推荐给我。" ...
[英]using gpu with simple transformer mt5 training
mt5 微调不使用 gpu(volatile gpu utill 0%) 嗨,我正在尝试使用 mt5-base 模型对 ko-en 翻译进行微调。 我认为 cuda 设置是正确的(cuda available is True)但是在训练期间,除了首先获取数据集(非常短的时间)之外,训练集不使用 ...
[英]Tensorflow unicode text encoding-decoding
我刚开始使用西里尔文。 文本预处理后无法正确打印俄文文本。 如何在文本加载期间设置编码? 输出 1: 创建数据集: 输出 2: 你能告诉我这里打印俄文有什么问题吗? 英文文本打印正常。 ...
[英]How to specify a forced_bos_token_id when using Facebook's M2M-100 HuggingFace model through AWS SageMaker?
模型页面提供了该模型应该如何使用的代码片段: from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer hi_text = "जीवन एक चॉकलेट बॉक्स की तरह है।" chinese_t ...