在GitHub上建立你的分支

模型和流程

预先训练的模型

Available models trained using OpenNMT (These are all currently for the Lua version of the library. PyTorch models coming soon.)

即将推出的模型有:

指导和方法

在论坛中,我们为如何训练以上和其它模型提供 指导

Additonally, we plan on posting the scripts for each of our training recipes.

评估

本页用 OpenNMT 和其他系统生成模型来评估开源NMT系统的训练结果。 如果您有强竞争力的模型 - 请通过 info@opennmt.net 与我们联系,并提供必要的信复制息,我们将在这个“名人堂”为您的系统注册。

英语 -> 德语

创建人/时间 语料库的制备 训练工具 训练参数 服务器的详情 训练时间/存储 得分 模型
2016/20/12
Baseline
WMT15 - Translation Task
+ Raw Europarl v7
+ Common Crawl
+ News Commentary v10
OpenNMT aggressive tokenization
OpenNMT preprocess.lua default option (50k vocab, 50 max sent, shuffle)
OpenNMT 111f16a default options:
2 layers, RNN 500, WE 500, input feed
13 epochs
Intel(R) Core(TM) i7-6800K CPU @ 3.40GHz, 256Gb Mem, trained on 1 GPU TITAN X (Pascal) 355 min/epoch, 2.5Gb GPU usage valid newstest2013:
PPL: 7.19
newstest2014 (cleaned):
NIST=5.5376
BLEU=0.1702
692M here

WMT15 的训练和验证数据在 这里 供您参考。

德语 -> 英语

创建人/时间 语料库的制备 训练工具 训练参数 服务器的详情 训练时间/存储 得分 模型
2016/20/12
Baseline
WMT15 - Translation Task
+ Raw Europarl v7
+ Common Crawl
+ News Commentary v10
OpenNMT aggressive tokenization
OpenNMT preprocess.lua default option (50k vocab, 50 max sent, shuffle)
OpenNMT 111f16a default options:
2 layers, RNN 500, WE 500, input feed
13 epochs
Intel(R) Core(TM) i7-6800K CPU @ 3.40GHz, 256Gb Mem, trained on 1 GPU TITAN X (Pascal) 346 min/epoch, 2.5Gb GPU usage valid newstest2013:
PPL: 8.98
newstest2014 (cleaned):
NIST=6.4531
BLEU=0.2067
692M here

WMT15 的训练和验证数据在 这里 供您参考。

多路 - FR,ES,PT,IT,RO<>FR,ES,PT,IT,RO

继 Toward Multilingual Neural Machine Translation with Universal Encoder and Decoder (Thanh-Le Ha et al, 2016)Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation (Johnson et al, 2016) 之后,我们训练了一个多路引擎用于法文、西班牙文、葡萄牙文、意大利文和罗马尼亚文。

所用的语料库是完全对应的 – 但每种语言只有200,000个句子 – 如需已经过测试有效的切分语料库,请点击 这里。

创建人/时间 语料库的制备 训练工具 训练参数 服务器的详情 训练时间/存储 得分 模型
2017/07/01
Baseline
OpenNMT aggressive tokenization with BPE 32k OpenNMT 481b784 4 layers, RNN 1000, WE 600, input feed, brnn
13 epochs
Intel(R) Core(TM) i7-5930K CPU @ 3.50GHz, 96Gb Mem, trained on 1 GPU 1080 GeForce (Pascal) 887 min/epoch, 6Gb GPU usage (described in forum) 2.9G (GPU) here

英语汇总

创建人/时间 语料库的制备 训练工具 训练参数 服务器的详情 训练时间/存储 得分 模型
2016/21/12
Baseline
Gigaword Standard OpenNMT 111f16a default options:
2 layers, RNN 500, WE 500, input feed
11 epochs
Trained on 1 GPU TITAN X   Gigaword F-Score R1: 33.13 R2: 16.09 RL: 31.00 572M here or cpu release