Monthly Archives: 10月 2023

PLaMo-13B, Qwen-14Bの機械翻訳性能

日本語が扱える大規模言語モデルの発表が相次いでいる。以前取り上げたQwenについても前回検証時より大規模なモデルが公開されていた。

今までと同様、上記の機械翻訳性能を検証してみた。性能評価に使用したデータは以前(DAMO PolyLM-13Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))と同じ。検証環境は環境はColab Pro+を用いた。PLaMo-13Bが8bitで読み込み[1]、Qwen-14Bはfloat16で読み込んだ。前回同様、日本語を多く含むPLaMoについて指示を日本語にしたプロンプトも試している[2]。

本件の検証ではQwen-14Bは回答部分を手で抽出はしておらず、PLaMo-13Bは手で回答を抽出した。PLaMo-13Bはinstruction tuning前なこともあり制御が難しい事、PLaMo-13Bの回答部分をルール抽出するコードを書く時間が無かった事が理由である。

モデル・条件zero shot1 shot [3]
GPT-3.5 [4]26.737.0
PLaMo-13B [5] / 8bit読み込み / 日本語指示4.823.1
PLaMo-13B [5] / 8bit読み込み / 英語指示 5.218.3
Qwen-14B-Chat [6]22.935.1
【参考】 Qwen-7B-Chat [7]14.523.3
PLaMo-13B(事前学習済みモデル・未チューニング), Qwen-14B-Chat, GPT-3.5-TURBO-16KのBLEU

結果

PLaMo-13Bはチューニング前の状態であるからか制御が難しい。特に長文で回答部分のみを出力させる事が簡単ではない。日本語指示、英語指示の差や出力からは「機械翻訳」というタスクを十分に認識させられていないように見受けられた。これはモデルの問題ではなくプロンプト作成側(筆者側)の問題であるように思う。チューニングされたモデルが公開されたら再度試してみたいところ。タスク認識がうまくいっている事例ではまずまずの翻訳文が出てきていたので表の数値は参考程度。個人的には期待大。

Qwen-14Bの機械翻訳性能は高くLlama-2 13B(回答そのままだと33.1、手での抽出を行って35.1)以上である。Qwen-7Bと比べて大きくスコアを伸ばしており機械翻訳タスクにおけるパラメータサイズの重要性が示唆される結果になっている[8]。

PLaMo-13BはApache License v2.0と非常に使いやすいライセンス。今後の発展に期待したい。おそらく早期にinstruction tuning後バージョンが公開されると思われるため、その時にまた試行を行いたい[9]。

Qwenは独自ライセンスではあるが「Our code and checkpoints are open to research purpose, and they are allowed for commercial purposes. Check LICENSE for more details about the license. If you have requirements for commercial use, please fill out the form to apply.」と研究目的での制約は強くない。周辺ツールが整備されており使いやすい印象を受ける[10]。

脚注

[1] PLaMo-13Bの処理時間が非常に長かったため16bitでの読み込みをあきらめた。
[2] 前回と異なり相応の効果が見えた。
[3] 以前と同じでOpenICL、TopkRetrieverにより取得
[4] gpt-3.5-turbo-16k-0613
[5] pfnet/plamo-13b · Hugging Face
[6] Qwen/Qwen-14B-Chat · Hugging Face
[7] Qwen/Qwen-7B-Chat · Hugging Face
[8] Llama-2-7b-chat-hf: 20.1 (回答を手動抽出して 23.9)、Llama-2-13b-chat-hf: 33.1 (回答を手動抽出して 35.1)とLlama-2もほぼ同傾向となっている。
[9] 機械翻訳を重視したバージョンを自分でやるかもしれない(やりたい)が、時間がとれなさそう。。。
[10] 開発チームはモデルの評価や周辺ツールの開発などにもかなりのリソースを投入している。研究だけでなく実用化でも非常に競争が激しくなっている。