最近、日英対応大規模言語モデルや日本語が扱える多言語な大規模言語モデルが複数の会社・研究機関から公開された。
- rinna、日英バイリンガル大規模言語モデルをオープンソースで公開|rinna株式会社
- Alibaba rolls out open-sourced AI model to take on Meta’s Llama 2 | Reuters
- 日本語言語モデル「Japanese StableLM Alpha」をリリースしました — Stability AI Japan
- 東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開 ―オープンソースの日本語大規模言語モデルで最高水準―|プレスリリース | UTokyo-Eng (u-tokyo.ac.jp)
今までと同様、上記の機械翻訳性能を検証してみた。性能評価に使用したデータは以前(DAMO PolyLM-13Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))と同じ。検証環境は環境はColab Pro+を用いfloat16で読み込んだ。Promptも以前と近いものを使っているが日本語が主体のLLMと思われるrinna、StableLM Alpha、Weblabについては指示を日本語にしたプロンプトも試している[1]。
上記4種類のモデルを検証してみたがJapanese StableLM Alphaシリーズの「Japanese-StableLM-Base-Alpha-7B」[2]「Japanese-StableLM-Instruct-Alpha-7B」[3]、rinna社の日英バイリンガル大規模言語モデル「bilingual-gpt-neox-4b-instruction-sft」[4]は十分な品質が達成できなかったため表には入れていない。
本件の検証ではLLMの出力から手動で回答を抽出することは行っていない。多くの場合ルールベースで十分だった事と手動抽出が必要な場合はそもそもの翻訳品質が悪く回答抽出に意味がなかった。
モデル・条件 | zero shot | 1 shot [5] |
GPT-3.5 [6] | 26.7 | 37.0 |
Qwen-7B-Chat [7] | 14.5 | 23.3 |
Weblab-10B weblab-10b-instruction-sft [8] | 11.5 | 29.6 |
結果
以前の検証でほぼ同条件&1 shotの性能はLlama-2-7b-chat-hf: 20.1、Llama-2-13b-chat-hf: 33.1、PolyLM-13B: 21.5だった[9]。パラメータ数を考えるとQwen-7B、Weblab-10Bともに相応の機械翻訳性能を持っていそうである。
目検してみるとQwen-7Bは日本語の語彙が不足している印象、Weblab-10Bはhallucinationが多めの印象を受けた。機械翻訳はパラメータサイズで性能が大きく変わるので13B程度のサイズに合わせた検証を行ってみたいなと思わなくはない。
ライセンスはQwen-7BがLlama 2に近い独自ライセンス(Qwen-7B/LICENSE at main · QwenLM/Qwen-7B · GitHub)、Weblab-10BはCC BY-NCと研究用には問題なく使えるものとなっている[10]。
様々な研究機関がモデルを公開してくれるとその差異から分かることもあり非常にありがたい。Qwen-7BはMMLUはじめ様々なベンチマークの結果、Weblab-10BはGitHub – Stability-AI/lm-evaluation-harness: A framework for few-shot evaluation of autoregressive language models.を用いたJGLUEでの評価結果を載せてくれているのがうれしい。様々なタスクにおける性能はパラメータサイズや最大シーケンス長より重要な情報で可能な限り公開してもらえるとありがたいなと思う[11]。
脚注
[1] 正直、大幅な性能向上という効果は見られなかった。1 shotではほぼ効果が無く、zero shotでは日本語で指示を与えた方が良いようにも見えたがそもそものBLEUが低いため参考にはならない印象。なお、Weblab-10Bについてはfew shot部分を公式の「\n\n### 指示:\n{} \n\n### 応答:\n{}」に合わせるのは効果がありそうだった。
[2] stabilityai/stablelm-base-alpha-7b · Hugging Face
[3] stabilityai/japanese-stablelm-instruct-alpha-7b · Hugging Face
[4] rinna/bilingual-gpt-neox-4b-instruction-sft · Hugging Face
[5] 以前と同じでOpenICL、TopkRetrieverにより取得
[6] gpt-3.5-turbo-16k-0613
[7] Qwen/Qwen-7B-Chat · Hugging Face
[8] matsuo-lab/weblab-10b-instruction-sft · Hugging Face
[9] 回答を手動抽出した場合の性能はLlama-2-7b-chat-hf: 23.9、Llama-2-13b-chat-hf: 35.1、PolyLM-13B: 25.8
[10] Qwenは商用利用可能そうだが「If you are commercially using the Materials, and your product or service has more than 100 million monthly active users」や「You can not use the Materials or any output therefrom to improve any other large language model (excluding Tongyi Qianwen or derivative works thereof).」との記載がある。また、HuggingFaceのページには「If you have requirements for commercial use, please fill out the form to apply.」というフォームが用意されている。Weblab-10BはCC BY-NCなので商用利用不可。
[11] モデルが公開されていれば検証はできるが正しく検証できているかは謎な部分がある。特に「それぞれのモデルで最適なプロンプト」「Few shot事例の与え方」は使ったデータにも依存するわけで開発元の公式な情報があると良いなとは思う。