mBERTなどによる多言語文埋め込みを,意味情報の埋め込みと言語情報の埋め込みに分離する方法を提案.異なる言語間で意味類似性を正確に計算することが動機.
提案法では,翻訳のデータが(i)文対は異なる言語・同じ意味,(ii)原言語側もしくは目的言語側のみでは同じ言語・異なる意味,である性質を利用.
既存の文埋め込みを2種類の線形層に独立に通して,それぞれの出力が意味情報と言語情報を表すのだと思うことにする:
$e = \mathrm{Encoder}(x)$
$\hat{e}_M = \mathrm{MLP}_M(e)$
$\hat{e}_L = \mathrm{MLP}_L(e)$.
学習時の損失は3種類.
推論時に意味類似性を計算するときには,意味情報の空間で単にコサイン類似度を考えればいい.
実験では翻訳の品質推定タスク(WMT20 QE)と多言語の意味類似性を測定するタスク(SemEval-2017 Cross-lingual STS)を実施.多くの場合で,意味と言語を分離したほうが意味類似性を正確に計算できた.
感想:実装が楽だし,直感的にも上手くいきそうな手法に感じた.意味情報を正確に獲得するために言語情報を別の空間に追い出しているようなイメージなので,他のタスクでも埋め込みから”追い出したいもの”があれば使えそう.
文法誤り訂正のための参照なし評価尺度としてScribendi Scoreを提案.
提案法の入力は誤り文(src)と訂正文(pred).出力は訂正文の評価値であり,-1, 0, 1のいずれかの整数値.
評価のアルゴリズムは2段階.論文にもある擬似コードが分かりやすい.
def Scribendi_score(src, pred):
if pred == src:
return 0 # 同じなら0
if perplexity(src) <= perplexity(pred):
return -1 # perplexityについてpredの方が悪ければ-1
else:
trs = token_sort_ratio(src, pred)
ldr = lev_dist_ratio(src, pred) # 文字レベル編集距離
if max(trs, ldr) >= 0.8:
return 1
else:
return -1
推論時には,所望の訂正の度合いに応じて<1>から<5>までのいずれかの記号をsourceに付与して入力する.
[1,1,4,4,5]だとすると, そのDifficultyは[0.06, 0.13, 0.40, 0.66, 1]となる.またタイムステップ $1\leq t \leq 5$ の範囲で,Competenceを雑に $competence(t)=0.2t$ とかに設定するならば,最初のタイムステップには0.2以下のdifficultyのサンプル(先頭から2つ分)が使われ,次には0.4以下のdifficultyのサンプル(先頭から3つ分)が使われ…,という具合.編集距離が短いほど簡単であるとする.言い換えは少量の編集で済むものから大きく書き換えを要するものまで存在する.編集の度合いが小さい事例ほど簡単であるという直感から編集距離を用いる.
知見2:これまでの1-bestによる文法誤り訂正システムの評価では,語彙的な訂正が過小評価されている可能性がある.まず誤りタイプを語彙的な訂正と文法的な訂正に分類し,それらの訂正の割合を1-bestと10-bestで比較.10-bestの方が語彙的な訂正が増加していた.
系列変換モデルに基づく教師あり文法誤り訂正において,「通常のトークン生成」と「訂正することでコピーするトークンがいくつ分ズレるか」をマルチタスクとして学習するモデルを提案.
提案法では,エンコーダ側に新たなタスクを追加する.具体的には,誤り文からみて訂正文の位置がどれくらいズレるか(=position offset)を分類問題として予測する.例えば, I went park yesterday. → I went to the park yesterday.のような訂正を考えると,positon offset labelは[0 (I), 0 (went), 2 (park), 2 (yesterday), 2 (.)]のようになり, to the が挿入されることでそれ以降のトークンが全て右に2つズレることを予測する(左にズレたら負の値になる).
推論時には,デコーダの通常のトークン推定確率と,エンコーダから得られるコピー確率の重み付き和を取った確率(論文の式12: $P_v = (1-a_t)P_t^{gen} + a_t P_t^{copy}$ )の下で推定する.ただし,エンコーダ側はあくまでもposition offsetを予測するため,コピー確率は次式(論文の式7)で求める.
\(P_t^{copy} (y_t) = \left\{\begin{array}{ll} \Sigma_{i:x_i=y_t} P_o (o_i = t-i), & y_t \in X \\ 0 & otherwise \end{array} \right.\)
上記のように,両者のタスクは推論時はパイプライン的な運用になるが,学習時は独立に学習される.
文法誤り訂正の参照なし評価尺度としてIMPARAを提案.
提案法は,誤り文と訂正文の意味類似性を計算するモジュールと,訂正文の品質推定モジュールの2つのモジュールからなる.推論時は,基本的に品質推定の結果をそのまま評価値とするが,意味類似性による足切りがある.
$score (X, Y) = \left{\begin{array}{ll} Quality(Y) & (Similarity(X, Y) > threshold) \ 0 & (otherwise) \end{array} \right.$
品質推定器は独自の方法で学習する.この推定器の入力は訂正文のみであり,その訂正文の品質をスカラーで出力する.定式化としてはBERTの[CLS]のベクトルを線形層に通して回帰として解く.目的関数は単体の訂正が意味保存性に与える影響度(Impact)の差分を学習できるように設計する.
実験ではCoNLL-2014における人手評価相関と,MAEGEによるメタ評価結果の2種類からIMPARAの質を評価している.いずれも既存の参照なし評価手法のSOMEと同等か上回る性能.SOMEはその学習に専用の人手評価結果が必要だが,IMPARAはパラレルデータのみから学習可能であり,データ面で大きな利点がある(ドメイン適応も比較的容易.).
分析では,内容語に関する訂正のImpactの方が機能語のImpactよりも大きくなる傾向を確認.また,文が長いほどImpactも小さくなる傾向がある.
感想:パラレルデータのみから評価機を構築できる点が嬉しい.論文では品質推定器の学習データのサンプル数を3200程度にfixしているが,もっと増やした場合にどうなるかは気になる(訓練データも使っていいはず?).人手評価との相関が高い理由は,IMPARAが内容語に関する訂正を高く評価する尺度であって,人間もそれと同じ傾向で評価しているから,とかなのだろうか(PT-M2でも同じようなことを書いた)
Fine-tuning (FT)とIn-context learning (ICL)をフェアな条件で比較し,FTの方が良いことを示した.
言語モデルをタスクやドメインに適応させるための代表的な手段で,これまでの研究ではICLの方が良いと報告する先行研究があった.一方,先行研究ではFTとICLで異なるサイズのモデルを使用しており,本当にICLの手法そのものが効いているのかは分からない.(事前学習のデータが違うということもあるし)
提案法では,FTとICLをフェアな条件で比較する.実験には言語モデルにOPTを用いて,タスクを文分類(Natural language inferenceとparaphrase idetification)とする.OPTは多様なモデルサイズが提供されているためモデルサイズによる分析と,in-domainとout-of-domainそれぞれの結果の分析をする.
結果,in-domain設定ではICLとFTはほぼ同じ性能,out-of-domain (OOD)設定ではFTの方が高い性能を達成.
Cloze testは,テキストの単語の穴埋め問題を選択肢から選ぶ形式で言語学習者の習熟度を測るテスト.このテストの質を測るためにCloze Quality Estimation(CQE)を提案.
データセットとしてCELAを提案.CELAはcloze testの問題とその質の評価結果を含む.
問題のデータ:中国の高校の試験問題からground-truthなデータを持ってくる.これに加えて,正解以外の選択肢(distractor)を自動で生成する手法を用いて選択肢を用意したものも加える.これに加えて,正解の選択肢は固定し,それ以外の選択肢を自動生成した選択肢も加える.生成手法にはランダムサンプリングやPOSタグを考慮したものなど,計四種類を採用.つまり,一つの同じcloze testについて五種類の選択肢を含む(例えば4択問題のcloze testなら4択の候補が5種類ある).
アノテーション:生成した問題についてその質をアノテーションする.一つの問題について3人がアノテーションし,3人の結果が一致したものだけ採用する.Kappa値は信頼性が0.67,妥当性が0.45.妥当性について,前置詞に関する問題が文法知識を問うものか読解力を問うものかで意見が割れる例があった.ラベルの分布はTable 3を参照.
CELAには人手の評価結果が含まれるため,自動評価尺度の結果と比べることで評価器の質を評価できる.自動評価尺度の基本的な方針は,全ての選択肢を順番に穴埋めしていき,正解の選択肢と比べて偽の選択肢が文法と文意のどちらを惑わす目的なのかを判断する.それらの結果からルールベースに信頼性と妥当性を推定する(詳細はappendixのArgorithm 1).この研究では文法および文意を壊すかどうかを判断する手法として,ルールベースとDNNベースの二種類を提案.
ルールベースは,正解の選択肢と偽の選択肢のラベル情報を必要とする.文法については,選択肢を穴埋めしたときに選択肢に付与されるPOSタグを,正解のものと偽のもので比べて推定する.POSタグが同じなら文法を惑わす選択肢である.文意については,POSタグの代わりに同義語かどうかを判断し,同義語なら文意を惑わす選択肢である.
DNNベースは,ある選択肢を穴埋めした文を文法誤り訂正器に入力し,その選択肢の部分に誤り訂正があれば文法もしくは文意の観点で誤りがあるとみなせる.次に,穴埋め前後の文を訂正前後の文であるとみなして,ERRANTでタグ付けする.タグ付の結果がADJ, ADV, NOUN, VERBなら文意を惑わす選択肢,それ以外なら文法を惑わす選択肢であるとみなす.
結果としてはDNNベースがベースラインを超える結果.ただし,信頼性に関してはほとんどの問題を信頼できると判断してしまう傾向にある.ERRANTのタグにOTHERというタグがあって,これは文意を惑わす選択肢として扱う方が良さげ.