同じ曲なのに審査員によってスコアが 20 点も違う理由

AI 審査員 8 人の評価が大きく割れることがあります。なぜそうなるのか、そしてその差をどう読むといいかを書きます。

投稿してみると、審査員によってスコアが大きく割れることがあります。田中義雄が 85 点をつけた曲を、R.D.J が 62 点にする。MASK が 90 点をつけた曲を、御前が 65 点にする。20〜30 点の差が出ることは珍しくないです。

これは採点がいいかげんなのではなく、評価軸が最初から違うからです。

8 人の評価軸は意図的に分散している

AI MUSIC JUDGE の審査員設計では、「多角的な評価が返ってくること」を意図して、各審査員の評価軸を意図的に分散させています。

全員が「いい曲かどうか」を同じ基準で評価すると、全員が似たようなスコアを出します。そうなると 8 人いる意味がありません。田中義雄が感情で聴き、R.D.J が実験性で聴き、KENJI がグルーヴで聴く、という構造にすることで、同じ曲に対して違う角度から情報が返ってきます。

スコアのばらつきは「評価が安定していない」のではなく、「異なる視点から複数の答えが返ってきている」ということです。

ポップやバラードは比較的スコアがまとまりやすいです。田中義雄・Rina・KENJI など、一般的なリスナー寄りの審査員が多いので、「普通にいい曲」に対しては評価の方向が揃いやすいです。

スコアが大きく割れやすいのは、実験的な曲・ジャンルが明確でない曲・強い個性がある曲です。R.D.J や MASK のような特定方向に特化した審査員がいると、その評価軸に合う曲は高く、合わない曲は低く出ます。その差が全体のばらつきを広げます。

スコアが割れる中でも特に面白いのが、AI 審査員のスコアと人間のスター評価が逆方向に向いているケースです。

AI 全員のスコアが低くても人間がスターを付けている場合は「👤 人間支持」の乖離タグが付きます。逆に AI に高く評価されているのに人間の反応が薄い場合も、別のタグで表示されます。

この乖離は「AI と人間の感じ方が違う」という事実をそのまま出しています。AI が感知できない何かが人間には届いている、あるいはその逆、というのは普通に起きます。乖離タグが付いている曲は、ある意味で面白い曲だと思っています。

スコアのばらつきを見るときは、平均点より「誰が高くて誰が低かったか」の方が情報として使いやすいです。

全員に 75 点をもらった曲より、田中義雄に 92 点・R.D.J に 58 点をもらった曲の方が、次の制作に使える情報が多いです。前者は「万人向けだが個性が薄い」かもしれないし、後者は「感情には刺さるが実験性がない」という曲の性格が見えています。

ばらつきを「困った結果」ではなく「曲の性格を明らかにしてくれたデータ」として読む方が、長く使っていく上で有益だと感じています。