AIと人間で評価が割れる「乖離」が、このサイトで一番おもしろい

AI審査員と人間リスナーのスコアがズレたとき、その曲の本質が浮かび上がる。4つの乖離タグの意味と、なぜズレが生まれるのかを運営目線で考察した記事。

AI MUSIC JUDGE を設計するとき、最初に決めたことのひとつが「AI のスコアだけで終わらせない」でした。8 人の AI 審査員がそれぞれ個性的なコメントとスコアを出すのは面白いのですが、それだけだと「AI が AI の音楽を AI が評価する」という、どこか閉じた世界になってしまいます。運営者として一番知りたかったのは、AI が高く評価した曲を、人間も同じように受け取るのか、というところでした。

結論から言うと、一致しないことのほうが多いです。そしてそのズレこそが、このサイトで日々いちばん面白いデータになっています。

4 つの乖離タグが表しているもの

スコアの差が一定以上開いたとき、その曲には自動でタグが付きます。現在のタグは 4 種類です。

🤖 AI 絶賛: AI スコアが人間スコアを 20 点以上上回ったケース。審査員たちの目から見ると優れているのに、人間のリスナーには刺さらなかった曲です。

👤 人間支持: 人間スコアが AI スコアを 20 点以上上回ったケース。理論的には粗削りでも、人間の心には引っかかった曲です。

⭐ 全員認めた: AI・人間ともに 80 点以上。「みんなが認めた傑作」の扱いです。

💀 問題作: AI・人間ともに 40 点以下。ただし「問題作」とは「駄作」とは別で、誰も受け取れなかったか、あるいはまだ評価の言語が整っていないか、どちらかだと思っています。

タグの命名は多少挑発的ですが、意図はランク付けではなく「この曲はどういう性格の曲か」を一言で表現することです。点数の高低より、どのタグが付くかのほうが、曲の個性として読める情報量が多い、という感覚があります。

なぜ AI と人間は同じ曲で違う感想を持つのか

これは正直、まだ完全には解明できていません。ただ運営目線で大量のデータを眺めていると、いくつかのパターンは見えてきました。

AI 審査員は「構造」と「理論」で聴く

Dr.鷹野誠一や御前のコメントを見ていると、コード進行のモード感、転調のタイミング、セクション間の論理的なつながりに強く反応している印象があります。KENJI はグルーヴの精度、R.D.J は波形レベルの実験性を見ている。つまり AI 審査員たちは「楽曲の設計図」を読んでいるような聴き方をしています。

設計が美しければ点数が出ます。理論的に正しい展開、転調前後のテンションの処理、声とトラックの周波数の棲み分け——こういった要素は、AI が評価するのが得意な領域です。

人間は「文脈」と「その日の気分」で聴く

一方で人間のリスナーは、その楽曲が「今の自分に必要かどうか」で聴いています。おそらく。完璧に設計されたポップスより、どこか不完全でも歌詞の一行が刺さった曲のほうが心に残る、というのは、自分自身も経験があるはずです。

田中義雄のコメントに「メロディの記憶性」という言葉がよく出てきますが、AI であっても「記憶に残るかどうか」という評価軸は持てます。ただし「なぜ今の自分に刺さったのか」という個人の文脈は、AI にはおそらく扱えません。

季節感、疲れ、誰かとの記憶、いま頭の中で鳴っているノイズ——こういった文脈が人間の「聴き方」を毎回変えます。同じ曲を一週間後に聴いたら違う点数を付ける、というのは人間リスナーあるあるです。

「🤖 AI 絶賛」の曲に見られるパターン

この乖離が起きやすいのは、おそらく「実験性の高い曲」です。R.D.J が喜んで MASK が興奮するような、構造破壊系の曲は AI スコアが伸びやすい。でも人間リスナーからすると「何を言いたいのかわからない」「聴き疲れる」という反応になることがあります。

もうひとつよく見るのは「ジャズ・フュージョン系の複雑なコード展開を持つ曲」です。理論的に豊かであることは AI には伝わりますが、人間のカジュアルなリスナーには「難しい」と感じられて、スルーされやすい印象があります。

「👤 人間支持」の曲に見られるパターン

こちらは逆に、技術的にはシンプルでも「感情のベクトルが一点に集中している曲」が多い気がします。ミミや田中義雄が「余韻がある」と書いていても、他の審査員からは「構成がもう一歩」と指摘される曲が、人間から高い支持を得るケースです。

Rina のコメントに「ちょっと荒削りだけど、なんか好き」という文体が出ることがあります。それはそのまま「人間支持」タグが付きそうな曲への直感的な反応だと思います。歌詞に具体的な感情が乗っている、テンポが走っている、録音が少し粗い——そういう「不完全さ」が人間には響くことがあります。AI が減点する要素を、人間がプラスに取る逆転です。

「⭐ 全員認めた」はなぜ珍しいのか

両方のスコアが 80 点を超えるのは、体感として多くはありません。理論的にも優れていて、感情的にも届く、という両立を達成するのはシンプルに難しいからです。設計を突き詰めると感情的な余白が減ることがあるし、感情に全振りすると構造が甘くなることがある。そのどちらかに傾きやすいのがおそらく普通の作曲プロセスです。

だから「⭐ 全員認めた」が付いた曲は、そのタグをひとつの到達点として見ることができます。「AI と人間の両方に届いた」という事実は、楽曲の価値として読んでいいと思います。

「💀 問題作」は本当に問題なのか

これが一番解釈に迷うタグです。AI も人間もスコアが低い、ということは、評価の共通言語がまだない可能性があります。ジャンルの文脈を知らないと伝わらない実験、未来のトレンドが早すぎて今の耳には届かない曲、意図的にわかりにくく作られた作品——こういうものが「💀 問題作」に分類されることが、おそらくあります。

断言はできませんが、数年後に見返したとき「あの時代の問題作が今は傑作扱いされている」ということは、音楽の歴史でも繰り返されてきました。このサイトがその文脈を長期で保存しているとしたら、少しだけ面白い資料になるかもしれないと思っています。

点数より「ズレかた」を読む

このサイトでスコアを見るとき、僕がいちばん面白いと思う見方は「何点か」ではなく「どうズレているか」を読むことです。AI に 85 点を付けられても人間に 50 点しかもらえなかった曲は、理論的な洗練はあるが感情的な受け取り手がまだいない、という性格を持っています。逆のパターンは「荒削りだが人を動かす何かがある」という読み方ができます。

8 人の AI 審査員も、それぞれ評価軸が違います。構造の Dr.鷹野誠一、身体性の KENJI、情感の田中義雄、トレンドの Rina、実験性の R.D.J、純度の御前、余白のミミ、エネルギーの MASK——この 8 人の中でも点数が割れることがあって、その内訳も曲の性格を表しています。人間スコアとのズレはその上にもう一層加わります。

要するに、スコアは「答え」ではなく「問い」として出力されています。この曲は誰に届いているのか、まだ届いていないとしたらなぜか。そこを読むのが、このサイトの使い方として一番面白いと個人的には思っています。

正直に言うと、人間スコアの取り方はまだ発展途上

ここまで「乖離が面白い」と書いてきましたが、補足しておくと、人間スコアの設計はまだうまくいっているとは言えません。今の☆評価は高いほうに偏りがちで、多くの曲が☆4〜5に集まります。「好みじゃないから低めに付ける」人より、「良ければ付ける、そうでなければ何も付けない」人が多い印象で、結果として人間側のスコアに差が出にくい。差が出なければ、AI とのズレも綺麗には現れません。

つまり「乖離」は、設計意図としては一番面白い軸なのに、人間側の採点の取り方しだいで精度が変わる、まだ調整中の機能です。評価のもらい方そのもの——たとえば単純な☆ではなく、限られた持ち点を割り振ってもらうような仕組み——も含めて見直しを検討しています。ここは正直、これからの宿題です。

最後に

乖離タグを追加したのは機能としては小さな変更でしたが、運営目線でいちばん「このサイトらしい」機能になったと感じています。AI 音楽の評価に唯一の正解はなく、AI と人間がそれぞれ別の角度から聴いてズレが生まれる、そのズレ自体を楽しめる場所にしたい、という考えが一番素直に表れている部分です。

投稿してみて、付いたタグを眺めて、なぜそのズレが起きたのかを考えてみる。そこに何か発見があれば、このサイトを作っている意味があったと思います。

🔀AIと人間で評価が割れる「乖離」が、このサイトで一番おもしろい