AI Weekly Papers Oct. 22~

今週のAI論文のabstractを３行で

今週のAI関連論文をまとめています。

まず、視覚言語の事前学習を向上させるための自己蒸留手法SILCが提案されました。また、この分野での興味深い動きとしては、大規模モデルGPT-4Vの早期評価も発表されています。これらの研究は、画像とテキストの関連を理解し、それを利用したモデルの改善に一歩近づいたと言えるでしょう。

一方で、報酬関数を学習せずに最適な方策を求める手法として、人間のフィードバックを用いた学習が提示されました。これは、通常の強化学習手法とは異なる新たなアプローチであり、今後の研究でその有用性が評価されることでしょう。

また、LLMの評価方法についても、JudgeLMという手法が提案され、その評価能力が示されました。この新しいベンチマークは、既存の方法以上の精度を実現しました。

さらに、Auto-Instructという手法が提案され、その能力が示されました。これは、自動的に指示を生成してランク付けするもので、その結果が既存の方法を上回るものでした。

また、９月の論文ですが、RAGAsというプロジェクトがあります。これは、Retrieval Augmented Generation (RAG) パイプラインの非参照型評価フレームワークを開発するためのもので、その評価サイクルの迅速化に主眼を置いており、RAGの評価をLLMを用いて自動で複数の指標によって行うことができます。

RAGAS: Automated Evaluation of Retrieval Augmented Generation

link: Arxiv Published: 2023-09-26

What: RAGAsはRetrieval Augmented Generation (RAG) パイプラインの非参照型評価フレームワークです。
Method: RAGAsはグラウンドトゥルースの人間の注釈を必要とせずに、異なる側面を評価するためのメトリクスの組を提案しています。
Novelty: この研究の新規性は、迅速なRAGアーキテクチャの評価サイクルに重要な貢献ができることです。

Contrastive Preference Learning: Learning from Human Feedback without RL

link: Arxiv Published: 2023-10-20

What: 人間のフィードバックを用いた学習において、報酬関数を学習せずに最適な方策を求める手法を提案する。
Method: 最大エントロピーの原理に基づいた Contrastive Preference Learning (CPL) アルゴリズムを提案しており、フィードバックから直接最適な方策を学習することができる。
Novelty: 通常の強化学習手法とは異なり、報酬関数の学習をせずに最適な方策を学習できる手法を提案している。

Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models

link: Arxiv Published: 2023-10-19

What: LLMを利用して自動的に指示を生成しランク付けする手法の提案
Method: LLMの生成能力を活かし、与えられたタスクのための多様な候補指示を生成し、スコアリングモデルでランク付けする手法
Novelty: 既存のLLM生成の指示およびベースラインを超える性能を持つ自動的な指示改良手法の提案、また他の訓練プロセスに組み込まれていないLLMでも高い汎化性能を示す

Teaching Language Models to Self-Improve through Interactive Demonstrations

link: Arxiv Published: 2023-10-20

What: 小さいモデルに自己改善能力を付与するためのトレーニングアルゴリズム（TriPosT）の導入
Method: TriPosTアルゴリズムを使用し、小さいモデルとLLMを対話させることでフィードバックと改善を収集し、その経験を元に小さいモデルをトレーニングする
Novelty: 小さいモデルが自身の生成物から学習し、間違いを訂正するための対話的な経験を取り入れることで、小さいモデルの性能向上に重要な影響をもたらす

SILC: Improving Vision Language Pretraining with Self-Distillation

link: Arxiv Published: 2023-10-20

What: 画像とテキストの予備学習を改善するための自己蒸留手法(SILC)。
Method: この研究は、画像とテキストの対応学習に加えて、自己蒸留を用いた新しい目的を提案しています。
Novelty: この研究の新規性は、指数移動平均(EMA)の教師モデルからの局所画像特徴の蒸留により、分類、検索、特にセグメンテーションといった複数のコンピュータビジョンタスクでモデルの性能が改善されることを示していることです。さらに、同じ訓練時間でも、SILCはベースラインと比較してよりスケーラブルであることも示しています。

HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

link: Arxiv Published: 2023-10-23

What: GPT-4VとLLaVA-1.5に対して、イメージコンテキスト推論において挑戦的なベンチマークを提案している。
Method: HallusionBenchというイメージコンテキスト推論のベンチマークを作成し、GPT-4VやLLaVA-1.5のミスを分析している。
Novelty: ベンチマークの作成と分析により、マルチモーダルモデルの誤りや幻覚に関する洞察を提供している。

Specific versus General Principles for Constitutional AI

link: Arxiv Published: 2023-10-20

What: AIの行動を制御するための原則の重要性を検証している。
Method: この研究は、人間のフィードバックをAIモデルに置き換え、AI行動を制御するための原則のリストを使用して実験を行っている。
Novelty: この研究の新規性は、一つの書かれた原則から一般的な倫理的行動を学習することが可能であることを示しており、具体的な行動タイプに対する制御の向上にはより詳細な原則が必要であることを示している。

In-Context Learning Creates Task Vectors

link: Arxiv Published: 2023-10-24

What: In-context learning (ICL) のメカニズムを解明し、ICLが単一のタスクベクトルを用いてLLMを圧縮し、出力を生成することを示す研究。
Method: 継続的学習を用いて、ICLの関数の構造とタスクベクトルの関係を明らかにする。
Novelty: ICLによる学習のメカニズムの解明と、タスクベクトルを用いたLLMの圧縮と出力生成の関係の明確化は新規性がある。

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

link: Arxiv Published: 2023-10-24

What: LLMによる情報検索のための制約解決能力の評価
Method: KITABという新しいデータセットを使用し、GPT4とGPT3.5で実験を行う
Novelty: LLMの制約解決能力に関する新たな評価手法とデータセットの提案

An Early Evaluation of GPT-4V(ision)

link: Arxiv Published: 2023-10-25

What: GPT-4Vの能力を評価する研究
Method: 手動で656のテスト事例を作成し、結果を評価する方法を用いている
Novelty: GPT-4Vの能力と限界を明らかにし、GPT-4Vの応用と研究に洞察を提供する

Detecting Pretraining Data from Large Language Models

link: Arxiv Published: 2023-10-25

What: この研究を一言でいうと、事前学習データの検出
Method: この研究はMin-K% Probという手法を用いている
Novelty: この研究の新規性は、事前学習データに類似したデータで事前に参照モデルをトレーニングする必要がない点と、先行研究に比べて7.4％の改善を達成している点である。

TD-MPC2: Scalable, Robust World Models for Continuous Control

link: Arxiv Published: 2023-10-25

What: TD-MPC2は、連続制御のためのスケーラブルで堅牢なワールドモデルです。
Method: TD-MPC2は、学習された暗黙の世界モデルの潜在空間で局所的な軌道最適化を実行する、モデルベースの強化学習アルゴリズムです。
Novelty: TD-MPC2は、TD-MPCアルゴリズムを改良したものであり、単一のハイパーパラメータセットで104のオンライン強化学習タスクにおいて優れた結果を示し、モデルとデータのサイズが大きくなるとエージェントの能力が向上することを示しています。

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

link: Arxiv Published: 2023-10-26

What: LLMの評価を改善するために、JudgeLMという手法を提案しました
Method: LLMのfine-tuningを行い、パフォーマンス向上のための技術を導入しました
Novelty: 既存のベンチマークとは異なる新しいベンチマークを提案し、高い評価結果を得ました。また、教師との合意率が90%以上という高い値を達成し、human-to-humanの合意率を超えました。さらに、JudgeLMは単一回答、マルチモーダルモデル、複数回答、マルチターンチャットの判定においても拡張された能力を示しました。

Controlled Decoding from Language Models

link: Arxiv Published: 2023-10-25

What: 言語モデルの生成を制御するためのオフポリシーリンフォースメントラーニング方法の提案
Method: オフポリシーの値関数を使用して報酬を制御し、高い報酬結果に向けて自己回帰的な生成を制御する
Novelty: プレフィックススコアラーという報酬の値関数を導入し、生成を制御する手法を提案

weekly-papers