AI Weekly Papers Oct. 15~

今週のAI論文のabstractを３行で

introduction

本週のAI weekly paperは、主に大規模な言語モデル（LLM）、ビジョン言語モデル（VLM）、そして強化学習をメインにピックアップしています。

まず、大規模な言語モデル（LLM）に関して、複数の論文がその進化を示しています。その1つには「VeRA: Vector-based Random Matrix Adaptation」があり、パラメータの数を大幅に削減しながら性能を保つという革新的な手法が紹介されています。また、「MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning」では、言語モデルを統一インターフェースとして多様なビジョン言語タスクに活用する手法が開発されました。

ビジョン言語モデル（VLM）の進化についても、研究の進展が目立ちます。例えば、「PaLI-3 Vision Language Models: Smaller, Faster, Stronger」はビジョン言語モデルをより小さく、より速く、そしてよりパワフルに進化させ、かつてないパフォーマンスを達成しました。さらに「Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning」ではVLMsを強化学習の報酬モデルとして利用する手法が提案されています。

強化学習に関しては、「Safe RLHF: Safe Reinforcement Learning from Human Feedback」が安全な報酬学習手法を提案し、「Eureka: Human-Level Reward Design via Coding Large Language Models」は人間レベルの報酬設計を実現する手法を提唱しています。

各論文

Think before you speak: Training Language Models With Pause Tokens

link: Arxiv Published: 2023-10-03

What: この研究を一言でいうと、言語モデルの遅延トークンを用いたトレーニングです。
Method: この研究は、(学習可能な)遅延トークンを用いて言語モデルのトレーニングと推論を行っています。
Novelty: この研究の新規性は、遅延トークンを用いたモデルのトレーニングによる精度向上です。

Table-GPT: Table-tuned GPT for Diverse Table Tasks

link: Arxiv Published: 2023-10-13

What: 論文は、テーブルタスクに特化したGPTモデルを提案している
Method: テーブルタスク合成データを使用してGPTモデルを訓練／微調整する「テーブルチューニング」パラダイムを提案
Novelty: 既存のGPTモデルと比較して、テーブルタスクにおける理解力と汎用性が向上している

PaLI-3 Vision Language Models: Smaller, Faster, Stronger

link: Arxiv Published: 2023-10-13

What: 論文のタイトルおよび要約から得られるこの研究の目的または内容は、PaLI-3という名前のビジョン言語モデル（VLM）の紹介です。
Method: この研究では、分類目的に基づいて事前学習されたVision Transformer（ViT）モデルとコントラスト法（SigLIP）で事前学習されたモデルを比較します。
Novelty: PaLI-3は、同様のモデルよりも10倍小さく、より高速でありながら、強力な性能を持つVLMです。また、SigLIPベースのPaLIは、標準的な画像分類ベンチマークではやや性能が低いものの、さまざまなマルチモーダルベンチマーク、特に位置特定および視覚的テキスト理解において優れた性能を発揮します。更に、2,000,000,000パラメータのSigLIPイメージエンコーダを拡張し、多言語クロスモーダル検索の最新の状態に到達します。PaLI-3は、たった50,000,000パラメータで、複雑なVLMの基礎要素の研究を再開し、スケールアップされた新世代のモデルを可能にすることを期待しています。

In-Context Pretraining: Language Modeling Beyond Document Boundaries

link: Arxiv Published: 2023-10-16

What: In-Context Pretrainingによる言語モデルの強化
Method: 直近の関連ドキュメントを含めた学習データによりモデルの事前学習を行う
Novelty: ドキュメントのソート問題を解決するため、近傍探索アルゴリズムとグラフ探索アルゴリズムを提案し、In-Context Pretrainingの効果を実証

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

link: Arxiv Published: 2023-10-14

What: MiniGPT-v2は大規模な言語モデルを利用した統一インターフェースであり、画像の説明、視覚的な質問応答、視覚的なガウンディングなど、多様なビジョン・ランゲージタスクを効果的に実行するために使用される。
Method: シングルモデルを使用して、異なるタスクのための一意の識別子を導入することにより、効果的にビジョン・ランゲージタスクを実行する。
Novelty: MiniGPT-v2は他のビジョン・ランゲージモデルに比べて、ビジュアルな質疑応答や視覚的なガウンディングのベンチマークで強力なパフォーマンスを達成する。

Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams

link: Arxiv Published: 2023-10-12

What: LLMモデルの財務分析能力の評価
Method: Zero-Shot、Chain-of-Thought、Few-Shotのシナリオで、ChatGPTとGPT-4の財務分析能力を評価するために、CFAの模擬試験問題を使用して総合的な評価を行っている
Novelty: LLMモデルの財務分析の能力を徹底的に分析し、CFA試験に合格できる可能性を推定している。また、LLMモデルの財務分析への適用性を向上させるための戦略や改善策についても提案している。

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

link: Arxiv Published: 2023-10-14

What: 複数の属性を持つテキストを生成するための効率的な制御可能なテキスト生成手法
Method: RADというテキスト生成手法を導入し、小規模な単方向報酬モデルを使用して属性を持つテキストを生成するように言語モデルを強化する
Novelty: ユニダイレクショナルな報酬モデルを使用することで計算オーバーヘッドを減らしながら、従来の生成手法を変更する方法に比べて優れた結果を示す

Farzi Data: Autoregressive Data Distillation

link: Arxiv Published: 2023-10-15

What: Farziはオートレグレッシブな機械学習タスクのためのデータ蒸留を研究している。
Method: Farziは、イベント系列データセットを少数の合成系列であるFarzi Dataに要約する方法を提案している。また、Adamオプティマイザの効率的な逆モード微分をHessian-Vector Productsを活用して計算し、高次元の離散イベント空間を潜在空間に因数分解することでメモリ効率の良いデータ蒸留を行っている。
Novelty: Farziは、元のデータセットの0.1％のサイズのFarzi Dataで最新のモデルを訓練することで、下流のフルデータ性能の98-120％を達成できることを示している。また、少ないデータでより良いモデルを訓練できることは、将来の大規模なオートレグレッシブモデルの設計について洞察を提供し、モデルとデータサイズをさらにスケールアップする新たな機会を開拓するものである。

BitNet: Scaling 1-bit Transformers for Large Language Models

link: Arxiv Published: 2023-10-17

What: この研究を一言でいうと、BitNetは大規模な言語モデルのための1ビットTransformerアーキテクチャです。
Method: この研究は、BitLinearという1ビット重みのトレーニングに特化した置換手法を導入しています。
Novelty: BitNetは、最先端の8ビット量子化手法とFP16 Transformerのベースラインに比べて、競争力のある性能を発揮しながら、メモリの使用量とエネルギー消費量を大幅に削減する点が新規性です。さらに、BitNetはフルプレシジョンのTransformerと同様のスケーリング則を示し、効率と性能の利点を保ちながら、さらに大規模な言語モデルへの効果的なスケーリングの可能性を示唆しています。

4K4D: Real-Time 4D View Synthesis at 4K Resolution

link: Arxiv Published: 2023-10-17

What: この研究を一言でいうと、高精細かつリアルタイムな4K解像度における動的3Dシーンのビュー合成です。
Method: この研究は4K4Dという4Dポイントクラウド表現を使用し、ハードウェアラスタライゼーションをサポートすることで、前例のない高速なレンダリングを実現しています。また、ハイブリッドな外観モデルを設計し、新しい微分可能な深度剥離アルゴリズムを開発しています。
Novelty: この研究の新規性は、4K解像度での高速なレンダリングを実現する4Dポイントクラウド表現と、ハイブリッドな外観モデルの活用です。また、RGBビデオから提案モデルを効果的に学習するための新しい微分可能な深度剥離アルゴリズムも提案しています。

VeRA: Vector-based Random Matrix Adaptation

link: Arxiv Published: 2023-10-17

What: VeRAは、大規模な言語モデルのファインチューニング時に訓練可能なパラメータの数を減らすためのLow-rank adapation (LoRA)という人気のある手法を用いていますが、さらに大きなモデルや複数のユーザーやタスクごとの適応モデルの展開時におけるストレージの課題を解決するため、パラメータの数を10倍削減すると同時に同じパフォーマンスを維持することを実現しています。
Method: VeRAは、全レイヤーで共有される1組の低ランク行列を使用し、代わりに小さなスケーリングベクトルを学習することで、訓練可能なパラメータの数を削減しています。
Novelty: VeRAは、LoRAに比べてパラメータの数を10倍削減しながら、同じパフォーマンスを実現する新しい手法です。

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation

link: Arxiv Published: 2023-10-16

What: この研究を一言でいうと、Few-Shot-Based Video Generationのためのモーション学習フレームワークである。
Method: この研究は、LAMPというfew-shot学習フレームワークを提案しており、テキストから画像を生成するための既存のモデルを活用し、モーション学習に特化した動画生成モデルを訓練している。
Novelty: この研究の新規性は、限られたデータで効果的にモーションパターンを学習し、高品質な動画を生成できることである。

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

link: Arxiv Published: 2023-10-17

What: 大規模言語モデル(LLMs)の不正確な応答を改善するためのSelf-Reflective Retrieval-Augmented Generation (Self-RAG)という新しいフレームワークを紹介している。
Method: 自己反射による情報検索と生成を行うフレームワークであり、特別なトークンである反射トークンを用いてLMの振る舞いを制御する。
Novelty: 一つの任意のLMを利用して、アダプティブな情報検索、生成、自己反射を行うという新しい手法。他の既存の手法と比べて、さまざまなタスクで良好な結果を示し、事実性や引用の正確性の改善に優れている。

Safe RLHF: Safe Reinforcement Learning from Human Feedback

link: Arxiv Published: 2023-10-19

What: この研究を一言でいうと、安全な報酬学習手法の提案
Method: この研究はSafe Reinforcement Learning from Human Feedback (人間のフィードバックからの安全な報酬学習) という手法を用いている
Novelty: この研究の新規性は、安全性と性能のバランスをとるために人間のフィードバックを活用し、報酬とコストのモデルを分けて学習すること

Eureka: Human-Level Reward Design via Coding Large Language Models

link: Arxiv Published: 2023-10-19

What: 人間レベルの報酬設計を行うための大規模言語モデルによるコーディング
Method: LLM（GPT-4）を使用して進化最適化を行い、褒賞コードを生成する
Novelty: 事前のプロンプトや定義済みの報酬テンプレートなしで、専門家による報酬を上回る報酬関数を生成する

AgentTuning: Enabling Generalized Agent Abilities for LLMs

link: Arxiv Published: 2023-10-19

What: AgentTuningは、LLM（大規模言語モデル）のエージェント能力を向上させるための研究です。
Method: AgentTuningは、エージェント能力を改善するための簡単で一般的な手法です。特定のエージェントタスクに関する指示を精緻化し、オープンソースの指示やAgentInstructというデータセットを使用します。
Novelty: この研究の新規性は、一般的な能力を損なうことなくLLMのエージェント能力を向上させることです。

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

link: Arxiv Published: 2023-10-19

What: この研究を一言でいうと、Vision-Language ModelsをZero-Shot Reward Modelsとして利用して強化学習の報酬関数を学習する手法を提案している。
Method: この研究では、予め学習されたVision-Language Models（VLMs）をZero-Shot Reward Models（RMs）として利用し、自然言語によりタスクを指定する手法を提案している。
Novelty: この研究の新規性は、VLMsを強化学習の報酬モデルとして使用する一般的なアプローチであるVLM-RMsの提案であり、人手で報酬関数を指定することなく複雑なタスクを学習することができる点にある。また、VLM-RMsのパフォーマンスを向上させるための提案も行っている。

weekly-papers