AI Weekly Papers Oct. 01~

今週のAI論文のabstractを３行で

今週の論文概要

1. テキストからの画像生成

Kandinsky: 画像先行モデルと潜在的な拡散技術を組み合わせた新しいテキストからの画像生成手法を提案。
PixArt-α: Diffusion Transformerを使用して、高品質のテキストからの画像生成を高速に学習する研究。大規模なVision-Languageモデルを活用し、トレーニング速度の向上と環境への影響を低減。
Aligning Text-to-Image Diffusion Models: 画像生成モデルの評価指標の研究。勾配の推定を高速化するための新しい技術を採用。
Conditional Diffusion Distillation: 条件付きの拡散蒸留法を用いて、画像生成の高速化と性能向上を目指す研究。

2. 大規模言語モデルの自己修正と理解

Large Language Models Cannot Self-Correct Reasoning Yet: 大規模言語モデルが自己修正する能力に関する研究。モデルは外部のフィードバックなしでの自己修正が難しく、性能が低下する可能性があることを示唆。
Enable Language Models to Implicitly Learn Self-Improvement From Data: LLM向けの暗黙的な自己改善を可能にする研究。人間の好みデータを活用する新しい手法を提案。
How FaR Are Large Language Models From Agents with Theory-of-Mind?: LLMがTheory-of-Mindを持つエージェントとどれほどの差があるかを調査。新しい評価パラダイムとプロンプティングフレームワークを提案。

3. 数学とコードの統合

MathCoder: 数学的な推論能力を向上させるためのLLMsの研究。新しいデータセットとモデルを提案。

4. 視覚と言語の連携

Improved Baselines with Visual Instruction Tuning: ビジョンと言語の連携を強化する研究。簡単な修正を加えることで、強力なベースラインを確立。

5. 言語モデルのコンパイルと最適化

DSPy: 言語モデルの自己改善パイプラインを示す新しいプログラミングモデル。宣言型言語モデル呼び出しをコンパイルし、最適化するための新しいアプローチを提案。

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

link: Arxiv Published: 2023-10-05

What: テキストから画像生成の改善
Method: この研究は画像先行モデルと潜在的な拡散技術を組み合わせた新しい潜在的拡散アーキテクチャを提案している
Novelty: この研究の新規性は、画像先行モデルと潜在的な拡散技術を統合した点である

PixArt- $α$ : Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

link: Arxiv Published: 2023-09-30

What: ピクセルを生成するための高速な訓練を可能にするPhotorealistic Text-to-Image合成のためのDiffusion Transformerの研究
Method: ピクセルの依存関係、テキスト-画像の整合性、画像の美的品質を別々に最適化するための3つのトレーニング手法を組み合わせたT2I Transformerを使用している
Novelty: ピクセル密度の高い疑似キャプションを使用し、テキストと画像の整合性学習を補助するために大規模なVision-Languageモデルを活用している。また、トレーニング速度が既存のモデルよりも大幅に改善され、訓練コストの削減とCO2排出の削減も実現している。

Large Language Models Cannot Self-Correct Reasoning Yet

link: Arxiv Published: 2023-10-03

What: LLM（Large Language Models）の自己修正能力に関する研究
Method: LLMの内在的な能力に基づく自己修正の役割と効果を調査
Novelty: LLMは外部のフィードバックなしで自己修正ができず、修正後の性能が低下することがあるという結果を示した。

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning

link: Arxiv Published: 2023-10-05

What: コードの統合による数学的な推論能力の向上を目的としたLLMsの研究
Method: オープンソース言語モデルのfine-tuningとカスタムな教師あり学習手法の提案
Novelty: 数学問題とそのコード解法のデータセット「MathCodeInstruct」の生成手法の提案と、MathCoderモデルの開発

How FaR Are Large Language Models From Agents with Theory-of-Mind?

link: Arxiv Published: 2023-10-04

What: large language models（LLMs）がトレーニングされたエージェントとTheory-of-Mindを持つエージェントとの間にどれだけの差があるかを調査する研究です。
Method: 本研究では、新しい評価パラダイム「Thinking for Doing（T4D）」を提案し、ゼロショットのプロンプティングフレームワーク「Foresee and Reflect（FaR）」を導入しています。
Novelty: 本研究の新規性は、既存の疑問応答ベンチマークとは異なり、モデルが他者の心の状態に関する推論を行い、それを行動に結び付ける能力を評価することです。また、FaRは他の手法よりも優れたパフォーマンスを示し、トレーニングデータとは異なる構造やシナリオにも適応できることが示されています。

Enable Language Models to Implicitly Learn Self-Improvement From Data

link: Arxiv Published: 2023-10-02

What: LLM向けの暗黙的な自己改善を可能にするための手法
Method: インプリシットな自己改善フレームワークであるPITを提案し、人間の好みデータを利用して報酬モデルをトレーニングすることで、LLMの改善目標を暗黙的に学習する手法
Novelty: ルーブリックを必要とせず、人間の好みデータを活用することで、効果的で効率的かつ便利な自己改善手法を提案

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

link: Arxiv Published: 2023-10-05

What: テキストから画像を生成するモデルの評価指標に関する研究
Method: この研究では、リワードの勾配を用いてテキストから画像を生成するモデルを調整する手法を提案しています。
Novelty: この研究の新規性は、勾配の推定を高速化するために低ランクなアダプター重みモジュールと勾配チェックポイントを使用する点です。

Improved Baselines with Visual Instruction Tuning

link: Arxiv Published: 2023-10-05

What: ビジョンと言語の連携において、簡単な修正を加えることで強力なベースラインを確立することに成功した。
Method: この研究では、LLaVA内の完全接続されたビジョン-言語のクロスモーダルコネクタを使用し、簡単な修正、つまりCLIP-ViT-L-336pxとMLPプロジェクションの使用、および学術タスク指向のVQAデータの追加(応答フォーマットのプロンプト)を行っている。
Novelty: この研究の新規性は、簡単な修正によって強力なベースラインを確立し、11つのベンチマークで最先端の結果を達成した点にある。また、わずか1.2Mの公開データを使用しており、単一の8-A100ノードで約1日のトレーニングで最終的な成果を得た点も特筆される。研究コードとモデルは公開される予定である。

Conditional Diffusion Distillation

link: Arxiv Published: 2023-10-02

What: 条件付きの拡散蒸留法による画像生成の高速化と性能向上である。
Method: この研究では、画像条件を組み合わせた条件付きサンプリングを可能にするために、条件付きの拡散モデルを補完するための新しい拡散蒸留法を提案している。また、共有の凍結されたモデルとわずかな追加パラメータを組み合わせた、パラメータ効率の良い蒸留メカニズムも実現している。
Novelty: この研究の新規性は、従来の二段階の拡散蒸留手順（蒸留と条件付き微調整の分離）を大幅に簡素化し、条件付き拡散モデルにおけるより遅い微調整モデルと同等の性能を発揮する初めての蒸留戦略であることである。

DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

link: Arxiv Published: 2023-10-05

What: DSPyは言語モデルの自己改善パイプラインを示す宣言型言語モデル呼び出しをコンパイルするものである。
Method: DSPyは、パイプラインをテキスト変換グラフとして抽象化し、言語モデルを宣言型モジュールを介して呼び出すプログラミングモデルである。また、DSPyはパラメータ化されたモジュールであり、提示、ファインチューニング、拡張、推論技術の組み合わせを学習することができる。
Novelty: DSPyは、従来のテンプレートベースの言語モデルパイプラインに替わる新しいアプローチであり、最適化のためのコンパイラを提案している。さらに、DSPyプログラムは数行で複雑なタスクに対する効果的なパイプラインを作成できることを示している。

weekly-papers