Skip to Content

AI Weekly Papers Nov. 05~

AI weekly paper summary


この週のAI研究の進展では、様々な分野で注目すべき論文が出版されました。大規模言語モデル(LLM)の改良と展開、人工一般知能(AGI)への前進を測定するための新フレームワークの提案、そして多モーダルモデルにおける視覚的評価の改善など、挑み続ける問題と全く新しい問題解決策が明らかになりました。

まず、大規模言語モデル(LLM)の改良については、「PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion」や「Tailoring Self-Rationalizers with Multi-Reward Distillation」、「Ultra-Long Sequence Distributed Transformer」、「Can LLMs Follow Simple Rules?」等の論文に取り組んでいます。PowerPointタスクの完成度評価に向けた新基準の提案や、長い文章シーケンスを扱うための効率的なトレーニング手法、さらにはモデルが指定されたrulesを正確に遵守する能力の評価など、LLMの潜在能力を引き出すための多岐にわたる研究が進行しています。

次に、人工一般知能(AGI)への対応と評価についても進展がみられました。「Levels of AGI: Operationalizing Progress on the Path to AGI」では、自動運転のレベルを提供するような、AGIの進行を測定するための有用な指標を導入する新しいフレームワークが提案されています。

最後に、多モーダルモデルについて、「CogVLM: Visual Expert for Pretrained Language Models」や「OtterHD: A High-Resolution Multi-modality Model」などの論文で、ビジュアル評価の改善と高解像度のビジュアル入力の処理に焦点が当てられています。これらの研究により、視覚的な詳細と空間関係についてより敏感なモデルの開発が可能になり、大規模な多モーダルモデルでの高精細な視覚表現の重要性が強調されました。

以上のように、探求と進歩が止むことのないAI研究分野は、我々の生活や社会に対してますます大きな影響を及ぼすこととなります。今後もこれらの重要な研究成果について、随時お伝えしてまいります。

PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion

link: Arxiv Published: 2023-11-03

  • What: この研究を一言でいうと、PowerPointのタスク完了能力を評価するためのベンチマークとしてPPTCを提案する。
  • Method: この研究では、LLMを使用してユーザーの指示に基づいてPPTファイルを作成および編集する能力を評価するためのPPTCベンチマークとPPTX-Match評価システムを提案している。
  • Novelty: この研究の新規性は、LLMが複雑なツールを使用して複数のターン、マルチモーダルな環境での指示を完了する能力を評価する点にある。また、予測ファイルに基づいて指示が完了したかを評価するPPTX-Match評価システムの提案も新規性とされる。

Levels of AGI: Operationalizing Progress on the Path to AGI

link: Arxiv Published: 2023-11-04

  • What: AGIモデルとその前提条件の能力と振る舞いを分類するためのフレームワークの提案
  • Method: AGIの定義を分析し、6つの原則を抽出してフレームワークを開発
  • Novelty: 自律走行のレベルと同様にモデルの比較、リスク評価、進捗の測定のための共通言語を提供するフレームワークの導入

S-LoRA: Serving Thousands of Concurrent LoRA Adapters

link: Arxiv Published: 2023-11-06

  • What: S-LoRAは、大量のLoRAアダプタをスケーラブルに提供するシステムです。
  • Method: S-LoRAは、Unified Pagingやテンソル並列処理などのさまざまな手法を使用しています。
  • Novelty: S-LoRAは、効率的なGPUメモリ使用とバッチ処理を実現することで、単一のGPU上で数千のアダプタをサービスすることができる点が新規性です。

Ziya2: Data-centric Learning is All LLMs Need

link: Arxiv Published: 2023-11-06

  • What: Ziya2はデータ中心の学習を用いる大規模言語モデルである。
  • Method: Ziya2は13 billionのパラメータを持つモデルで、700 billionのトークンで事前学習されている。データ中心の最適化手法を使用して学習プロセスを強化している。
  • Novelty: この研究では、他のモデルに比べて多くのベンチマークで優れた結果を示すことを証明している。

CogVLM: Visual Expert for Pretrained Language Models

link: Arxiv Published: 2023-11-06

  • What: この研究を一言でいうと、CogVLMは深層学習モデルと画像エンコーダーを統合するための可訓練な視覚エキスパートモジュールという手法を用いたビジョン言語モデルです。
  • Method: この研究は、浅いアライメント手法とは異なり、学習済みの言語モデルと画像エンコーダーを結ぶ可訓練な視覚エキスパートモジュールを使用しています。
  • Novelty: この研究の新規性は、NLPタスクの性能を損なうことなくビジョン言語の特徴を深く統合できる点です。

Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

link: Arxiv Published: 2023-11-03

  • What: この研究を一言でいうと、ユーザ指定の情報にモデルの注意を向けるためのポストホックのアテンション制御手法を提案している。
  • Method: この研究はPASTA(Post-hoc Attention STeering Approach)と呼ばれる手法を用いている。PASTAはユーザが指定した強調部分にモデルの注意を向けるために、アテンションのリウェイティングを行い、注目すべきアテンションヘッドの選択と精密な再重み付けを行う。
  • Novelty: この研究の新規性は、ユーザが指定した情報にモデルの注意を向けるためのポストホックのアテンション制御手法を提案している点にある。既存の手法では、プレーンテキストの処理に制約があり、このようなメカニズムをサポートしていなかった。PASTAは推論時に適用され、モデルのパラメータの変更を必要としない。また、実験により、PASTAがLLMのユーザの指示に従う能力やユーザ入力からの新しい知識の統合能力を大幅に向上させることが示されており、LLAMA-7Bにおいて平均正答率が22%向上するなど、さまざまなタスクでの性能改善が見られた。

Ultra-Long Sequence Distributed Transformer

link: Arxiv Published: 2023-11-04

  • What: 長いシーケンスに対して高い精度を持つTransformerモデルの効率的な分散トレーニング手法である
  • Method: 長いシーケンスを複数のGPUに分割し、各GPUがセグメントごとに部分的な自己注意を計算する手法を用いている。また、融合通信と新しい2倍グラデーション平均化技術を使用して、部分的な自己注意を集約せずに通信オーバーヘッドを最小化している
  • Novelty: 長いシーケンスに対する高速なトレーニングとメモリ効率の向上を実現しており、Nvidiaの最先端のシーケンス並列処理と比較して、5.6倍の高速化と10.2倍のメモリ効率化を達成している。また、3,456のGPUで50,112の極端なシーケンス長にスケーリングし、161%の超線形並列効率と32ペタフロップスのスループットを実現している

Tailoring Self-Rationalizers with Multi-Reward Distillation

link: Arxiv Published: 2023-11-06

  • What: この研究を一言でいうと、小規模な言語モデルでも有用な自己合理化を生成する手法の開発
  • Method: この研究はMaRioという複数の報酬を利用した自己合理化アルゴリズムを用いている
  • Novelty: この研究の新規性は、小さな言語モデルでもタスクの精度を向上させるだけでなく、合理化の品質も向上させることである

OtterHD: A High-Resolution Multi-modality Model

link: Arxiv Published: 2023-11-07

  • What: OtterHD-8Bは高解像度多様性モデルであり、柔軟な入力次元を扱うことができる。
  • Method: OtterHD-8Bは高解像度の視覚情報を詳細に解釈するために開発されたモデルであり、MagnifierBenchという評価フレームワークを導入している。
  • Novelty: OtterHD-8Bは高解像度の入力を直接処理することにより、他のモデルよりも優れた性能を持つことが示された。また、モデルの有効性におけるビジョンエンコーダの事前トレーニング解像度の影響が明らかにされた。

SoundCam: A Dataset for Finding Humans Using Room Acoustics

link: Arxiv Published: 2023-11-06

  • What: 音響に基づいて人を検出するためのデータセットの作成
  • Method: この研究では、実世界の部屋の音響応答を測定し、音の録音を行い、人々を検出および識別するために使用します。
  • Novelty: この研究の新規性は、自然な環境での音響応答のデータセットを作成し、様々な人の位置を追跡することで、人を検出するための新しい手法を提案することです。

Neural MMO 2.0: A Massively Multi-task Addition to Massively Multi-agent Learning

link: Arxiv Published: 2023-11-07

  • What: ニューラルMMO 2.0とは、強化学習のための大規模マルチエージェント環境です。
  • Method: この研究では、柔軟なタスクシステムを使用して広範な目的と報酬信号を定義することができます。
  • Novelty: この新バージョンの特徴は、トレーニング中に見たことのないタスク、マップ、および相手に一般化するエージェントを訓練することを研究者に挑戦します。

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

link: Arxiv Published: 2023-11-07

  • What: マルチモーダル大規模言語モデルのモダリティコラボレーションを活用した革新的な研究
  • Method: モジュラーグラフィカルネットワークデザイン, 共有機能モジュールとモダリティ適応モジュールの組み合わせ
  • Novelty: モダリティコラボレーションを生かしてテキストとマルチモーダルの両方のタスクでパフォーマンスを向上させる

TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models

link: Arxiv Published: 2023-11-08

  • What: マルチモーダル大規模言語モデルにおけるトークナイズと組み込み
  • Method: 入力をトークンのシーケンスとして扱い、すべてのモダリティのために共有の組み込み空間を学習する手法(TEAL)を提案
  • Novelty: マルチモーダル入力とテキスト生成の相互作用を効率的にモデル化する新しい手法

Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation

link: Arxiv Published: 2023-11-07

  • What: 多様な問題に対して性能、効率、柔軟性を持つ思考生成を可能にする手法
  • Method: pretrained reinforcement learningとMonte Carlo Tree Search (MCTS)を用いた思考の設計
  • Novelty: 既存の思考パラダイムの制約を超え、外部ドメイン知識を思考に組み込むことでLLMの能力を向上させ、未知の問題にも効率的に対応する

Can LLMs Follow Simple Rules?

link: Arxiv Published: 2023-11-06

  • What: LLMsが開発者の指示に従う能力を測定するためのプログラム的なフレームワークを提案している
  • Method: テキストシナリオによる簡単な対話を通じてモデルの行動を評価し、攻撃手法の特定とテストケースの収集を行っている
  • Novelty: LLMsに対する手動および自動攻撃への防御方法の研究を提案している

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

link: Arxiv Published: 2023-11-09

  • What: LLaVA-Plusは多様なモデルの能力を拡張する多様なアシスタントである。
  • Method: LLaVA-Plusは事前学習された視覚と視覚言語のモデルを維持し、ユーザの入力に基づいて適切なツールを活性化させる能力を獲得するために、マルチモーダルの指示に従ったデータで訓練されている。
  • Novelty: LLaVA-Plusは既存の機能を上回り、新しい機能を備えており、画像クエリが直接基づき、人間とAIの対話セッション全体で積極的に関与することにより、ツールの使用性能が大幅に向上し、新しいシナリオを可能にする点で特異である。

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

link: Arxiv Published: 2023-11-07

  • What: Prompt Cacheという手法を用いて、大規模言語モデルの推論を高速化することを目指している研究。
  • Method: プロンプトモジュールという再利用可能なテキストセグメントを定義し、これらの注意状態を事前計算して保存し、ユーザーのプロンプトに現れる際に効率的に再利用する手法(Prompt Cache)を用いている。
  • Novelty: プロンプトモジュールの明示的な定義と位置の正確さを保証するスキーマを導入し、大規模言語モデルにおける低遅延推論のための新規なアプローチを提案している。

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

link: Arxiv Published: 2023-11-09

  • What: 複数のタスクを統合するための手法として、LLMを利用するu-LLaVAというモデルを提案している
  • Method: モダリティの調整モジュールとマルチタスクモジュールをLLMに組み込み、タスク固有の情報を抽出してダウンストリームタスクの解決に利用する
  • Novelty: モダリティの調整とタスクの解決を統合することで、複数の専門モデルを結びつけるモデルを提案している。また、公開データとコードベースも提供している。