ITエンジニア ノイのブログ

ITエンジニアのノイです。 YouTubeで ITエンジニアのお勉強という学習用の動画を公開しています。チャンネル登録お願いします!https://m.youtube.com/channel/UCBKfJIMVWXd3ReG_FDh31Aw/playlists

Generative AI Test 試験内容と出題予想

Generative AI Testとは

「Generative AI Test」とは、生成AIに特化した知識や活用リテラシーを確認するためのミニテストで、一般社団法人日本ディープラーニング協会(JDLA)によって実施されます。このテストは、OpenAIやMidjourneyなどの近年の企業活動で導入される生成AIを安心かつ効果的に活用するために必要な知識を持っているかを確認することを目的としています。

試験概要

  • 受験資格: どなたでも受験可能
  • 実施概要:
    • 試験時間: 20分
    • 試験形式: 択一式/多肢選択式 19問、記述式 1問(記述問題が新たに追加され、試験時間も変更されています)
    • 実施方法: オンライン(PC/スマホ
  • 出題範囲: シラバスに基づく
  • 受験費用: 2,200円(税込)

注意事項

  • 生成AIの環境や捉え方は日進月歩で変化し、個々の考え方によっても異なるため、この試験の内容が全ての人にとって常に正しいとは限りません。
  • 受験申し込み後のキャンセルはできません。
  • 受験は、指定された「試験開催日」の利用可能時間内であればいつでも可能です(推奨される受験時間はCBTSサポート時間内の10:00〜17:30)。
  • 2024年以降の開催予定は未定です。

このテストは、生成AI業界で活躍するJDLAのプロジェクトメンバーによって作成されたもので、AIの活用に関する最新の知識と理解を確認するためのものです。

出題予想

シラバスに基づいて生成AIに関する問題を作成しました。各問題は選択肢が4つあり、指定に従って正解または誤りがある選択肢を1つ選ぶ形式です。

問題 1: 大規模言語モデルの基本構造

大規模言語モデルにはどのような特徴がありますか?正しいものを1つ選んでください。

  1. 主にルールベースのアプローチに基づいている。
  2. ニューラルネットワークを用いていない。
  3. トランスフォーマー構造とアテンションメカニズムを利用している。
  4. 教師あり学習のみに依存している。

解答: 3

解説: 大規模言語モデルは、トランスフォーマー構造とアテンションメカニズムを利用しており、これによって文脈を考慮したテキスト生成が可能になっています。

問題 2: 学習方法

大規模言語モデルの学習方法についての記述で誤っているものを1つ選んでください。

  1. 事前学習とファインチューニングが一般的に用いられる。
  2. 常に教師あり学習のみが使用される。
  3. 自己教師あり学習が重要な役割を果たす。
  4. データセットの多様性がモデルの品質に影響を与える。

解答: 2

解説: 大規模言語モデルでは、教師あり学習のみならず、自己教師あり学習も重要な役割を果たしています。

続きはYouTubeで出題•解説しています

youtu.be

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)

論文解説 ChatGPTを用いた映像に合わせた音声生成

解説する論文

タイトル:What Do I Hear? Generating Sounds for Visuals with ChatGPT

著者: David Chuan-En Lin, Nikolas Martelaro

論文のURL: https://arxiv.org/pdf/2311.05609.pdf

論文発表日: 2023年11月9日

専門外の人でも分かる解説

この論文は、ChatGPTを用いて視覚メディア(映像)に合わせた音声(サウンドトラック)を自動的に生成する手法を提案しています。対象の映像からシーンの説明文を生成し、その説明文をChatGPTに入力して音声のアイデアを得る、という手法です。

要約

この論文では、視覚メディア用のリアリストなサウンドトラックを自動生成する方法論を提案しています。対象の映像からシーンの説明文を作成し、それをChatGPTに入力することで音声のアイデアを得ます。選択された音声は音声合成モデルで実際の音声に変換し、映像と組み合わせます。実験結果ではこの手法が有効だったことを示しています。

この論文の新しい点

ChatGPTを使って視覚メディア用の詳細なサウンドトラックを自動生成する試み自体が新しい点です。

課題点

  • 音声のレイヤリング能力の向上が必要
  • さらなるシーン説明の拡張が望まれる
  • 音声合成モデルの品質向上が今後の課題

youtu.be

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)

論文解説 プロンプト最適化

解説する論文

タイトル: Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

著者: Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang

論文のURL: https://arxiv.org/pdf/2311.04155.pdf

論文発表日: 2022年11月

専門外の人でも分かる解説

この論文は、大規模言語モデルを人の意図に合わせて調整する際に、モデルの再学習ではなくプロンプトの最適化に注目しています。モデルの出力から人の嗜好を推定し、それに合わせてプロンプトを改良することで、モデルを変更せずに人の意図に沿った生成ができることを示しています。ChatGPTなど様々なモデルで有効性を実証しており、解釈可能性や計算コストの面でもメリットがあるとしています。

要約

この論文は、大規模言語モデルの人の意図への整合を、モデル再学習ではなくプロンプト最適化(BPO)によって行う手法を提案する。モデルの出力から人の嗜好を推定し、それに合わせてプロンプトを改良することで、モデルパラメータを変更せずに整合を達成できる。ChatGPTなど様々なモデルで効果を実証し、PPOやDPOといった既存手法を上回ることを示す。BPOは解釈可能で効率的である一方、データ量や応用範囲に課題がある。プロンプトエンジニアリングとモデル学習は相補的なLLM整合手法であり、BPOは前者の自動化に新たな可能性を示した。

この論文の新しい点

  • プロンプト最適化による大規模言語モデルブラックボックス整合手法の提案
  • ChatGPTなど様々なモデルでの有効性の実証
  • 従来手法との比較による競合力の実証
  • 整合過程の解釈可能性の実現

課題点:

  • 小規模なデータセットに依存している
  • 応用範囲が限定的
  • イテレーションによる更なる改善が必要
  • 大規模モデルへのスケーリング

youtu.be

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)

万能近似定理を調べていたらボレル可測関数が分かりにくいのでまとめた

万能近似定理

万能近似定理(Universal approximation theorem)(Hornik et al., 1989; Cybenko, 1989) ネットワークが十分な数の隠れ層を持つ時、線形の出力層と、(ロジスティックシグモイド活性化関数のような)「押しつぶす」事ができる活性化関数を持つ隠れそうが少なくとも一つ含まれる順伝播型ネットワークはどんなボレル可測関数でも任意の精度で近似できる

『深層学習』- 6章「深層順伝播型ネットワーク」 - HackMD

万能近似定理(Universal Approximation Theorem)は、ニューラルネットワークや深層学習に関連する重要な数学的結果の一つです。この定理は、適切な条件下で、ニューラルネットワークが任意の連続関数を任意の精度で近似できることを示しています。

具体的には、万能近似定理は以下のような内容を主張します:

  1. 任意の連続関数:ある定義域から別の定義域への連続関数が与えられた場合、万能近似定理に基づいて、適切なニューラルネットワークアーキテクチャが存在するならば、その関数を任意の精度で近似できる。

  2. 隠れ層の多層構造:通常、万能近似定理を達成するためには、少なくとも1つ以上の隠れ層(中間層)を持つ多層のニューラルネットワークが必要です。隠れ層のユニット(ニューロン)の数や構造は、関数の複雑性に依存します。

  3. 任意の精度:近似の精度は、ネットワークの構造や学習アルゴリズムによって調整できます。言い換えれば、任意の誤差を許容する限り、適切なネットワークを見つけることができます。

この定理は、深層学習が多くの関数近似タスクで優れた性能を発揮する理由の一つです。深層学習モデルは、非線形関数近似の際に非常に柔軟で表現力豊かであり、多層の隠れ層を持つことで、複雑な関数をモデル化することができます。ただし、万能近似定理は理論上の結果であり、実際の問題では過学習の問題やデータ量の制約などに注意が必要です。また、実際には訓練アルゴリズムやハイパーパラメータの調整が必要なこともあります。

注意点

万能近似定理はトレインデータに対して、近似できるという定理であって、汎化誤差については考慮していません。

ボレル可測関数

ボレル可測関数(Borel measurable function)は、測度論や確率論の文脈で使われる用語です。ボレル可測関数は、ある測度空間から別の測度空間への写像で、特定の性質を持つ関数です。

以下にボレル可測関数の主要な特徴を説明します:

  1. 測度空間: ボレル可測関数は、2つの測度空間間で定義されます。一般的に、入力空間(定義域)と出力空間が含まれます。これらの空間は通常、ボレル σ-代数と呼ばれる特定のσ-代数を持つ。

  2. ボレル σ-代数: ボレル σ-代数は、実数直線上の開集合を含むσ-代数で、その他の代数構造を含みます。ボレルσ-代数内の集合は、測度論的な操作に対して適切に扱える特性を持っています。

  3. ボレル可測性: 関数がボレル可測であるとは、入力空間から出力空間への写像が、入力空間のボレルσ-代数の元を出力空間のボレルσ-代数の元に写像することを意味します。つまり、関数が測度論的に扱いやすい性質を持っていることを示します。

ボレル可測関数は、確率論や統計学において確率変数や確率分布の性質を議論する際に重要な役割を果たします。例えば、確率変数の関数がボレル可測である場合、その関数を用いて新たな確率変数を定義することができ、確率分布や期待値などを計算する際に便利です。

要するに

ボレル可測関数は、測度論の文脈で使われる関数で、入力空間から出力空間への写像であり、特定の性質を持つ関数です。この性質は、入力空間のボレルσ-代数の元を出力空間のボレルσ-代数の元に写像することを意味します。ボレル可測関数は、確率論や統計学などの分野で重要な役割を果たし、測度論的な操作を扱う際に便利です。

高校生が分かるように説明

これでもよくわからないという人も多いかと思います。もう少し優しく高校生向けにボレル可測関数をイメージしやすく説明します。

ボレル可測関数は、関数の特別な性質を示すものです。イメージとして、関数を工場の機械に例えてみましょう。工場にはさまざまな部屋があり、各部屋には異なる種類の機械があります。これらの機械は異なる仕事をすることがあります。

  • 入力空間: 工場の中で機械を使う部屋と考えます。これは関数の入力となります。例えば、工場には様々な材料や製品が入ってくるでしょう。

  • 出力空間: 各部屋で機械が作る製品や出力物を考えます。これは関数の出力です。

  • ボレルσ-代数: これは、工場の部屋における仕事のカテゴリーと考えることができます。ボレルσ-代数が特別なのは、ある仕事を別のカテゴリーに分けることができ、それぞれのカテゴリーに属するものを扱いやすくします。

  • ボレル可測関数: これは、工場の機械が部屋から部屋へ移動するように、入力空間から出力空間へ何らかの処理を行う関数です。この関数は、ボレルσ-代数の要件を満たすように動作します。つまり、どの部屋での作業もきちんとカテゴリーに分けられるように工夫されています。

ボレル可測関数は、特別な仕事の機械を使う工場で、作業が整然と進むようになっているイメージです。この性質は確率論や統計学で役立ち、関数がどのように振る舞うかを予測できます。

ディープラーニングではどの関数?

深層学習モデルにおいて、通常、ボレル可測関数の性質を持つ関数としては、活性化関数(activation functions)が該当します。活性化関数は、入力データに非線形性を導入し、ネットワークが非線形関数をモデル化できるようにします。深層学習モデルにおける活性化関数は、通常、ボレル可測性を持つものが選ばれます。

以下は、一般的に用いられるボレル可測性を持つ活性化関数の例です:

関数をカテゴリー化するという考えを踏まえて、続けて読んでみてください。

  1. シグモイド関数(Sigmoid function): シグモイド関数は、入力データを[0, 1]の範囲にマッピングする非線形関数で、以下の式で表されます:

    f(x) = 1 / (1 + exp(-x))

    この関数はボレル可測性を持ちます。

  2. ハイパボリックタンジェント関数(Hyperbolic Tangent function, Tanh): ハイパーボリックタンジェント関数は、入力データを[-1, 1]の範囲にマッピングする非線形関数で、以下の式で表されます:

    f(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x))

    この関数もボレル可測性を持ちます。

  3. ReLU関数(Rectified Linear Unit): ReLU関数は、入力が正の値の場合にそのまま出力し、負の値の場合には0を出力する非線形関数です。ReLU関数もボレル可測性を持ちますが、注意が必要で、厳密な微分が存在しない点に留意する必要があります。

これらの活性化関数は深層学習モデル内で使用され、非線形性を導入して複雑な関数を近似できるようにします。深層学習において、ボレル可測性は一般的に用いられる活性化関数に関して満たされます。

youtu.be

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)

論文解説 音声認識システムでの精度向上

解説する論文

タイトル: Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

著者: Youyuan Zhang, Sashank Gondala, Thiago Fraga-Silva, Christophe Van Gysel

論文のURL: https://arxiv.org/pdf/2311.01398.pdf

論文発表日: 2022年11月

専門外の人でも分かる解説

この論文は、音声認識システムを搭載した仮想アシスタントにおいて、エンティティを含むクエリの認識精度を向上させる手法について検討しています。オンデバイスで得られた音声認識結果をサーバ側で再スコアリングすることで、ドメイン知識を取り込み認識精度を上げようとしています。NグラムやRNNなど複数の言語モデルを組み合わせることで、クエリの種類に関わらず認識精度が向上することを実験で示しています。

要約

この論文は、仮想アシスタントの音声認識において、エンティティを含むクエリの認識精度を向上させるサーバ側リスコアリング手法を提案する。オンデバイスで認識したNベストリストをサーバ側でドメイン知識を用いて再スコアリングする。Nグラム、RNN、Transformerなどの言語モデルを組み合わせることで補完的な効果が得られ、クエリの種類に関わらず認識精度が向上した。メディアプレイヤーのクエリデータセットを用いた評価実験では、単一の言語モデルによるリスコアリングで最大30%の誤り率削減効果が得られ、複数モデルの組み合わせではさらに30%の改善を達成した。

この論文の新しい点

  • 仮想アシスタントのエンティティ認識向上を目的としたサーバ側リスコアリング手法の提案
  • Nグラム、RNN、Transformerなど複数の言語モデルを組み合わせることで補完的な効果を得ている点
  • ドメイン固有のデータで学習したモデルが大規模言語モデルを上回ることを示した点

課題点

  • リスコアリングの対象がメディアプレイヤーのクエリに限定されている
  • 大規模な商用言語モデルとの比較が不十分
  • 異なるドメインやタスクへの適用可能性が不明確

youtu.be

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)

論文解説 レビューテキストを使ったレコメンド

解説する論文

タイトル: Recommendations by Concise User Profiles from Review Text

著者: Ghazaleh H. Torbati, Anna Tigunova, Andrew Yates, Gerhard Weikum

論文のURL: https://arxiv.org/pdf/2311.01314.pdf

論文発表日: 2023年1月

専門外の人でも分かる解説

この論文は、ユーザーが投稿したレビューテキストを使って簡潔なユーザープロファイルを作成し、それを推薦システムに活用する手法を提案しています。ユーザーとアイテムの対話が少なくデータが薄い場合でも、レビュー текストから効果的に情報を抽出できるよう、Transformerをベースとしたニューラルネットワークを用いています。本手法は、レビューから有用な文を選択するなどの工夫で、計算コストを抑えつつ正確な推薦ができることを実験で示しています。

要約

この論文は、ユーザーのレビューから簡潔なプロファイルを作成し、それを推薦システムに活用するCUPフレームワークを提案する。ユーザーとアイテムの対話データが乏しくレビュー テキストに依存する必要がある状況を対象としている。Transformerを使ってユーザーとアイテムの特徴量を学習し、ドット積でスコアを計算してランキングする。長いレビューから有用な文を選択する方法を提案し、128トークンにプロファイルを制限することで効率的に学習できることを示す。GoodreadsとAmazonのデータセットで既存手法よりも高い精度を達成した。

この論文の新しい点

  • データが乏しい状況でのレビューテキスト活用に焦点
  • Transformerと簡潔なユーザープロファイルを組み合わせた枠組みの提案
  • レビューから有用な文を選択する複数の方法の提案

課題点:

  • 負のサンプルがない場合の対処が難しい
  • レビューの非テキスト情報の活用
  • 異なるドメインへの適用可能性

youtu.be

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)

論文解説 GPTでネット上のミームの分析

解説する論文

タイトル Is GPT Powerful Enough to Analyze the Emotions of Memes?

著者 Jingjing Wang, Joshua Luo, Grace Yang, Allen Hong, Feng Luo

論文のURL https://arxiv.org/pdf/2311.00223.pdf

論文発表日 2023年11月1日

参考 メームとは https://nativecamp.net/blog/20220212_meme

専門外の人でも分かる解説

この論文は、大規模言語モデル(LLM)の一種であるGPT-3.5の、インターネットのMemes(ミーム)の感情分析能力について調査しています。

要約

実験ではFacebookの有害ミームデータセットと、センチメントなどを分類するミームデータセットを使用し、GPT-3.5のミーム分析能力を評価しました。結果として、陽性な感情やユーモアの認識は正しかったものの、有害、皮肉、侮辱的な内容の認識は正解率が低かったことが示されました。

この論文の新しい点

ミームの感情分析は画像とテキストの両方を理解する必要がありが難しいタスクであること、GPTのこのタイプの課題に対する限界を実証した点が新しいです。

課題点

文脈的理解と、隠された意味の解釈、データバイアスから来るGPTの限界が、感情の把握に影響していると指摘されています。

youtu.be

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)