こんにちは、スクーティー代表のかけやと申します。
弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。
ウォルマートのセマンティック(意味的)検索に関する論文が面白かったので要点をまとめてみました。
参考論文:COSMO: A Large-Scale E-commerce Common Sense Knowledge
Generation and Serving System at Amazon
「欲しい商品がなかなか見つからない」というユーザーの声や、具体的でない「テールクエリ」は、従来の検索手法では限界があり、ユーザーの真のニーズを満たすことは至難の業です。そのような課題を、セマンティック検索という手法で改善したという論文で、大規模ECサイトを開発、管理されている方々には面白い内容だと思います。
この記事では、ウォルマートが実際に導入している、最新の大規模 e コマース常識知識生成・提供システム「COSMO」と、それを活用したセマンティック検索について、生成AIエンジニア向けに詳細に解説します。
ウォルマートの課題と COSMO による解決
従来の e コマース知識グラフの限界
従来の e コマースナレッジグラフでは、製品の属性情報を大量に統合していましたが、ユーザーの意図を十分に捉えられず、人々の考え方、行動、周囲の世界との関わり方との間にギャップがありました。
例えば、「友人の結婚式に出席するために、上品で華やかなドレスを探している」という意図と、「ドレス」という検索クエリとの間には、大きな隔たりがあります。従来のシステムでは、この「上品で華やかな」というニュアンスを捉えることが困難でした。
オンラインショッピングのシナリオでは、ユーザーの意図を明示的に表現できれば、e コマースプラットフォームはよりインテリジェントでユーザーフレンドリーになり、適用可能なレコメンデーションやパーソナライズされた検索体験を提供できるようになります。
しかし、意図は人間によって明示的に表現されるものではないため、オンラインショッピングプラットフォームでそれらを発見して理解することは困難です。これを解決するために、ウォルマートは COSMO を開発しました。
COSMO は、ユーザーの行動を深く理解し、その行動の背後にある意図を捉えることを目的としています。具体的には、COSMO は、ユーザーが「何」を購入したかだけでなく、「なぜ」それを購入したのかを理解することを目指しています。
この深い理解により、より関連性の高い商品をユーザーに提示することが可能になります。さらに、COSMO は、ユーザーがまだ気づいていない潜在的なニーズを予測し、それを満たす商品を提案することもできます。
これにより、ユーザーは自分のニーズに合った商品をより簡単に見つけることができ、顧客満足度の向上につながると期待されます。
COSMO によるユーザー意図の理解
COSMOは、大規模なユーザー行動からユーザー中心の常識的知識をマイニングし、業界規模のナレッジグラフを構築して、多様なオンラインサービスを強化するスケーラブルなシステムです。
COSMOがユーザーの意図を理解するステップ
ステップ | 詳細 |
---|---|
1. 大規模言語モデル (LLM) から知識を抽出 | ユーザーの行動に関する知識を、GPT-3やOPTなどのLLMを用いて抽出します。例えば、「妊娠している女性は滑りにくい靴を必要とする」といった知識を、ユーザーの購買履歴や検索履歴などから抽出します。 |
2. 抽出された知識の洗練 | 人間参加型で注釈が付けられたデータでトレーニングされた批評家分類器によって、抽出された知識をさらに洗練します。 |
3. 高品質のシード知識アサーションを収集するパイプラインの構築 | 上記のステップで得られた知識を、シード知識アサーションとして収集し、パイプラインを構築します。 |
これらの生成は必ずしも人間の好みと一致せず、ノイズを含む可能性があるため、インストラクションチューニングを採用して、忠実な e コマース常識知識を大規模に生成するための効率的な言語モデル (COSMO-LM) を微調整する方法について説明します。
COSMO-LM は、ウォルマートの 18 の主要カテゴリにナレッジグラフを効果的に拡張し、わずか 3 万の注釈付きインストラクションで数百万の高品質な知識を生成します。
COSMO の導入による検索体験の向上
COSMO は、検索ナビゲーションなどの Amazon の検索アプリケーションに導入されています。
COSMO導入による効果 (A/Bテスト結果)
- 製品の売上が 0.7% 相対的に増加
- 年間収益が数億ドル増加
- ナビゲーションエンゲージメント率が 8% 増加
- 顧客とのやり取りと満足度が向上
これらの結果は、COSMO-LMが、ユーザーの意図を理解し、より適切な検索結果を提示することで、顧客体験を劇的に改善していることを示しています。
COSMO の中核技術
LLM を活用した知識生成
FolkScope などの先行研究では、GPT-3 や OPT などの大規模言語モデルに暗黙的に格納されている大量の知識を活用し、ユーザーが製品を購入したり、一緒に購入したりする理由を「尋ねる」ことでユーザーの意図を生成することを提案しています。
具体的には、COSMOでは、ユーザーの行動データから、以下のようなeコマースにおける常識的知識を抽出します。
例:「スポーツ用イヤホン」を検索して購入したユーザー
- 行動: 「スポーツ用イヤホン」で検索し、防水性能が高く、外れにくいイヤホンを購入
- COSMOによる推測: ユーザーは、運動中に使用するイヤホンを探しており、汗や突然の雨でも壊れにくく、走っていても外れにくいものを求めている。
次に、人間参加型の注釈が、自動生成の判断を収集し、人間のフィードバックを提供することに関与します。小規模の注釈付きデータでトレーニングされた分類器は、低品質の知識を除外するために使用されます。
このような抽出方法は、より低い注釈コストで高精度の常識的知識を抽出するのに効果的であることが実証されています。
具体的な知識抽出手順
- Amazon で最も一般的なカテゴリを対象に、トップティア製品を選択。
- これらの製品を含む共購入ペアと検索購入ペアをサンプリング。
- ランダムな共購入を除外するために、検索購入ペアとのクロスチェック。
- 検索と購入のトラフィックに閾値を設定して、クエリと購入された製品をサンプリング。
- クエリの具体性スコアを計算し、購入された製品に関連付けられた広範なクエリをサンプリング。
- エンゲージメントが低く、購入率が低いクエリもサンプリングして、LLM 自体から直接知識を調査。
これらの戦略をすべて考慮して、数百万の行動ペアをサンプリングします。
インストラクションチューニングによるモデルの調整
LLM は、人間の好みと必ずしも一致しない知識を生成することがありました。例えば、「顧客はそれらが好きだから一緒に購入した」や「顧客は Apple Watch が時計の一種であるため購入した」など、一般的で役に立たない、または忠実でない意図を生成する可能性があります。
望ましい生成は、e コマースの行動を説明するのに典型的である必要があります。言語モデルがユーザーの指示によりよく従うようにすることは、LLM の有用性、真実性、透明性を向上させるために重要です。
そこで、COSMO では、インストラクションチューニングを使用して、人間のフィードバックに合わせて言語モデルを直接調整し、e コマースの常識的知識を生成します。
COSMO-LMのインストラクションデータ
COSMO-LMの学習には、多様なインストラクションデータが用いられています。具体的には、以下の要素で構成されています。
- 18 の製品ドメイン: Clothing, Shoes & Jewelry, Sports & Outdoors, Home & Kitchenなど、Amazonの主要な製品カテゴリをカバーしています。
- 15 の関係タイプ: ユーザーの意図を捉えるための関係タイプが定義されています。
- USED_FOR_FUNC (機能/用途)
- USED_FOR_EVE (イベント/活動)
- USED_FOR_AUD (対象者)
- CAPABLE_OF (機能/用途)
- USED_TO (機能/用途)
- USED_AS (概念/製品タイプ)
- IS_A (概念/製品タイプ)
- USED_ON (時期/季節/イベント)
- USED_IN_LOC (場所/施設)
- USED_IN_BODY (身体部位)
- USED_WITH (補完)
- USED_BY (対象者)
- xINTERESTED_IN (興味)
- xIS_A (対象者)
- xWANT (活動)
- 5 つの異なるタイプのタスク:
- 常識生成: ユーザーの行動を説明する常識を生成する
- もっともらしさ予測: 生成された常識がもっともらしいかどうかを予測する
- 典型性予測: 生成された常識が、そのユーザー行動の典型的な説明となり得るかを予測する
- 検索関連性予測: クエリと商品の関連性を予測する
- 共購入予測: 2つの商品が一緒に購入されるかどうかを予測する
インストラクションデータの例
要素 | 詳細 |
---|---|
User Behaviors | item-item co-purchase(商品間の共購入), query-item search-buy(クエリと商品の検索・購入) |
Domains | Clothing, Shoes & Jewelry, Sports & Outdoors, Home & Kitchen, … (18 ドメイン) |
Relations | Used_For, Func, Used_For, Event, Used_For, Audience, … (15 の関係) |
Tasks | Commonsense Generation, Plausibility Prediction, … (5 つのタスク) |
例えば、「ユーザーが商品Aと商品Bを一緒に購入した」という行動に対して、「商品Aと商品Bは、〜のために一緒に使われることが多い」という常識を生成する、といったタスクが考えられます。
モデルがさまざまなフォーマットに対して堅牢になるように、さまざまなテンプレートを設計して、インストラクションと入出力ペアを言語化しました。たとえば、「検索クエリ」、「ユーザー入力」、「ユーザー検索:」などの接頭辞を追加しました。
COSMO-LMのアーキテクチャと学習
COSMO-LMは、広く使用されているオープンな基盤モデルであるLLaMA 7bおよび13bモデルをベースとして、収集したインストラクションデータを用いてファインチューニングされています。 COSMO-LMは、特に、以下の点で、従来のLLMとは一線を画しています。
- ドメイン特化型ファインチューニング: 大規模なeコマースデータを用いてファインチューニングを行うことで、一般的なLLMでは捉えきれない、eコマース特有の常識やユーザーの行動パターンを学習
- インストラクションチューニング: 多様なインストラクションデータと、それに対応する出力例を与えることで、モデルはタスクの意図をより深く理解し、より適切に応答できるように学習
- 人間のフィードバックの活用: 人間の注釈者による評価やフィードバックを学習に組み込むことで、モデルの出力はより人間の好みに合致し、より高品質なものへ
COSMO-LMの学習の詳細
パラメータ | 値 |
---|---|
損失関数 | サンプル化されたソフトマックス損失 各クエリに対して、関連する商品と関連しない商品(負例)を考慮して、関連する商品が選択される確率を最大化するように学習する。具体的には、関連する商品のスコアの指数関数値を、そのクエリに関連するすべての商品(関連商品と負例を含む)のスコアの指数関数値の合計で割った値を最大化します。 |
最適化手法 | Adam |
学習率 | 10-5 |
バッチサイズ | 40 |
クエリあたりの商品数 | 20 |
モデルアーキテクチャ | LLaMA 7bおよび13bモデルをベースとし、特定のタスク(例:常識生成、関連性予測)に応じて、出力層などを調整 |
入力形式 | インストラクション(例:「この商品とクエリの関連性を説明してください」)、クエリ、商品情報(タイトル、説明、属性など)を連結したテキスト |
出力形式 | タスクに応じた出力(例:常識的知識の説明文、関連性スコア) |
負例サンプリング | PTマッチ、トークンマッチ、Student-Teacherなどの手法を組み合わせて、効果的な負例をサンプリング |
ハイパーパラメータ | 損失関数の温度パラメータ(σ)など |
これらの設定により、COSMO-LMは効率的に学習を行い、高精度な常識知識を生成することが可能になります。
高品質なインストラクションデータの生成
先行研究の 2 つの共購入行動ドメインにまたがる注釈データから始めて、意図知識リソース (つまり、ユーザー行動)、製品ドメイン、および関係タイプの観点からデータ収集をスケールアップしました。
ユーザー行動については、業界規模のクエリとアイテムのインタラクションを採用して、曖昧で進化する意図を生成します。共購入行動の背後にある直接的な意図とは異なり、クエリの意図は、ユーザーが本当に必要としているものと、e コマースシステムで製品情報がどのように提示されているかとの間の意味的なギャップを示すのに役立ちます。
抽出された意図は、幅広いクエリを特定の製品属性に絞り込み、検索体験を向上させるのに役立ちます。
インストラクションデータの生成手順
- 関係タイプのマイニング: 以前の研究で多様で高品質な知識を生成する傾向があると特定された15個のシード関係から始めて、頻繁な述語パターンをマイニングして手動で関係を要約。
- 最も一般的なパターンは「製品は[前置詞]に使用できる」であり、[前置詞]は前置詞を意味。
- 異なる前置詞を持つ生成は、異なるテールタイプを表し、さらに正規化可能。
- 構造化された知識の生成: マイニングされた関係タイプを用いて、構造化された知識を生成。
- テールタイプの特定: 関係タイプに対応するテールタイプを特定し、より詳細な情報を付与。
以下に、マイニングされた知識の関係タイプとそれに対応するテールタイプ、および例をまとめています。
関係タイプ | テールタイプ | 例 |
---|---|---|
USED_FOR_FUNC | 機能 / 用途 | 顔を乾かす (dry face) |
USED_FOR_EVE | イベント / 活動 | 犬の散歩 (walk the dog) |
USED_FOR_AUD | 対象者 | 保育士 (daycare worker) |
CAPABLE_OF | 機能 / 用途 | 軽食を入れる (hold snacks) |
USED_TO | 機能 / 用途 | フェンスを作る (build a fence) |
USED_AS | 概念 / 製品タイプ | スマートウォッチ (smart watch) |
IS_A | 概念 / 製品タイプ | 普通のスーツ (normal suit) |
USED_ON | 時期 / 季節 / イベント | 晩冬 (late winter) |
USED_IN_LOC | 場所 / 施設 | 寝室 (bedroom) |
USED_IN_BODY | 身体部位 | 敏感肌 (sensitive skin) |
USED_WITH | 補完 | 表面カバー (surface cover) |
USED_BY | 対象者 | 猫の飼い主 (cat owner) |
xINTERESTED_IN | 興味 | 漢方薬 (herbal medicine) |
xIS_A | 対象者 | 妊婦 (pregnant women) |
xWANT | 活動 | テニスをする (play tennis) |
このように、COSMOでは多様かつ構造化された、高品質なインストラクションデータを生成しています。
COSMO のスケーラビリティと効率性
大規模データへの対応
先行研究では、数千の共購入されたアイテムペアに基づいて共購入の意図のみを探求していました。実際の運用環境では、何百万人ものユーザーが毎日複雑でノイズの多い行動を生み出し、検索購入行動など、膨大で多様な意図を伴う可能性があります。
そのため、多様な意図を生成するための代表的なユーザー行動を選択することが重要です。さらに、先行研究では、もっともらしさと典型性のスコアを別々にラベル付けすることで、きめ細かい注釈を洗練させていました。
e コマースのより多くのシナリオを完全にサポートすることを目指しているため、カテゴリやユーザー行動の種類が増えるにつれて、注釈コストは大幅に増加します。
さらに、FolkScope をダウンストリームタスクに適用する場合、新しいユーザー行動の知識生成は、LLM 生成と分類器スコアリングのパイプラインを通過する必要があるため、推論のオーバーヘッドがボトルネックになる可能性があります。
そこで、COSMOでは、まず製品のサンプリングを行い、次にユーザー行動のペアをサンプリングします。
製品サンプリングの手順
- Amazonで最も一般的で人気のあるカテゴリー(例:Clothing, Shoes & Jewelry, Sports & Outdoors, Home & Kitchenなど)を対象
- 比較的多くのユーザー行動を持つトップティアの製品を選択
- 「比較的多い」とは、例えば、月間1000回以上の検索、または購入が発生している製品を指します。
- 1000以上のクラスを定義し、「傘」や「椅子」など、製品が本質的に何であるかを示す「製品タイプ」ラベルもサンプリングに採用
これらの戦略を全て考慮した上で、18の製品カテゴリ、15の関係タイプ、5つの異なるタスクを含むインストラクションデータを収集しました。
ユーザー行動ペアのサンプリング手順
- 共購入エッジが、事前選択された製品セットの少なくとも 1 つをカバーすることを確認
- 検索購入ペアとのクロスチェックを行って、検索購入行動が検出されなかったランダムな共購入を削除
- 一部の共購入エッジは、同じユーザーが共購入した製品と直接関係していないため、ランダムに選択されている可能性を考慮
- 検索購入ペアのサンプリングについては、検索と購入の両方のトラフィックに経験的な閾値を設定して、クエリと購入された製品をサンプリング
これらの手順により、大規模なデータセットから効率的に学習し、スケーラビリティを確保しています。
効率的な推論とオンラインデプロイメント
FolkScope で使用されている OPT-30b などの LLM は、膨大な計算コストを必要とします。そこで、COSMO では、効率的な推論とオンラインデプロイメントのために、知識の一般化と予測のためのモデルの微調整を行いました。
具体的には、インストラクションで微調整された LM は、推論時間を大幅に短縮し、大規模なアプリケーションをサポートできます。
COSMOのデプロイメント構成
要素 | 詳細 |
---|---|
SageMaker | ユーザー行動セッションログの動的な取り込みと、堅牢な自動化による効率的なモデル更新 |
特徴量ストア | モデルの応答を構造化された特徴量に転送し、ダウンストリームアプリケーションで実用化。製品のキーと値のペア、意味的なサブカテゴリの表現、強い意図の検出などの特徴量を処理。 |
非同期キャッシュストレージ | 事前にロードされた年間の頻繁な検索とバッチ処理された毎日のリクエストを組み合わせた 2 層のキャッシング戦略を通じて、ユーザーのクエリを効率的にキャプチャ。 |
負例サンプリング | 学習のために、適切かつ効果的な負例を選択。COSMOでは、以下の3つの戦略を組み合わせて、ノイズの多いデータや関連性の低いデータから、有用な負例を効率的に特定します。 PTマッチ: 製品タイプ(PT)情報に基づいて、関連性の低いサンプルを除外 トークンマッチ: クエリと商品のトークンの重複度に基づいて、関連性の低いサンプルをさらにフィルタリング Student-Teacher: 別のモデル(Teacher)を用いて、より正確な負例候補を生成し、それをStudentモデル(COSMO-LM)の学習に利用。 Teacherモデルはクエリと商品情報を直接比較して関連性を判断し、より正確な負例候補を生成。 TeacherモデルはMonoBERTベースの単一エンコーダネットワークで、クエリと商品情報を連結して入力する。 |
近似最近傍探索(ANN)サービス | 大規模なデータセットから、クエリに最も近いアイテムを高速に検索 |
推論時間最適化 | モデルの軽量化: DistilBERTなどの軽量なモデルの活用や、不要な層の削減 ONNXフォーマットへの変換: モデルをONNXフォーマットへ変換し、Java環境で効率よく推論 カスタム埋め込みルックアップ実装: ONNXバックエンドの非効率な埋め込みルックアップを、Javaのhashmapを用いた高速な実装に置き換え 入力長の固定化: 入力クエリの長さを固定化し、動的な長さによるオーバーヘッドを削減 |
推論時間最適化の詳細
手法 | P99レイテンシ増加 |
---|---|
BERT 6-layer | + 100.0% |
BERT 2-layer | + 97.88% |
BERT 2-layer (カスタムルックアップ実装) | + 50.26% |
BERT 2-layer (カスタムルックアップ実装, 固定入力長) | + 30.14% |
以下はCOSMO-LMの展開図です。非同期キャッシュストアとフィーチャストアを主要コンポーネントとして採用しており、Amazonの検索レイテンシ要件を満たすために不可欠な、ユーザーのクエリと日々の動的な更新を効率的に処理する様子が描かれています。
これらの要素を組み合わせることで、COSMOは、効率的かつスケーラブルな方法で、ユーザーの意図を理解し、それに基づいたサービスを提供することが可能になっています。
COSMO の応用と評価
検索関連性への適用
検索クエリとドキュメント間の関連性スコアを決定することは、情報検索の中核であり、検索エンジンにとって重要なコンポーネントとして機能します。検索の関連性は、e コマースの製品検索において重要な役割を果たします。
これは、クエリと製品カタログの間に意味的なギャップがあるためです。頻繁に発生する曖昧で無意味な知識のいくつかは、それらを結び付けるのに役立ちます。
例えば、「ワイン エレクトロニクス」というクエリは、多くの場合、ユーザーが体を温めるための服を求めていることを意味します。そのため、システムは、各クエリ購入者の行動を説明する COSMO の知識を使用して、関連する製品を取得します。
具体的には、COSMO-LM を使用して、クエリと製品のペアの背後にある常識的知識を生成し、それらの関連性を明示的に強化します。
このアプローチの有効性を検証するために、以下の2つのデータセットを使用しました。
- 公開されている Amazon ショッピングクエリデータセット
- 異なる市場でのユーザーの活動と言語習慣に対応するためにオンラインシステムから収集したデータセット
評価指標
指標 | 定義 | 計算式 |
---|---|---|
Macro F1 | 各ラベルの F1 スコアの平均 | 各ラベルのF1スコアを計算し、それらの平均を取る |
Micro F1 | 全てのラベルを考慮した F1 スコア | 全てのラベルを考慮して、適合率(Precision)と再現率(Recall)を計算し、それらを用いてF1スコアを計算する |
F1スコア | 適合率(Precision)と再現率(Recall)の調和平均。適合率は検索結果のうち、実際に関連するアイテムの割合。再現率は、関連する全てのアイテムのうち、検索結果に含まれる割合。 | F1 = 2 * (Precision * Recall) / (Precision + Recall) |
これらの指標は、検索結果の適合率と再現率をラベルごとに、または全体として評価するために用いられます。
実験結果
モデル | 固定エンコーダ | 学習可能なエンコーダ | ||
---|---|---|---|---|
Macro F1 | Micro F1 | Macro F1 | Micro F1 | |
Bi-encoder | 25.52 | 65.49 | 47.96 | 70.23 |
Cross-encoder [49] | 28.44 | 66.84 | 57.49 | 74.23 |
Cross-encoder w/ Intent | 45.52 | 86.40 | 73.48 | 90.78 |
改善率 | 60.06% | 29.26% | 27.81% | 22.30% |
上記の結果から、COSMO-LMによって生成された知識は、クエリと製品の意味的な関連性のパフォーマンスを大幅に向上させることが示されました。具体的には、COSMO-LMで強化されたモデルは、ベースラインモデルと比較して、Macro F1スコアが60.06%、Micro F1スコアが29.26%向上しました。
これは、COSMO-LMが、ユーザーの意図と製品情報を結び付ける知識を効果的に捉えていることを示しています。
セッションベースのレコメンデーションへの適用
セッションベースのレコメンデーションは、一定期間内の複数のユーザーとアイテムのインタラクションに関連付けられたセッションは、ユーザープロファイルのほかに、ユーザーの好みや意図をよりよく捉えることができます。
セッションベースのレコメンデーションは、通常、時系列順の匿名の行動シーケンスが与えられた場合に、製品アイテムセットから次のクリックまたは購入されたアイテムを予測します。
セッション内のユーザーの動的な好みを捉えるために、RNN やトランスフォーマーなどのシーケンシャルニューラルネットワークが採用されています。さらに、アイテムシーケンスは、グラフニューラルネットワークを使用して、隣接するアイテムの複雑なペアワイズインタラクションをモデル化するセッショングラフとして編成できます。
具体的には、セッションベースのレコメンデーションを強化するために、補助的なユーザー検索キーワードシーケンスと、各検索と製品のペアに対して生成された知識を活用しました。
COSMO-GNNモデル
COSMO-GNNは、GCE-GNNを拡張し、検索クエリと、COSMO-LMから生成されたテキスト知識を組み込むことで、セッションベースのレコメンデーションの精度を向上させています。
実験結果
メソッド | Clothing Hits@10 | Clothing NDCG@10 | Clothing MRR@10 | Electronics Hits@10 | Electronics NDCG@10 | Electronics MRR@10 |
---|---|---|---|---|---|---|
FPMC | 62.16 | 45.07 | 39.60 | 21.79 | 16.01 | 14.18 |
GRU4Rec | 83.30 | 64.37 | 56.94 | 49.53 | 39.33 | 29.06 |
STAMP | 81.34 | 61.32 | 54.24 | 49.89 | 38.74 | 32.92 |
CSRM | 85.21 | 65.59 | 60.56 | 51.73 | 41.53 | 32.21 |
SRGNN | 85.82 | 68.62 | 64.45 | 67.35 | 52.53 | 51.22 |
GC-SAN | 86.87 | 69.98 | 64.73 | 55.88 | 45.89 | 52.34 |
GCE-GNN | 86.67 | 69.35 | 63.79 | 70.13 | 55.17 | 50.27 |
COSMO-GNN | 90.45 | 72.30 | 67.84 | 71.21 | 56.26 | 50.67 |
改善率 | 4.05% | 3.76% | 4.08% | 5.82% | 0.77% | -3.19% |
- Hits@10: 推薦された上位10アイテムの中に、ユーザーが次にクリック/購入したアイテムが含まれている割合
- NDCG@10: 上位10アイテムのランキングの質を測る指標。関連性の高いアイテムが上位にランクインしているほど、スコアが高くなる。
- MRR@10: ユーザーが次にクリック/購入したアイテムが、推薦リストの中で最初に登場する順位の逆数の平均
実験の結果、提案されたCOSMO-GNNは、2つのドメイン(Clothing, Electronics)でHits@10とNDCG@10のすべての競合ベースラインを大幅に上回り、MRR@10のほぼすべてのベースラインに匹敵することが観察されました。
これらの結果から、COSMO-LM によって生成された知識が、セッションベースのレコメンデーションの精度向上に貢献していることがわかります。
検索ナビゲーションの改善
COSMO は、従来の製品中心の分類法から顧客中心のアプローチに移行することで、検索ナビゲーションに革命をもたらします。このシフトにより、ショッピング体験が向上し、顧客の意図や行動とより密接に連携し、顧客のクエリ概念を動的に分類法に提供することで、製品分類と顧客言語のギャップを埋めます。
具体的には、COSMO の意図知識は、上図に示すような階層構造にさらに編成でき、大まかなもの (キャンプ) から細かいもの (冬のキャンプ) に展開し、意図の概念は冬のブーツなどの製品の概念にさらにリンクされます。
COSMOによる検索ナビゲーションの階層構造
階層 | 機能 | 例 |
---|---|---|
レベル1 | 大まかな概念の解釈: 広範なクエリを理解し、関連する製品カテゴリを提示 | 「キャンプ」→「アウトドア」「スポーツ用品」など |
レベル2 | 製品タイプとサブタイプの発見: ユーザーが特定の製品タイプやサブタイプを識別するのを支援 | 「キャンプ」→「テント」「寝袋」「クッキング用品」など |
レベル3 | 属性ベースの絞り込み: 特定の属性に基づいて検索結果を絞り込み、ユーザーの好みに合わせる | 「テント」→「2人用」「軽量」「防水」など |
この階層構造は、大まかな概念の解釈、製品タイプとサブタイプの発見、属性ベースの絞り込みという、多層的で動的なナビゲーションシステムの中核となっています。
特に、COSMO の機能の中心となるのは、マルチターンナビゲーションです。COSMO は、継続的なレコメンデーションを通じて複数回の検索の絞り込みを提供するという点で優れています。
例えば、「キャンプ」を検索すると、「エアマットレス」などの選択肢が表示され、さらに「キャンプ用エアマットレス」に絞り込まれます。次に、COSMO は、車中泊、山岳キャンプ、4 人用キャンプなど、さまざまなキャンプのニーズに合わせたさまざまなタイプのキャンプ用エアマットレスを提案します。
このように、COSMOはユーザーの検索意図をより深く理解し、段階的に商品を絞り込むことで、ユーザーが求める商品にたどり着きやすくしています。
オンライン実験による効果検証
COSMO をオンライン検索ナビゲーションシステムに統合したことで、ビジネスが大幅に改善され、COSMO-LM ベースのアプリケーションの力と可能性が強調されました。
この結論は、数か月にわたって実施された、Amazon の米国トラフィックの約 10% を対象とした、綿密に実施された Amazon のオンライン A/B テストから導き出されました。
これらの適切に構造化されたテストにより、
- このセグメント内で製品の売上が 0.7% 相対的に増加
- 年間収益が数億ドル増加
したことが明らかになりました。
さらに、
- 同じトラフィックセグメント内でナビゲーションエンゲージメント率が 8% 増加
- 顧客とのやり取りと満足度が向上
したことが明らかになりました。
これらの結果は、限られたショールームの可視性を備えた検索ページ上の単一の比較的小さな機能の実装から導き出されたことを考えると、特に重要です。
この最初の実装の成功は、計り知れない機会を示しています。COSMO-LM の適応をナビゲーションのすべてのトラフィックを網羅するように拡張することで、数十億ドルの収益増加の可能性が見込まれます。
さらに、この有望な結果は、他のさまざまな機能やアプリケーションで COSMO-LM を活用する大きな可能性を強調しており、ユーザーエクスペリエンスとビジネスの成長を強化するための新しい道を開きます。