~重回帰分析で見えた、検索量を動かす“意外な”情報とは~
商品の評価は、成分、価格、口コミといった様々な要因が複雑に絡み合って決まります。その中で、どの要因が本当に消費者の関心や購買意欲に影響を与えているのか(Key Buying Factor)を特定することは、マーケティングにおける永遠の課題です。
この課題を分析する有効な統計手法として「重回帰分析」があります。しかし、この手法を用いるには、各要因を数値化したデータセットを大量に用意する必要があり、その準備にかかる膨大な手間とコストにより、簡単には実施できませんでした。
しかし、ListeningMind APIが提供する大規模な検索データと、ChatGPTの高度な言語処理能力を組み合わせれば、こうした、これまで一部の専門家しか扱えなかった重回帰分析を、工夫次第で様々な対象に対して、極めて短時間で実施することが可能になります。
今回の分析では、美容液市場を取り上げました。美容液の「検索量」を左右する隠れた要因(KBF: Key Buying Factor)の探索を試みます。その結果、これまで「常識」とされてきたこととは少し異なる、意外な関係性が見えてきました。
今回の分析から得られること
- 消費者の“本音”に近い関心事の可視化:
どの情報が検索行動に結びついているかを統計的に分析することで、消費者が本当に重視している情報が何かを推測できます。「専門家・インフルエンサーによる話題性」が検索数と関連が深いことや、「価格」が直接的な検索のきっかけとは言えない可能性などが見えてきます。 - “逆説的”なインサイトの発見:
一般的にアピールすればするほど良いと思われがちな「効果」に関する情報量が、分析上は検索量に対してマイナスの影響を持つという、直感に反する結果を発見。この「なぜ?」を深掘りすることが、新たな戦略の鍵となります。 - データに基づいた仮説構築:
「効果に関する話題が多いのになぜ検索量が下がるのか?」という問いに対し、「“効果なし”といったネガティブな情報もカウントされている可能性がある」という、次のアクションにつながる具体的な仮説を立てられます。 - 新しいマーケティングリサーチ手法の習得:
APIによるデータ収集、生成AIによる定性的な情報の定量化、そして統計分析を組み合わせる一連のプロセスは、従来の手法では時間とコストがかかっていた市場分析を、高速かつ客観的に行うための新しい武器となります。
従来のマーケティングリサーチで用いられる方法
- アンケート/グループインタビュー:
ターゲット層に直接ヒアリングし、購入理由や重視するポイントを調査。しかし、回答者の記憶や主観に頼るため、無意識の行動や本音との間にズレが生じることがあります。 - 雑誌・SNS投稿の目視分析:
美容雑誌やインフルエンサーの投稿、口コミサイトなどを人力で読み解き、トレンドを把握。膨大な情報量の中から示唆を得るには多大な労力が必要で、分析者の主観も入りやすくなります。 - 競合調査:
競合他社が発信しているメッセージやWebサイトの構成を分析。しかし、得られる情報はあくまで他社の戦略であり、それが本当に市場に響いているのかを判断する材料は別途必要になります。
今回の分析の流れ
今回は、市場に流通する主要な美容液を対象に、以下の流れで分析を進めました。
❶ 商品選定と検索量取得
APIを活用し、市場の主要な美容液の商品名と、それぞれの月間検索量を取得。分析の土台となる対象をリストアップします。
❷ 関連キーワードの網羅的収集
各商品について、消費者が検索する際の「関連キーワード」をAPIで網羅的に収集。これにより、各商品がどのような文脈で語られているかを把握します。
❸ 評価軸の設計とデータ集計
収集した大量の関連キーワードを、ChatGPTを用いて「成分」「効果」「価格」など10個の評価軸に分類・集計。これにより、定性的な情報を定量的なデータに変換します。
❹ 重回帰分析による関係性の探索
「検索量」を目的変数、10個の評価軸のデータ(キーワードカウント数)を説明変数として重回帰分析を実施。どの評価軸が検索量に統計的に有意な影響を与えているのかを明らかにします。
実際の分析プロセス部分
では早速始めてみましょう。まずは以下のプロンプトを入力してみます。
APIを活用して、日本の主要な美容液について、商品名を取得し、それぞれの商品名についての検索量も取得してください。
以下のようにデータが取得できました。SERP APIの上限は20件なのですが、検索量を取得できない商品名もあり、結果17件が分析候補として上げられました。重回帰を行うにはもっとデータが欲しいところです。実際、繰り返しAPIへ問い合わせればいいのですが、まだ先は長いですので、今回はこのデータセットで実施します。
【検索量データ取得済みの商品(部分一致含む)】
- コスメデコルテ リポソーム アドバンスト リペアセラム(5,200)
- タカミ タカミスキンピール(63)
- オバジ c25セラム ネオ(906)
- クオリティファースト ダーマレーザー スーパーvc100(210)
- pluest ogハイドレーティングセラム(26)
- pola b.a セラム レブアップ(10)
- ビーグレン cセラム(343)
- 無印良品 発酵導入美容液(3,633)
- フルーシー ビタミンc美容液(386)
- pola リンクルショット メディカル セラム(420)
- SK-II ジェノプティクス オーラエッセンス(5,400, 部分一致: sk-ii 美容液)
- イソップ パセリシードアンチオキシダントセラム(960, 部分一致: イソップ 美容液)
- RMK ダブルセラム(880, 部分一致: rmk 美容液)
- シロ サボン オードパルファン セラム(43, 部分一致: シロ 美容液)
- ユンス 生ビタミンC美白美容液(23,833, 部分一致: ユンス 美容液)
- クラランス ダブル セーラムEX(1,300, 部分一致: クラランス 美容液)
- アテニア ドレススノー ナイトセラム(390, 部分一致: アテニア 美容液)
続いて、これらの各商品について、関連キーワードを取得します。プロンプトは下記のようにします。
APIを使用して、各商品ごとにAPIの上限200件の関連キーワードを取得してください。
了解しました!検索量が取得できた17商品を対象に、各商品ごと「info_by_cluster_post」で最大200件ずつ関連語(話題クラスタ)を取得します。
コスメデコルテ リポソーム アドバンスト リペアセラム→ info_by_cluster_post(limit: 200)で関連語最大200件を取得完了。
続けますか?
今回の場合、1件ごとに続けるかどうかの確認がでました。一気に数件進むこともあると思います。いずれにせよ、データが多いので、一回で17商品分データが取得できずに、何度か続けるよう指示を出すことになると思います。全部の商品分が終了したら、今後は評価軸を設定してもらいます。このあたりは、レーダーチャートのプロンプト例の時と同じです。
これらの商品について比較を行うために、得られた関連キーワードをもとに、評価軸を10件設定してください。
この結果は以下のようになりました。この評価軸が、分析のキモになります。それだけに、恣意的にいろいろと調整するのもよいと思います。今回は試しに、このまま進めてしまいたいと思います。
【17商品の美容液関連語に基づく評価軸10件」】
- バリエーション・容量・セット
- 例:限定、ジャンボ、大容量、定価、サンプル、セット、トライアル
- 成分・処方特徴
- 例:ビタミンC、セラミド、ナイアシンアミド、レチノール、幹細胞、医薬部外品、無添加
- 効果・効能
- 例:美白、毛穴、シワ改善、たるみ、エイジングケア、保湿、シミ、ニキビ、肌荒れ
- 使い方・順番・期間
- 例:使用順番、朝夜、何日持つ、使用感、使い切る、頻度、併用、解約
- 口コミ・レビュー・評価
- 例:口コミ、アットコスメ、LDK、レビュー、好転反応、評判、ブログ、SNS
- 価格・値段・販路
- 例:最安値、Amazon、楽天、ドラッグストア、店舗、通販、定期便
- リニューアル・限定・新商品
- 例:新作、リニューアル、限定、パッケージ変更、コフレ、サンプル付
- 競合・他シリーズ・比較
- 例:他社製品比較、シリーズ違い、類似商品、セット比較、比較サイト
- 専門家・インフルエンサーの話題性
- 例:かずのすけ、田中みな実、YouTuber、SNSバズ、医師コメント、芸能人
- メンズ(性別・年代)
- 例:メンズ美容液、男性口コミ
では、各商品について、この10項目それぞれに該当する関連キーワードをカウントしてもらいます。生成AIはこの、「妥当性を感じる感覚的な作業」がかなり正確(?)にできます。多量のデータに対して定性的な作業が実施できるようになったのは生成AI活用の醍醐味だと思います。もちろん、気になる方は自分でカウントしたり、作業途中のデータを出力させて、内容を確認しても構いません。実際、私も各ステップを確認しながら進めています(ただ、データ量が多いと、表示やCSV出力の処理に時間がかなりかかります)。
17商品について、10項目それぞれについてカウントして表にまとめよ
お待たせしました。
17商品×10軸すべて、関連語リストでの“実数カウント(キーワード件数)”で表を集計します。
- 各評価軸ごとに該当する関連語(シノニムを含む)をリストアップ
- 各商品で該当語が何件含まれるかを件数でカウント
- そのまま表のセル値として記載
【例:コスメデコルテ(実数)】
- バリエーション:13
- 成分:6
- 効果:7
- 使い方:6
- 口コミ:9
- 価格:10
- リニューアル:7
- 競合比較:6
- 専門家:3
- メンズ:1
大丈夫そうだったので、作業を続けてもらいました。結果は以下のようになりました。
【全体表(集計)】
商品名 | バリエーション | 成分 | 効果 | 使い方 | 口コミ | 価格 | リニューアル | 競合比較 | 専門家 | メンズ |
コスメデコルテ | 13 | 6 | 7 | 6 | 9 | 10 | 7 | 6 | 3 | 1 |
タカミ | 4 | 4 | 6 | 5 | 5 | 7 | 3 | 3 | 2 | 1 |
オバジ | 4 | 4 | 6 | 5 | 7 | 8 | 4 | 5 | 2 | 1 |
クオリティファースト | 5 | 5 | 6 | 4 | 6 | 8 | 5 | 3 | 1 | 1 |
pluest | 4 | 4 | 6 | 4 | 5 | 7 | 4 | 3 | 2 | 1 |
エトヴォス | 4 | 5 | 6 | 5 | 6 | 7 | 3 | 3 | 1 | 1 |
ビーグレン | 4 | 5 | 6 | 4 | 5 | 6 | 2 | 3 | 2 | 1 |
無印良品 | 6 | 6 | 6 | 4 | 6 | 6 | 3 | 3 | 2 | 2 |
フルーシー | 5 | 4 | 6 | 4 | 4 | 6 | 3 | 3 | 2 | 1 |
pola リンクルショット | 7 | 4 | 8 | 6 | 6 | 7 | 6 | 5 | 3 | 1 |
sk-ii | 5 | 4 | 6 | 5 | 6 | 6 | 5 | 5 | 2 | 1 |
イソップ | 3 | 5 | 6 | 4 | 4 | 6 | 3 | 3 | 2 | 1 |
rmk | 3 | 3 | 4 | 3 | 3 | 5 | 2 | 3 | 1 | 1 |
シロ | 3 | 3 | 4 | 2 | 3 | 3 | 2 | 2 | 1 | 1 |
ユンス | 4 | 4 | 5 | 4 | 4 | 7 | 3 | 3 | 2 | 1 |
クラランス | 7 | 5 | 6 | 6 | 6 | 6 | 5 | 5 | 2 | 1 |
アテニア | 5 | 4 | 5 | 4 | 4 | 3 | 3 | 2 | 1 | 1 |
では、いよいよ重回帰分析をおこないます。といっても、現在のChatGPT4.1では、下記のように頼むだけで実施可能です。以前は、この処理を行うための前処理やプログラムを出力してもらい、Pythonの実行環境で処理する必要がありました。このあたり、格段に便利になりました。
このデータの内容に基づいて、10件の変数を用いて検索量に対して、重回帰分析せよ
はい、承知いたしました。 10個の変数すべてを投入して、重回帰分析を行いました。分析の結果、これらの変数では検索量の変動をほとんど説明できない、ということが分かりました。言い換えると、このモデルは検索量を予測するのに役立たないと言えます。
評価指標 | 10変数モデル |
R-squared (決定係数) | 0.598 |
Adj. R-squared (自由度調整済み決定係数) | -0.206 |
Prob (F-statistic) (F統計量のp値) | 0.678 |
強い調子で否定されています。特に重要なのが自由度調整済み決定係数 (Adj. R-squared)です。この値は -0.206 とマイナスになっています。マイナスの値は、意味のある予測が全くできていないことを示しており非常に悪い結果です。
しかし、これはあくまでも予想の範囲内です。先ほどの通り、どの変数を使うかが分析の肝であり、それを見越して今回は(試しで)10件を用意しています。この中から3件程度、選んでみましょう。どの3件を選ぶかは、今回はChatGPTに相関係数を計算してもらって推薦してもらうことにします。
各変数と「検索量」との間の相関関係を計算し、おすすめの変数を選んでください。
分析結果
「検索量」との相関が強い(絶対値が大きい)順に並べた結果は以下の通りです。
順位 | 変数名 | 相関係数 | 関係の方向 |
1 | 価格 | 0.204 | 弱い正の相関 |
2 | 専門家 | 0.175 | 弱い正の相関 |
3 | 効果 | -0.136 | 弱い負の相関 |
4 | バリエーション | 0.066 | ほぼ相関なし |
5 | 競合比較 | 0.061 | ほぼ相関なし |
なんとか、価格、専門家、効果については関係性が見いだせる可能性がありそうです。では、再度、分析を行います。
価格、専門家、効果を用いて検索量に対して、重回帰分析せよ
分析結果サマリー
変数 | 回帰係数 | p値 | 解釈(有意性・影響方向) |
価格 | +1247.3 | 0.267 | 正の影響だが有意ではない |
専門家 | +7964.7 | 0.077 | 正の影響、やや有意性あり(10%水準程度) |
効果 | -6485.7 | 0.029 | 負の影響、5%水準で有意 |
定数項 | +17640 | 0.086 | — |
決定係数(R²): 0.368
3変数(価格・専門家・効果)で検索量の約37%を説明できています。
自由度調整済み決定係数(Adj. R-squared): 0.211
この値が 0.211 とプラスに転じました。これは、過学習を抑えつつ、検索量の変動の約21%をこの3つの変数で説明できることを示しており、モデルとして意味をなすようになったことを表します。
F検定のp値: 0.126
モデル全体のp値は 0.126 となり、前回の分析(0.678)から大幅に改善しました。まだ厳密な基準である0.05よりは大きいですが、0.1に近いことから「モデル全体としてある程度は意味があるだろう(有意傾向)」と解釈できるレベルに達しています。
考察・まとめ
- 「専門家」の項目が多い商品は、検索量が増える傾向が強い(10%水準で有意)。
- 「効果」に関する情報が多いほど、むしろ検索量は下がる傾向(5%水準で有意)。
- 「価格」は影響はあるが、有意ではない。
- 3変数モデルのほうが説明力が高く、特に「専門家」と「効果」が検索量に影響している可能性があります。
ついに意味が見いだせました。結果としては、価格は検索量に関係なく、専門家に関する情報が多いほど有利です。また効果に関しては、情報が多いほど不利になるという結果です。これは一見、意外に感じますが、この集計で「効果」の値が大きいことは、「よい効果」を示しているものではありません。あくまでも「効果に関する情報がたくさんカウントされた」というだけで、中には「失望した」という情報もありえるわけです。この発見は、非常に重要で、「効果に関してはネガティブな情報が伝達されやすい可能性がある」ともいえ、今後、分析を深めていく、重要な手がかりです。
最後に回帰係数のグラフを表示します。
まとめ
今回の分析は、APIと生成AIを組み合わせることで、従来のリサーチ手法では見えにくかった市場のインサイトをデータドリブンで発見できる可能性を示しました。もちろん前処理や指標のカウントなど、あくまでも簡易な方法ではありますが、どんな業界についても、気になったときに、その場で分析できるというのは、大きな前進だと言えるでしょう。
今回の分析での発見は、「効果」に関する言及量が多いほど、検索量が下がる傾向が見られたことです。これは、ユーザーが「効果」という言葉を検索する際、単に良い情報を求めているだけでなく、「(期待した)効果がない」「副作用があった」といったネガティブな情報を確認・検証する目的で検索している可能性を示唆しています。
つまり、マーケティング担当者は、自社製品に関する情報の「量」だけでなく、その「文脈」や「質(ポジティブかネガティブか)」を深く理解する必要があるということです。今回の分析アプローチは、そうした消費者の複雑な心理や行動を解き明かすための、第一歩となるでしょう。
注記
本記事は、検索データに基づく分析事例であり、特定のブランドや製品のマーケティング戦略を代弁または評価することを目的としたものではありません。
使用されているキーワードは、実際の検索ボリューム、サジェスト、関連検索語などの情報をもとに収集されたものであり、消費者の関心や情報探索パターンを理解するための分析例として提示しています。
記載されているブランド名および製品は、分析構造を説明するための事例として引用しており、各企業の公式な見解や実際の施策とは関係ありません。
本文の内容は筆者個人の見解に基づくものであり、誹謗中傷、歪曲、営利目的は一切含まれておりません。