栄養成分表データ抽出AI最前線と事例8選徹底解説

May 30, 2025July 30, 2025

URLをコピーしました！

この記事の執筆者：掛谷知秀

株式会社スクーティー　取締役社長

デジタル一眼レフカメラのファームウェア開発、広告システムの設計、実装、管理などを経て、2012年にベトナムに渡航。2015年に株式会社スクーティー創業。ベトナムでのシステム開発歴14年、AI開発歴5年。大企業向けRAGやAI-OCRシステムを10社以上に導入しており、その他案件数は300件を超える。新規案件のほぼ100%がAIを活用したシステム開発案件。技術的な観点から実用性の高い情報を提供します。

こんにちは、スクーティー代表のかけやと申します。

弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。

本記事では、従来の手作業による栄養成分表データ抽出の問題点（1件あたり約2分の作業時間とヒューマンエラーのリスク）に対し、Nutri‐Scoreの計算や新規市場展開における大量データベース構築を迅速かつ高精度に実現する「栄養成分表データ抽出 AI」の最新技術と事例について解説します。

栄養成分表データ抽出AIの重要性と現状

まず、OCR について知りたいという方は、ぜひこちらの記事を先にご覧ください。
関連記事：Tesseract OCRの完全解説：インストールから活用事例、最新技術との比較まで

株式会社スクーティーブログ – 生…

Tesseract OCRの完全解説：インストールから活用事例、最新技術との比較まで – 株式会社スクーティーブロ… tesseract-ocrは、画像からテキストを抽出するオープンソースのOCRエンジンで、Pythonとの連携が可能。インストール方法や活用事例、最新技術との比較を解説。

関連記事：olmOCR : PDFテキスト抽出を1/32のコストで実現！？

株式会社スクーティーブログ – 生…

olmOCR : PDFテキスト抽出を1/32のコストで実現！？ – 株式会社スクーティーブログ olmOCR は、AIを活用してPDFから高精度にテキストを抽出する革新的なツールです。従来のOCRツールと比較して、最大1/32のコストで処理が可能。多様な文書に対応し、構造化…

なぜ栄養成分表データ抽出 AIが必要か

従来、食品の栄養品質評価（Nutri‐Score計算や製品間の健康比較など）に必要な栄養成分表は、以下の理由から手作業では限界がありました：

1製品あたり約2分かかるため、100万製品ではフルタイム作業で約10年が必要
入力ミスやヒューマンエラーが頻発する
欠落情報への対応が困難で、規制対応と国際展開に支障をきたす

これに対し、最新のAI技術を活用することで、食品ラベル画像やPDFからカロリー・タンパク質・炭水化物・原材料・アレルゲンなどの情報を自動的かつ正確に抽出し、以下のメリットを実現します：

迅速なデータ抽出によるNutri‐Scoreの自動計算とデータベース更新
不足情報の自動補完と、入力値の正確性チェック
食品表示規制に即応した正確なデータの提供

このような取り組みは、消費者が健康的な選択をするための基盤となり、企業や研究機関による新たなデジタルトランスフォーメーションの推進にも寄与します。

食品ラベルの情報収集に膨大な時間とコストがかかっていませんか？

最新の生成AI-OCRなら、100ページ以上のPDFカタログからでも商品情報を高速・高精度で抽出可能です。人手作業を70%以上削減し、手間を丸ごとAIに任せることができます。

生成AI-OCRについて無料相談する

従来手法の課題とAI導入メリット

従来の栄養成分表抽出手法は主に以下の課題がありました：

膨大な作業時間：1製品あたり約2分の手入力が必要
ヒューマンエラーの発生：入力ミスによる不正確なデータ
従来OCRの限界：多様なフォント・レイアウトや手書き情報には十分対応できなかった

これに対し、現行の「栄養成分表データ抽出 AI」は以下の点で改善を図っています：

最新のOCRおよびNLP技術により、食品ラベル画像から正確な文字読み取りと意味抽出を実現
視覚言語モデル（VLM）が文脈情報を考慮し、略語展開や不足情報の予測が可能
API連携による既存システムとのシームレスな統合で、業務効率が飛躍的に向上

コア技術とアプローチ

OCR（光学文字認識）によるテキスト化

OCRは、食品ラベル画像（PNG、JPEG、PDF）から文字情報を自動的に抽出する最初のステップです。Koncile.aiは、以下の点で高精度なOCR技術を提供しています：

カロリー、主要栄養素、アレルゲン、原材料、エネルギー値の自動抽出
手書き文字にも対応し、複数フォーマット（JSON、スプレッドシート等）への変換が可能

NLP（自然言語処理）とVLM（視覚言語モデル）の活用

OCRで得られた生テキストだけでは十分な意味付加ができないため、NLP技術で以下の処理を行います：

テキストのトークン化：各単語や句の分割
固有表現認識：「タンパク質 10g」のように栄養素と数値・単位を抽出

さらに、視覚言語モデル（VLM）は、以下の点でOCR結果を補完します：

文脈に応じた略語展開（例：「sat.」→「saturated fat」）
不足情報の予測とデータのインテリジェントな構造化

Roboflow Workflowsの設定例では、OpenAIのGPT-4oのAPIキー設定画面が用いられ、プロンプトに基づいてJSON形式の出力が得られます。

表構造認識とキー・バリュー抽出

多くの食品ラベルは表形式で情報が提示されているため、以下の手法が採用されます：

表の行・列・セルの検出：正規表現やクラスタリングを活用
キー（栄養素名）とバリュー（数値・単位）の正確なペアリング

Koncile.aiでは、あらかじめ定義された抽出フィールドに基づき、各項目を以下のように抽出します。

名前	タイプ	例	ガイドライン
カロリー (kcal)	数値	250	“kcal”または”kJ”の単位を確認。100gまたは1食あたりの値。
タンパク質 (g)	数値	30	数値のみ抽出。
炭水化物 (g)	数値	50	単位に注意して抽出。
原材料	テキスト	小麦粉、砂糖、脱脂粉乳、卵、ひまわり油、塩	「原材料」のセクションからカンマ区切りのリストへ整形。
アレルゲン	テキスト	グルテン、乳、卵	対象セクションを検出し、JSONリストに変換。用語の統一を実施。

このようにして、食品ラベル上の表形式情報を正確に抽出・整形し、下流システムで利用可能な構造化データに変換します。

深層学習モデル（CNN, LayoutLMv3など）の活用事例

深層学習モデルは、以下の点で「栄養成分表データ抽出 AI」の核となります：

CNN： 食品画像内の特徴を階層的に抽出し、食品ラベルの領域検出を高精度で実施
※ システマティックレビューでは約79%の手法に採用
LayoutLMv3： テキスト、画像、レイアウト情報を統合的に処理し、複雑なラベル解析に適用。Dataloop.aiのNutrition Extractorモデルは、F1スコア0.9439、Precision 0.9400、Recall 0.9478と高い性能を実現

End-to-Endモデルと外部API連携

End-to-Endモデルでは、入力画像から直接各栄養項目をスコアリングし、最も確度の高い結果を選択することで、従来の各中間ステップにおける誤差を低減します。具体例としては：

Microsoft Form Recognizer APIやGoogle Document AI APIの採用
Mindee.com、Koncile.aiのOCRソリューションをREST APIで提供し、抽出データをJSON、XLSX、CSV形式へ変換

製品ごとに違うレイアウト対応で困っていませんか？生成AI-OCRなら複雑な栄養成分表でも自由度高くフィールドを定義し、構造化データとして簡単に出力可能です。これ、もう任せたいかも…と思ったらぜひご相談ください。

生成AI-OCRでデータ抽出を依頼する

主要ソリューションとツール解説

Open Food Factsの取り組み

Open Food Factsは、以下の特徴を持つオープンデータベースプロジェクトです：

世界中の食品ラベル画像の収集と公開
OCR出力に正規表現やクラスタリングを組み合わせ、Nutri‐Score計算に必要なデータ抽出を実施
TableNetやGraphNetなど先進モデルも試行され、継続的に精度向上に努めています

Koncile.ai：カスタマイズ可能なAI OCRソフトウェア

Koncile.aiは、食品ラベル画像から以下の主要な栄養情報を抽出可能な高精度OCRソフトウェアを提供しています：

カロリー、タンパク質、炭水化物、原材料、アレルゲン
自由に抽出フィールドを追加・変更できるカスタマイズ性
抽出結果をJSON、XLSX、CSV形式で出力し、既存システムとの統合が容易
セキュリティ対策として、顧客データの暗号化やRGPD準拠を実施

以下の表は、Koncile.aiの抽出フィールドの具体例を示しています。

名前	タイプ	例	ガイドライン
カロリー (kcal)	数値	250	“kcal”または”kJ”の単位を確認。100gまたは1食あたりの値。
タンパク質 (g)	数値	30	数値のみ抽出。
炭水化物 (g)	数値	50	単位に注意して抽出。
原材料	テキスト	小麦粉、砂糖、脱脂粉乳、卵、ひまわり油、塩	「原材料」のセクションからカンマ区切りのリストへ整形。
アレルゲン	テキスト	グルテン、乳、卵	対象セクションを検出し、JSONリストに変換。用語の統一を実施。

Mindee.com：栄養成分表示ラベルデータ抽出API

Mindee.comは、開発者向けに以下の特徴を持つ栄養成分表示ラベルデータ抽出APIを提供しています：

提供量、カロリー、主要栄養素、原材料、アレルゲンの自動抽出
50カ国以上の言語・レイアウトに対応
PDFで約1.3秒、画像で約0.9秒の高速OCR処理
HTTP GETリクエストとJSON形式のレスポンスで、容易に組み込み可能

Productify.ai：GS1コード連携で標準化

Productify.aiは、以下の特徴で食品パッケージからの栄養成分表データ抽出を実現しています：

AIとOCR技術による高精度で乱れた画像からの情報抽出
抽出された各栄養成分をGS1のT4073コードに基づいて標準化
製品カタログ自動化、特定食の自動フラグ付けが可能

Roboflow：VLMを用いた食品ラベルOCRワークフロー

Roboflowは、食品ラベルの多様なレイアウトや複雑性に対応するために、視覚言語モデル（VLM）の活用を推進しています。この手法の特徴は以下の通りです：

OCR結果に文脈情報を加えることで、略語の展開や不足情報の予測が可能
OpenAIのGPT-4oなどのVLMを利用して、抽出結果を高精度なJSON形式へ変換
プロンプトとJSONパーサーブロックの設定により、ユーザが容易に結果を利用できる

Dataloop.ai：Nutrition Extractorモデル

Dataloop.aiのNutrition Extractorモデルは、MicrosoftのLayoutLMv3-Largeをファインチューニングした専用モデルで、以下の実績を持っています：

Precision：0.9400
Recall：0.9478
F1スコア：0.9439

API-Ninjas：テキストからの栄養抽出 API

API-NinjasのNutrition APIは、自由記述のテキストから栄養情報を抽出するシンプルで効果的なツールです。具体的な特徴は：

食品名、カロリー、脂質、タンパク質、ナトリウム、カリウム、コレステロール、炭水化物、食物繊維、糖類などの詳細抽出
HTTP GETリクエストによる簡単なAPI呼び出しと、JSON形式のレスポンス

GitHub上のオープンソースプロジェクト例（Prbn/NutriLensAI）

GitHubで公開されている「Prbn/NutriLensAI」プロジェクトは、OCR、NLP、LLMを組み合わせ、食品ラベルやレシピ画像から栄養情報を自動抽出するためのオープンソースツールです。主な特徴は：

EasyOCRを利用して画像からテキスト抽出
NLPでトークン化し、固有表現認識を適用
LLMにより文脈分析と推奨出力を実現
最終的にJSON形式で構造化されたデータを出力

データセット構築と評価指標、透明性の確保

データセット開発の現状と課題

「栄養成分表データ抽出 AI」の性能向上には、以下の点が不可欠です：

多様な食品画像（各国、言語、複雑なレイアウト）の大規模収集
正確なアノテーションと一貫性の維持
撮影条件（照明、角度、解像度）のばらつきを反映したデータセットの構築
グラウンドトゥルースの定義と評価基準の標準化

リライト元記事のシステマティックレビューでは、食品画像からのカロリー推定で平均相対誤差が0.10％〜38.3％と幅広い結果が出ていることから、標準化された評価が必要であるとされています。本節では、アノテーションキャンペーンやデータ拡張手法の導入、さらには共通の評価基準整備について詳しく解説します。

AIモデル品質メトリクスと評価方法

品質評価には、以下の指標が用いられます：

Precision（適合率）
Recall（再現率）
F1スコア
平均相対誤差（例：0.10％〜38.3％）
RMSE（Root Mean Square Error）／MSE（Mean Square Error）

Open Food Factsでは、「Quality metrics」としてゴールデンセットに基づく評価方法が定義されており、各モデルの抽出結果を客観的に比較できるようにしています。本節では、これらの評価指標の算出方法と実際の数値例について詳述し、システム品質向上のための取り組みを説明します。

AI Nutrition Factsラベルで透明性向上

Twilioが提唱する「AI Nutrition Factsラベル」は、以下の情報を含むことで、ユーザーに対して透明性と信頼性を提供します：

モデルタイプおよびベースモデル（例：OpenAI GPT-4）
顧客データの使用状況
データ削除オプションと人間による介在の有無
ロギング、監査、入力／出力の一貫性に関する情報

生成AIの透明性やデータ管理に不安を感じていませんか？

生成AI-OCRなら、顧客データの安全性を徹底し、各工程のログ監査も標準対応。情報漏洩リスクを低減し、安心して業務効率化を進められます。“これ、もうAIに任せたいかも…”と思ったら、ぜひ一度ご相談ください。

生成AI-OCRのセキュリティ対策を確認

応用事例と今後の展望

make-a-image-without-any-text-related-to-all-of-th 5 - 株式会社スクーティーブログ

Nutri‐Score計算と製品カタログ自動化への応用

「栄養成分表データ抽出 AI」は、食品のNutri‐Score計算の自動化と製品カタログ更新において大きな成果を上げています。具体的な効果は以下の通りです：

Nutri‐Scoreの自動計算： 抽出された栄養データに基づき、評価が即時に算出され、消費者に健康的な選択を促進
製品カタログ自動化： Productify.aiでは、抽出データをGS1コード連携で標準化し、製品情報の自動入力が実現。更新スピードと正確性が向上

パーソナライゼーションと食事推奨システムへの展開

正確な栄養データは、個々の健康状態や食事嗜好に合わせたパーソナライズド栄養指導・食事推奨システムの基盤となります。例えば：

スマートフォンアプリ： NYU Tandonの研究では、撮影画像からYOLOv8‐mで食品アイテムを検出し、面積や密度からカロリーと栄養素を推定するシステムが開発されています。
深層生成モデルとLLM： 変分オートエンコーダとGRUにより、個々の身体測定値と健康データに応じた食事プランを自動生成し、ChatGPTで食事データの拡充を実現する手法を提案しています。

研究分野におけるシステマティックレビューと今後の展望

システマティックレビューによれば、食品画像からのカロリー推定で平均相対誤差が0.10％〜38.3％と幅広く報告されており、以下が課題として挙げられています：

食品画像データベースや報告結果の多様性
グラウンドトゥルースの定義のばらつき
共通の評価指標（Precision、Recall、F1スコア、RMSEなど）の必要性

Open Food Factsや各研究グループは、以下の方向性で今後の進展が期待されています：

大規模で標準化された食品画像データセットの構築
評価指標の統一と透明性の高い結果報告
バイアス評価ツールの開発と倫理的配慮

今後の技術的課題と研究開発の方向性

「栄養成分表データ抽出 AI」は急速に進歩していますが、実用化に向けて以下の技術的課題に取り組む必要があります：

画像前処理技術の高度化（低照度、円筒形画像の歪み補正）
データ拡張技術の導入と大規模アノテーションの整備
Explainable AIによるモデルの判断根拠の可視化
マルチモーダルデータの統合（テキスト、画像、センサーデータ）
エッジコンピューティングやリアルタイム処理に適した軽量モデルの開発
倫理的配慮とバイアス低減のための検証ツールの開発

これらの課題に対応することで、食品業界、ヘルスケア、パーソナライズド栄養指導など、幅広い分野でのAI応用が一層進むと期待されます。

本記事は、リライト元記事の情報に基づき、最新の技術動向と実証事例、定量的な評価指標を包括的に解説するとともに、今後の研究開発の方向性を示すものです。各セクションにおける具体例や図表は、実務担当者や研究者が現行システムの導入や改善に参考にできる貴重な情報となることを期待しています。

本記事をご覧いただいた方にはこちらの資料がおすすめです！

【目的別】生成AIの使い方がわかる！生成AI活用事例集

「生成AIって色々ありすぎてよくわからない・・・」という方向けに、汎用型生成AIであるChatGPT、Claude、Gemini、Perplexityの比較や、画像、音声、動画生成のツールなどを、どの様な場面のときにどのように使用するのが効果的かという点を重点的に、事例をまとめて紹介いたします。これを読めば、生成AIの効果的な使い方がわかります！本資料は、

生成AIとはなに？
ChatGPTを使ってみよう
生成AIを業務で活用する
生成AIツールを使いこなす
生成AI利用の注意点

といった内容の構成になっており、ChatGPTや生成AIの基礎から、業務上の実務的な使用方法までをお伝えする資料です。

このような方にオススメ

ChatGPTや生成AIの基礎を知りたい方
ChatGPTや生成AIの基礎は理解しているが、有効な活用方法を知りたい方
生成AIの効果的な業務活用方法を知りたい方

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @scuti_jp

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！