HuggingFaceが韓国の公式統計データに基づいた700万個の合成ペルソナデータセット「Nemotron-Personas-Korea」を公開。敬語表現や職業パターンなど韓国文化に適応したAIエージェントの構築を20分で実現できる。
韓国のAIエージェントを合成ペルソナでリアルデータに基づかせる方法
Enterprise + 記事 公開日:2026年4月21日
現在のAIエージェントを支えるモデルの大多数は、主に英語のウェブデータで学習されている。このため、韓国の敬語体系や地域別の職業パターン、韓国ユーザーが期待する文化的背景が欠落している。米国のヘルスケアワークフローを韓国の公衆衛生システムに適用するエージェントは本番環境での運用には適さない。
Nemotron-Personas-Koreaがこの課題を解決する。このデータセットは、韓国統計庁(KOSIS)の公式統計情報、大法院、国民健康保険公団、韓国農村経済研究院から提供されたシードデータに基づいた、700万個の完全な合成ペルソナを提供する。NAVER Cloudは設計段階で補助データと領域専門知識を提供した。
すべてのペルソナは人口統計的に正確でありながら、個人識別情報(PII)は一切含まない。韓国の個人情報保護法(PIPA)を念頭に設計されている。韓国はまた、公式な合成データ生成ガイドを発行する数少ない国の一つであり、機密データの合成版でモデルを基礎づけることに関する統治を確立している。このデータセットはそのアプローチに従っている。
このチュートリアルでは、ホストされたAPIを使用して、データセットのフィルタリングから推論(inference)まで、約20分でホストされたAPIを使用して合成ペルソナを配備された韓国エージェントに変えていく。
韓国の主権的なデータセット
ペルソナ総数:700万個(100万レコード × 各7ペルソナ) ペルソナフィールド:26フィールド(7つのペルソナフィールド、6つのペルソナ属性フィールド、12の人口統計・地理的文脈フィールド、1つの一意識別子) 地理的範囲:韓国の全17の道・市、および25の区 名前:約209,000個のユニークな名前(118の姓、約21,400の名前) 職業:科学技術、製造、公共部門など2,000以上のカテゴリー ペルソナタイプ:プロフェッショナル、家族、スポーツ、芸術、旅行、料理、簡潔版 ライフステージ:学生、兵役、就業中、失業、退職 言語:自然な韓国語 ライセンス:CC BY 4.0
Nemotron-Personas-Koreaは、NVIDIAのオープンソース複合AI(compound AI)システムであるNeMo Data Designerを使用して生成された。パイプラインは、統計的基礎付けのための確率グラフィカルモデル(Probabilistic Graphical Model、Apache-2.0)とKorean言語ナレーション生成のためのGemma-4-31Bを組み合わせている。人口データはKOSIS(2020~2026年版)から、名前分布は韓国大法院から取得されている。
Nemotron-Personas-Koreaは、Nemotron-Personas Collectiの最新追加版である。
