非公開
【採用背景】
■ベネッセでは、各事業(『進研ゼミ』『こどもちゃれんじ』『学校向け教育事業』『社会人向け教育事業』『妊娠出産・育児等の生活サービス』etc.の事業領域)のデータを活用し、お客様の課題解決、サービス価値向上実現のため、事業・サービスやマーケティングの進化、事業グロースにおけるデータ利活用を支える、機械学習やAIを活用したサービスや仕組み作りに注力しております。
■本求人はAI/AIエージェント関連プロジェクトにおいて、品質基準の設計、評価運用、改善サイクルの定着をリードするポジションです。個別案件への対応に加え、評価観点やリリース判定の考え方を横断的に整備し、AI活用を担う開発組織全体の水準向上に貢献いただくことを期待します。
仕事内容
生成AI/AIエージェントの品質基準・評価設計・継続改善を担う技術リードいただきます。
【具体的な業務内容】
■担当するAI/AIエージェントプロジェクトや主要ユースケースについて、品質基準とリリース判定基準を定義。
■新規機能の品質評価、回帰評価、安全性評価の観点で、評価データセット、評価基準、自動評価ロジック、テスト環境を設計・運用。
■オフライン評価と人手レビューを組み合わせ、回答品質、根拠性、一貫性、安全性、コスト、レイテンシの観点で品質を可視化。
■本番環境のオンライン指標、ログ、ユーザーフィードバックをもとに、改善仮説の立案から検証までをリード。
■段階リリース、A/Bテスト、切り戻しや代替動作の判断に必要な品質信号を整備する
Prompt、RAG、tool use、workflow 設計の改善提案を行い、Applied AI Engineering 担当と協働して品質改善。
■共通の評価基盤、ダッシュボード、品質運用フローについて AI Platform & Reliability 担当と連携し、再利用可能な仕組みに落とし込む。
■品質事故や評価結果を踏まえた再発防止策をドキュメント化し、組織の判断基準を育てる
【入社後の成果イメージ】
■6か月以内に、BenesseのAI/AIエージェント活用プロジェクトを対象に、評価・品質の基本となる観点、進め方、評価運用の型を整備し、具体的な案件で活用を始めている。主要なプロジェクトにおいて、品質観点、評価項目、リリース判断の考え方が言語化され、関係者が共通の前提で議論できる状態をつくる。
■18か月以内に、開発組織への知見展開と標準化をリードし、AIソリューションの評価・品質観点におけるベストプラクティスが複数プロジェクトで再利用され、再現性の高いプロジェクト運営ができる状態を実現している。案件ごとの属人的な判断に依存せず、評価設計、改善サイクル、リリース判断の進め方が組織知として定着。
※外部パートナー(大手クラウドベンダーやベンチャー企業など)、研究機関と連携しながら、知見を高めていくことができます。また資格研修やセミナー参加なども推奨しています。
AIエンジニアとしての専門性を高めつつ、BizDevやデータエンジニアなど、領域を拡大するキャリアの広げ方も可能です。