非公開

【採用背景】
■ベネッセでは、各事業（『進研ゼミ』『こどもちゃれんじ』『学校向け教育事業』『社会人向け教育事業』『妊娠出産･育児等の生活サービス』etc.の事業領域)のデータを活用し、お客様の課題解決、サービス価値向上実現のため、事業・サービスやマーケティングの進化、事業グロースにおけるデータ利活用を支える、機械学習やAIを活用したサービスや仕組み作りに注力しております。

■本求人はAI/AIエージェント関連プロジェクトにおいて、品質基準の設計、評価運用、改善サイクルの定着をリードするポジションです。個別案件への対応に加え、評価観点やリリース判定の考え方を横断的に整備し、AI活用を担う開発組織全体の水準向上に貢献いただくことを期待します。

仕事内容
生成AI/AIエージェントの品質基準・評価設計・継続改善を担う技術リードいただきます。

【具体的な業務内容】
■担当するAI/AIエージェントプロジェクトや主要ユースケースについて、品質基準とリリース判定基準を定義。
■新規機能の品質評価、回帰評価、安全性評価の観点で、評価データセット、評価基準、自動評価ロジック、テスト環境を設計・運用。
■オフライン評価と人手レビューを組み合わせ、回答品質、根拠性、一貫性、安全性、コスト、レイテンシの観点で品質を可視化。
■本番環境のオンライン指標、ログ、ユーザーフィードバックをもとに、改善仮説の立案から検証までをリード。
■段階リリース、A/Bテスト、切り戻しや代替動作の判断に必要な品質信号を整備する
Prompt、RAG、tool use、workflow 設計の改善提案を行い、Applied AI Engineering 担当と協働して品質改善。
■共通の評価基盤、ダッシュボード、品質運用フローについて AI Platform & Reliability 担当と連携し、再利用可能な仕組みに落とし込む。
■品質事故や評価結果を踏まえた再発防止策をドキュメント化し、組織の判断基準を育てる

【入社後の成果イメージ】
■6か月以内に、BenesseのAI/AIエージェント活用プロジェクトを対象に、評価・品質の基本となる観点、進め方、評価運用の型を整備し、具体的な案件で活用を始めている。主要なプロジェクトにおいて、品質観点、評価項目、リリース判断の考え方が言語化され、関係者が共通の前提で議論できる状態をつくる。
■18か月以内に、開発組織への知見展開と標準化をリードし、AIソリューションの評価・品質観点におけるベストプラクティスが複数プロジェクトで再利用され、再現性の高いプロジェクト運営ができる状態を実現している。案件ごとの属人的な判断に依存せず、評価設計、改善サイクル、リリース判断の進め方が組織知として定着。

※外部パートナー（大手クラウドベンダーやベンチャー企業など）、研究機関と連携しながら、知見を高めていくことができます。また資格研修やセミナー参加なども推奨しています。
AIエンジニアとしての専門性を高めつつ、BizDevやデータエンジニアなど、領域を拡大するキャリアの広げ方も可能です。

コンサルタント臼木裕香

職種

IT系／PM/PL（Web系・オープン系・パッケージ開発）、IT系／システムエンジニア（Web系・オープン系・パッケージ開発）、IT系／品質管理・QA、IT系／データサイエンティスト、IT系／データエンジニア

年収

950万円～1250万円

勤務地

東京都

応募資格

【応募条件（MUST）】
■ソフトウェアエンジニアリング、データ基盤、ML、Security、Platform、Backend のいずれかの領域で、5年以上の実務経験
■Tech Lead またはそれに準ずる立場で、技術方針の決定や実装推進を担った経験
■LLM、RAG、AIエージェントを活用した機能またはシステムについて1年以上の実務経験があり、本番導入または継続運用に関わった案件経験
■評価指標設計、評価データセット設計、または回帰評価設計を含む品質改善サイクルを設計・運用した案件経験
■オフライン評価、オンライン指標、A/Bテスト、モニタリング、人手レビューまたは自動評価を組み合わせて品質を運用した経験
■品質課題を分解し、Prompt、RAG、モデル選定、tool use、UX、運用フローのどこを改善すべきかを判断し、改善につなげた経験
■Pythonを中心とした実装力、ならびにAPI/バックエンド/データ処理のいずれかの実務経験
■PdM・企画担当者、エンジニア、業務側メンバーと協働し、品質基準を意思決定に接続した経験

【歓迎条件（WANT）】
■Data Engineer、ML Engineer、Research Engineer、Security Engineer、Platform Engineer、Backend Engineer などの基礎技術領域で、専門性を磨いてきた経験
■情報理工学系または関連分野での学士号、またはそれに準ずる基礎知識
■教育、学習、B2C/B2B SaaS、ヘルスケア、法務、金融など高信頼領域でのAI運用経験
Ragas、DeepEval、OpenAI Evals、Langfuse、Arize Phoenix など評価・観測ツールの利用経験
■敵対的テスト、レッドチーミング、プロンプトインジェクション対策、ハルシネーション対策の実務経験
■検索品質、RAG評価、ランキング評価、推薦評価の経験
■ファインチューニング、追加学習、またはモデルカスタマイズの経験
■品質基盤やMLOps基盤の設計経験
■技術発信、社内標準化、プレイブック作成の経験

不問

学歴

大卒、短大卒、専卒

雇用形態

正社員（期間の定めなし）

勤務時間

9:30～17:30 スーパーフレックス制／裁量労働制（7時間勤務）
1日の所定労働時間：7時間

休日・休暇

土、日、祝日
年間休日　120日
夏季休暇、年末年始休暇、育児休暇、介護休暇、慶弔休暇、その他休暇
年末年始（12月30日～1月4日）・夏期休暇（6月1日～9月30日の間で連続3日）、その他（赴任、服喪、結婚、生理、通院、出産、公務、裁判員、看護、公傷病、介護、ボランティア、スキルアップ休暇など）

待遇・福利厚生

確定拠出年金（401K）、研修制度、従業員持株制度
カフェテリアプラン, 賃貸住宅手当,従業員持ち株会,確定給付年金,確定拠出型年金,定期健康診断,②公募制度（年1回）
健康保険、厚生年金、労災、雇用保険
通勤交通費（全額）、退職金手当、その他手当

受動喫煙防止措置

屋内禁煙

企業名

非公開

業種・資本

IT・通信系（ソフトウェア・SaaS）、IT・通信系（インターネット関連）、サービス系（教育・研修）
ヘッドオフィス：国内

Senior Tech Lead - AI Quality & Evaluation

950万円～1250万円

東京都

ジョブNo.853443 Senior Tech Lead - AI Quality & Evaluation

非公開

募集要項

企業情報

Senior Tech Lead - AI Quality & Evaluation