NVIDIA NCP-AAI Evaluation and Optimization

Use for benchmarking, user-feedback analysis, LLM-as-a-judge, metrics, ablation studies, quality assessment, and systematic tuning.

試験Exams
NCP-AAI
問題数Questions
20
コメント数Comments
0
1 20

表示中 20 / 20 問

1. NCP-AAI トピック 3 問題 181. NCP-AAI Topic 3 Question 18

問題Question

より優れたエージェントをトレーニングするために使用できる NVIDIA フレームワークは何ですか?

  • A. ネモ-RL
  • B. NeMo ガードレール
  • C. TensorRT-LLM

What NVIDIA framework can be used to train a better agent?

  • A. NeMo-RL
  • B. NeMo Guardrails
  • C. TensorRT-LLM

2. NCP-AAI トピック 3 問題 192. NCP-AAI Topic 3 Question 19

問題Question

RAG パイプラインを評価しています。 LLM-as-a-Judge は、無関係な情報を含む応答に対して一貫して高い類似性スコアを割り当てていることがわかります。
最小限の開発労力で最も可能性の高い潜在的な原因として何を調査する必要がありますか?

  • A. 応答生成中に LLM によって使用される温度設定。
  • B. RAG パイプラインを強化するために使用されるナレッジ ベースのサイズ。
  • C. 評価に使用される合成質問の品質。
  • D. LLM-as-a-Judge に応答を評価するよう指示するために使用されるプロンプト。

You are evaluating your RAG pipeline. You notice that the LLM-as-a-Judge consistently assigns high similarity scores to responses that contain irrelevant information.
What should you investigate as the most likely potential cause with the least development effort?

  • A. The temperature setting used by the LLM during response generation.
  • B. The size of the knowledge base used to power the RAG pipeline.
  • C. The quality of the synthetic questions used for evaluation.
  • D. The prompt used to instruct the LLM-as-a-Judge to assess the response.

3. NCP-AAI トピック 3 問題 203. NCP-AAI Topic 3 Question 20

問題Question

あなたは、カスタマー サポート チケットのトリアージを担当するエージェント AI を管理しています。エージェントは一貫して正確にチケットを適切な部門にルーティングしてきました。しかし、チームリーダーは、「エスカレーション」を必要とするチケットの数が大幅に増加していることに気づきました。これは、エージェントが最初に複雑な問題を単純で日常的な問題として誤って分類し、遅延や顧客の不満につながったケースです。
この問題を解決するための適切な最初のステップは何でしょうか?

  • A. エージェントの意思決定プロセスを分析し、チケットを分類するために使用する特定の基準に焦点を当て、潜在的なバイアスや盲点を特定します。
  • B. 問題分析の最初のステップとして、エージェントの報酬関数を調整して、精度よりも解決速度を優先します。
  • C. エージェントの自律性を高め、トリアージ中の意思決定権限を強化して効率を向上させます。
  • D. 「レッドチーム」演習を実施し、人間のエージェントに複雑で曖昧なシナリオを意図的に作成させ、エージェントの堅牢性を分析します。

You’re managing an agentic AI responsible for customer support ticket triage. The agent has been consistently accurate in routing tickets to the appropriate departments. However, a team leader has noticed a significant increase in the number of tickets requiring “escalation” – cases where the agent initially misclassified a complex issue as a simple, routine one, leading to delays and frustrated customers.
What would be an appropriate first step in resolving this issue?

  • A. Analyzing the agent’s decision-making process, focusing on the specific criteria it uses to classify tickets, and identifying potential biases or blind spots.
  • B. Adjusting the agent’s reward function to prioritize speed of resolution over accuracy, as a first step in analysis of the problem.
  • C. Increasing the agent’s autonomy, granting it more decision-making power during triage to improve its efficiency.
  • D. Conducting a “red-teaming” exercise, having human agents deliberately create complex and ambiguous scenarios to analyze the agent’s robustness.

4. NCP-AAI トピック 3 問題 214. NCP-AAI Topic 3 Question 21

問題Question

顧客サービス エージェント AI は、請求に関する問い合わせを解決するように設計されています。常に正確かつ効率的に問い合わせを解決します。しかし、エージェントがやり取りのたびに、すでに提供された後であっても同じ情報 (口座番号、住所) を繰り返し要求する傾向があるため、かなりの数の顧客が不満を報告しています。
この問題を解決するにはどの評価方法が最も効果的でしょうか?

  • A. 顧客満足度よりも解決速度を優先するようにエージェントの報酬関数を調整します。
  • B. エージェントの会話記録を分析して、質問手法のパターンを特定します。
  • C. 「会話フロー」分析を実装して、各対話中に尋ねられる質問の順序を最適化します。
  • D. エージェントの処理速度を向上させて、各問い合わせの処理にかかる時間を短縮し、顧客満足度を向上させます。

A customer service agentic AI is designed to resolve billing inquiries. It consistently resolves inquiries accurately and efficiently. However, a significant number of customers are reporting frustration due to the agent’s tendency to repeatedly ask for the same information (account number, address) during each interaction, even after it’s already been provided.
Which evaluation method would be most effective for addressing this issue?

  • A. Adjusting the agent’s reward function to prioritize speed of resolution over customer satisfaction.
  • B. Analyzing the agent’s dialogue transcripts to identify patterns in its questioning techniques.
  • C. Implementing a “conversational flow” analysis to optimize the order of questions asked during each interaction.
  • D. Increasing the agent’s processing speed to reduce the time it takes to handle each inquiry and increase customer satisfaction.

5. NCP-AAI トピック 3 問題 225. NCP-AAI Topic 3 Question 22

問題Question

金融サービス エージェント AI は、顧客の最初のオンボーディングを自動化するために使用されています。エージェントはプロセスを効率的かつ正確に完了していますが、会話をレビューすると、顧客を混乱させる過度に形式的で複雑な言葉を頻繁に使用していることがわかります。
この問題に対処するにはどのタイプの評価が最適ですか?

  • A. 制御されたユーザー テスト セッションにより、応答の明瞭さとトーンに関するユーザー フィードバックを収集します。
  • B. Compliance review of the agent’s access to regulatory guidelines and policy documentation
  • C. 継続的なユーザーフィードバックの収集、特にエージェントのコミュニケーションスタイルの主観的な評価の収集
  • D. 過度に形式的で複雑な応答選択を検出するためのエージェントの意思決定パターンの統計分析

A financial services agentic AI is being used to automate initial customer onboarding. The agent is completing the process efficiently and accurately, but reviews of its conversations reveal it often uses overly formal and complex language that confuses customers.
Which type of evaluation is best suited to address this issue?

  • A. Controlled user testing sessions to collect user feedback on the clarity and tone of responses
  • B. Compliance review of the agent’s access to regulatory guidelines and policy documentation
  • C. Continuous user feedback collection, specifically gathering subjective assessments of the agent’s communication style
  • D. Statistical analysis of the agent’s decision-making patterns to detect overly formal and complex response choices

6. NCP-AAI トピック 3 問題 236. NCP-AAI Topic 3 Question 23

問題Question

ツールを使用するエージェント (API 呼び出しを発行したり関数を実行したりするエージェントなど) のパフォーマンスを評価しています。以下のリストから、評価すべき 2 つの重要な機能は何ですか? (2つお選びください。)

  • A. 工具使用精度
  • B. 1秒あたりのトークン数
  • C. 工具使用率
  • D. タスク完了率

You’re evaluating the performance of a tool-using agent (e.g., one that issues API calls or executes functions). From the list below, what are two important features to evaluate? (Choose two.)

  • A. Tool use accuracy
  • B. Tokens per second
  • C. Tool use rate
  • D. Task completion rate

7. NCP-AAI トピック 3 問題 247. NCP-AAI Topic 3 Question 24

問題Question

技術文書エージェントを改善するためにユーザーのフィードバック パターンを分析する場合、フィードバックを実行可能な最適化戦略に効果的に変換する評価方法はどれですか? (2つお選びください。)

  • A. 広範なユーザーのフィードバックをそのまま収集し、将来の分析に向けた提案や多様な視点を迅速に蓄積できるようにします。
  • B. バージョン追跡、改善の A/B テスト、回帰監視を使用して反復的なフィードバック ループを設計し、変更によりパフォーマンスが低下するのではなく強化されることを確認します。
  • C. ユーザーの提案を迅速に取り入れて応答性を最大化し、進化するユーザーのニーズへの継続的な適応を実証します。
  • D. 定量的な影響スコアリングと改善の優先順位付けマトリックスを使用して、問題をタイプ (正確さ、明確さ、完全性) ごとにグループ化するフィードバック分類システムを実装します。

When analyzing user feedback patterns to improve a technical documentation agent, which evaluation methods effectively translate feedback into actionable optimization strategies? (Choose two.)

  • A. Collect broad user feedback as-is, enabling rapid accumulation of suggestions and diverse perspectives for potential future analysis.
  • B. Design iterative feedback loops with version tracking, A/B testing of improvements, and regression monitoring to ensure changes enhance rather than degrade performance
  • C. Incorporate user suggestions rapidly to maximize responsiveness and demonstrate continuous adaptation to evolving user needs.
  • D. Implement feedback categorization systems grouping issues by type (accuracy, clarity, completeness) with quantitative impact scoring and improvement prioritization matrices

8. NCP-AAI トピック 3 問題 258. NCP-AAI Topic 3 Question 25

問題Question

エージェントが複数ステップの財務分析タスクを完了できなかったことを分析する場合、信頼性の高いタスクの分解と実行に必要なエンジニアリングの改善を迅速に特定するには、どの評価アプローチが最適ですか?

  • A. 思考連鎖推論テンプレート、段階的な分解分析、さまざまな複雑さのタスクにわたる成功率追跡を使用して、体系的なプロンプト テストを実装します。
  • B. 推論の品質、ステップ完了の精度、複雑な分析要件に対する迅速な明確さよりも、主に応答速度の最適化に重点を置きます。
  • C. テストには、複雑なワークフローの中間推論ステップ、分解品質、およびプロンプト構造の有効性が自動的に含まれるため、最終出力の精度のみをテストします。
  • D. 財務用語、計算ニーズ、または特殊な複数ステップの分析パターンに合わせて調整するのではなく、デフォルトですでに一般用途向けに最適化されている汎用プロンプト テンプレートを利用します。

When analyzing an agent’s failure to complete multi-step financial analysis tasks, which evaluation approach best identifies prompt engineering improvements needed for reliable task decomposition and execution?

  • A. Implement systematic prompt testing with chain-of-thought reasoning templates, step-by-step decomposition analysis, and success rate tracking across tasks of varying complexity.
  • B. Focus primarily on response speed optimization as a primary focus over reasoning quality, step completion accuracy, and prompt clarity for complex analytical requirements.
  • C. Test only final output accuracy as this will automatically include intermediate reasoning steps, decomposition quality, and prompt structure effectiveness for complex workflows.
  • D. Rely on generic prompt templates which are by default already optimized for general use, instead of tailoring them to financial terminology, calculation needs, or specialized multi-step analysis patterns.

9. NCP-AAI トピック 3 問題 269. NCP-AAI Topic 3 Question 26

問題Question

エージェント AI は、さまざまなキャンペーンのマーケティング コピーを生成する役割を果たします。一貫して高品質のテキストを生成し、大きなエンゲージメントを生み出しています。しかし、ブランドマネージャーからの定性的なフィードバックによると、コンテンツには明確な「ブランドの声」が欠けており、一般的であるように感じられます。
ブランドの確立された意見に対するエージェントの遵守を評価するのに最も価値のある指標は次のうちどれですか?

  • A. 人口統計データと心理データに基づいて、エージェントが言語やメッセージを個別の視聴者セグメントに合わせて調整する能力を評価する指標。
  • B. 正式なブランド スタイル ガイドに対するエージェントのテキストの類似性を評価する指標。口調、承認された語彙、規定の文構造などの要素を分析します。
  • C. エージェントのコピーの平均語数と文の長さを追跡する指標。ブランドの整合性を示す潜在的な代用として文体の効率性に焦点を当てています。
  • D. エージェントの出力が主要なソーシャル プラットフォームで共有、いいね、または再投稿される頻度を定量化する指標。これを効果的なブランド表現の指標として使用します。

An agentic AI is tasked with generating marketing copy for various campaigns. It’s consistently producing high-quality text and generating significant engagement. However, qualitative feedback from brand managers indicates that the content lacks a distinct “brand voice” and feels generic.
Which of the following metrics would be most valuable for evaluating the agent’s adherence to the brand’s established voice?

  • A. A metric assessing the agent’s ability to tailor its language and messaging for distinct audience segments based on demographic and psychographic data.
  • B. A metric evaluating the agent’s textual similarity to a formalized brand style guide, analyzing factors such as tone, approved vocabulary, and prescribed sentence structures.
  • C. A metric tracking the average word count and sentence length of the agent’s copy, focusing on stylistic efficiency as a potential proxy for brand alignment.
  • D. A metric quantifying how frequently the agent’s output is shared, liked, or reposted on major social platforms, using this as an indicator of effective brand representation.

10. NCP-AAI トピック 3 問題 2710. NCP-AAI Topic 3 Question 27

問題Question

導入後のエージェントの応答品質が最適化されていないことを分析する場合、最適な構成調整を効果的に特定できるパラメータ調整評価方法はどれですか? (2つお選びください。)

  • A. 個々のパラメータを体系的に変更しながら他のパラメータを一定に保ち、各パラメータがエージェントの動作とパフォーマンスに与える影響を分離するアブレーション研究を設計します。
  • B. すべてのエージェント タイプとタスクに同一のパラメータ設定を適用することで、一貫性が促進され、さまざまなユースケース間の比較が簡素化されます。
  • C. タスク固有の品質指標とユーザー満足度スコアを測定しながら、温度、top-k、top-p の変動を比較する A/B テスト フレームワークを実装します。
  • D. 実稼働トラフィックをパラメータ実験に直接使用することで、現実世界の洞察と影響のある設定の迅速な特定が可能になります。
  • E. すべてのパラメータを同時にランダムに調整することで、より短い時間枠でパラメータ空間をより広範囲に探索できるようになります。

When analyzing suboptimal agent response quality after deployment, which parameter tuning evaluation methods effectively identify the optimal configuration adjustments? (Choose two.)

  • A. Design ablation studies systematically varying individual parameters while holding others constant to isolate each parameter’s impact on agent behavior and performance.
  • B. Apply identical parameter settings across all agent types and tasks, promoting consistency and simplifying comparison across different use cases.
  • C. Implement A/B testing frameworks comparing temperature, top-k, and top-p variations while measuring task-specific quality metrics and user satisfaction scores.
  • D. Use production traffic directly for parameter experiments, enabling real-world insights and faster identification of impactful settings.
  • E. Randomly adjust all parameters simultaneously, allowing for broader exploration of the parameter space in a shorter time frame.

11. NCP-AAI トピック 3 問題 2811. NCP-AAI Topic 3 Question 28

問題Question

あなたは、マーケティング コピーを生成するように設計された 2 つのエージェント AI システム (システム A とシステム B) を比較する任務を負っています。同一のプロンプトを実行し、生成された出力を記録しました。
どのシステムのパフォーマンスが優れているかを客観的に評価するには、最も適切なアプローチは何でしょうか?

  • A. パフォーマンスの主な指標として、各システムのマーケティング コピーのクリックスルー率を測定します。
  • B. 人間参加型を実装して、ユーザーの個人的な好みに基づいて各出力を 1 から 5 のスケールで主観的に評価します。
  • C. 関連性、創造性、文法の正しさなどの指標を使用して、生成された出力を自動的に比較するベンチマーク パイプラインを実装します。
  • D. ユーザーのパネルから評価を収集します。各評価マーケティング コピーは、関連性、創造性、文法の正確さの全体的な印象を 1 から 5 のスケールで評価します。

You are tasked with comparing two agentic AI systems – System A and System B – both designed to generate marketing copy. You’ve run identical prompts and have recorded the generated outputs.
To objectively assess which system is performing better, what is the most appropriate approach?

  • A. Measure the click-through rate for each system’s marketing copy as the primary indicator of performance.
  • B. Implement a human-in-the-loop to subjectively rate each output on a scale of 1 to 5 based on the user’s personal preference.
  • C. Implement a benchmark pipeline that automatically compares the generated outputs using metrics like relevance, creativity, and grammatical correctness.
  • D. Gather ratings from a panel of users, with each rating marketing copy on a 1 to 5 scale for overall impression of relevance, creativity, and grammatical correctness.

12. NCP-AAI トピック 3 問題 2912. NCP-AAI Topic 3 Question 29

問題Question

RAG パイプラインを、合成質問に対する応答を比較することで評価しています。大量の類似性スコアのセットを収集しました。
これらのスコアを 1 つの指標 (平均類似度など) に集約する主な利点は何ですか?

  • A. 集約により、最高の類似性スコアに寄与している RAG パイプライン内の特定のチャンクが特定されます。
  • B. 集計により、評価プロセスの複雑さが軽減され、パイプラインの有効性をより全体的に評価できるようになります。
  • C. 集計により、RAG パイプラインのパフォーマンスがより正確に表現されます。
  • D. 集計により、RAG パイプラインの応答の定性分析が不要になります。

You’re evaluating the RAG pipeline by comparing its responses to synthetic questions. You’ve collected a large set of similarity scores.
What’s the primary benefit of aggregating these scores into a single metric (e.g., average similarity)?

  • A. Aggregation identifies the specific chunks within the RAG pipeline that are contributing to the highest similarity scores.
  • B. Aggregation reduces the complexity of the evaluation process and allows for a more overall assessment of the pipeline’s effectiveness.
  • C. Aggregation provides a more accurate representation of the RAG pipeline’s performance.
  • D. Aggregation eliminates the need for qualitative analysis of the RAG pipeline’s responses.

13. NCP-AAI トピック 3 問題 3013. NCP-AAI Topic 3 Question 30

問題Question

AI ワークフローの設計において、AI エージェントのパフォーマンスを向上させるための包括的なアプローチを最もよく表しているものは次のうちどれですか?

  • A. ベンチマーク パイプラインの実装、物理エージェントの導入、ユーザー エンゲージメント メトリクスの監視
  • B. ベンチマーク パイプラインの実装、ユーザー フィードバックの収集、モデル パラメーターの反復的な調整
  • C. ベンチマーク パイプラインを実装し、リアルタイム フォールバックのための動的データセットを組み込む
  • D. エージェントのスループットとスコアリング エンジンからの最初のトークンまでの時間を監視する

In designing an AI workflow which of the following best describes a comprehensive approach to improving the performance of AI agents?

  • A. Implementing benchmarking pipelines, deploying physical agents and monitoring user engagement metrics
  • B. Implementing benchmarking pipelines, collecting user feedback, and tuning model parameters iteratively
  • C. Implementing benchmarking pipelines and incorporating a dynamic dataset for a real-time fall-back
  • D. Monitoring agents’ throughput and time-to-first-token from the scoring engine

14. NCP-AAI トピック 3 問題 3114. NCP-AAI Topic 3 Question 31

問題Question

あなたは LLM を使用して、カスタマー サービス チームへの電子メール応答の生成を自動化しています。生成された応答は的を外していることが多く、顧客の根本的な懸念に対処できません。
電子メールの応答の品質を向上させるために、プロンプトに追加する最も重要な要素は何ですか?

  • A. わかりやすい構造で応答をフォーマットおよび作成する方法に関する指示を含む詳細なプロンプトを LLM に指示します。
  • B. 応答を生成する前に、すべての電子メール返信に単純なテンプレートを使用するように LLM に指示します。
  • C. 応答を生成する前に「顧客の問題を理解する」よう LLM に指示します。
  • D. 応答を生成する前に、「最も役立つ」応答を提供するように LLM に指示します。

You’re employing an LLM to automate the generation of email responses for a customer service team. The generated responses frequently miss the mark, failing to address the customer’s underlying concerns.
What’s the most crucial element to add to the prompt to enhance the quality of the email responses?

  • A. Instructing the LLM with a detailed prompt containing instructions on how to format and compose the response in an easy-to-understand structure.
  • B. Instructing the LLM to use a simple template for all email replies before generating a response.
  • C. Instructing the LLM to “understand the customer’s issue” before generating a response.
  • D. Instructing the LLM to provide a response that “is the most helpful” before generating a response.

15. NCP-AAI トピック 3 問題 3215. NCP-AAI Topic 3 Question 32

問題Question

サプライチェーンの代理店システムで一連の調整を行った結果、代理店は配送時間を大幅に短縮し、コストを最小限に抑えることができました。しかし、チームは配送の遅延に関する顧客からの大量の苦情を受け取っています。
この状況を調査する際に優先すべき最も重要な指標はどれですか?

  • A. 効率的な物流には正確な予測が不可欠であるため、エージェントは将来の需要変動を予測できます。
  • B. エージェントの最適化によって総コストが削減され、大きな経済的メリットが得られます。
  • C. 顧客満足度を重要な要素として考慮した、許容可能な遅延ウィンドウ内に収まる納期の割合。
  • D. エージェントが規定の配送スケジュールを遵守することで、効率が明らかに向上しています。

After a series of adjustments in a supply chain agentic system, the agent has dramatically reduced shipping times and minimized costs, but the team is receiving a high volume of complaints from customers regarding delayed deliveries.
Which metric is MOST important to prioritize when investigating this situation?

  • A. The agent’s ability to predict future demand fluctuations, as accurate forecasting is crucial for effective logistics.
  • B. The total cost savings achieved through the agent’s optimization, which represents a significant financial benefit.
  • C. The percentage of delivery times that fall within the acceptable delay window, considering customer satisfaction as a key factor.
  • D. The agent’s adherence to the prescribed delivery schedules, as it’s demonstrably improving efficiency.

16. NCP-AAI トピック 3 問題 3316. NCP-AAI Topic 3 Question 33

問題Question

クラウド インフラストラクチャ内の自動インシデント対応用に設計された最近導入された Agentic AI システムは、「優先度の高い」アラート、特に複数の仮想マシンにわたる CPU 使用率の増加に関連するアラートの特定と解決に一貫して失敗しています。初期ログでは、エージェントが CPU メトリクスを無視して、関連するネットワーク トラフィックの急増を伴うアラートに主に焦点を当てていることが示されています。
システムのベンチマークと反復的な改善への依存を考慮した場合、シニア Agentic AI エンジニアがこの問題を解決するために実行する最も適切な最初のステップは何ですか?

  • A. エージェントの評価フレームワークをレビューし、その応答効率とシステム全体のパフォーマンスへの影響を評価するために使用される定義済みのベンチマークに焦点を当てます。
  • B. 現在のベンチマークを調査する最初のステップとして、エージェントの基盤となる AI モデルをより強力な汎用機械学習エンジンに置き換えます。
  • C. エージェントの意思決定モデルをトレーニングするために、さまざまな CPU 負荷プロファイルを含む新しい合成データ セットを実装します。
  • D. 検出精度を最大化するために CPU 使用率アラートに焦点を当てて、エージェントの感度しきい値を確認します。

A recently deployed Agentic AI system designed for automated incident response within a cloud infrastructure has been consistently failing to identify and resolve ‘high-priority’ alerts – specifically, those related to increased CPU utilization across several virtual machines. Initial logs show the agent is primarily focusing on alerts with related network traffic spikes, ignoring the CPU metrics.
What is the most appropriate initial step for a senior Agentic AI engineer to take to resolve this issue, considering the system’s reliance on benchmarking and iterative improvement?

  • A. Review the agent’s evaluation framework, focusing on the defined benchmarks used to assess its response efficiency and impact on overall system performance.
  • B. Replace the agent’s underlying AI model with a more powerful, general-purpose machine learning engine as a first step in investigating current benchmarks.
  • C. Implement a new synthetic data set containing a wide variety of CPU load profiles to train the agent’s decision-making model.
  • D. Review the agent’s sensitivity thresholds, focusing on CPU utilization alerts to maximize detection accuracy.

17. NCP-AAI トピック 3 問題 3417. NCP-AAI Topic 3 Question 34

問題Question

チームは、顧客サポート用に設計された AI エージェントの複数のバージョンを評価しています。彼らは、どのバージョンがより効率的にタスクを完了し、正確に応答し、ユーザーのフィードバックを使用して時間の経過とともに改善できるかを特定したいと考えています。
AI エージェントの継続的な改良と最適なパフォーマンスを確保するには、どの実践が最も重要ですか?

  • A. 標準化されたベンチマーク パイプラインを使用せずに個別のタスクでエージェントを比較する
  • B. チューニング中にライブのユーザーフィードバックを組み込むことなく、オフラインベンチマークのみに依存する
  • C. タスクの効率を定量化し、人間参加型のフィードバックを組み込む評価フレームワークを導入する
  • D. 導入前にモデルパラメータを 1 回調整して初期精度を最大化する

A team is evaluating multiple versions of an AI agent designed for customer support. They want to identify which version completes tasks more efficiently, responds accurately, and improves over time using user feedback.
Which practice is most important to ensure continuous refinement and optimal performance of the AI agent?

  • A. Comparing agents on isolated tasks without standardized benchmarking pipelines
  • B. Relying solely on offline benchmarks without incorporating live user feedback during tuning
  • C. Implementing an evaluation framework that quantifies task efficiency and incorporates human-in-the-loop feedback
  • D. Tuning model parameters once before deployment to maximize initial accuracy

18. NCP-AAI トピック 3 問題 3518. NCP-AAI Topic 3 Question 35

問題Question

同様のクエリを処理する多数のカスタマー サービス エージェント全体で一貫性のないパフォーマンスを分析する場合、根本原因と最適化の機会を最も効果的に特定する評価アプローチはどれですか?

  • A. 最近改善されたエージェントからのパフォーマンス データを評価し、結果の比較を使用してサービス品質に最も大きな影響を与える領域を特定し、強力な結果を強調します。
  • B. すべてのエージェントにわたる平均パフォーマンス メトリック。これにより、個々の変動、クエリ分布の違い、エージェントの動作と精度に影響を与える時間的要因が平滑化されます。
  • C. 比較分析を使用して意思決定パスを追跡しながら、エージェントのバリアント、クエリの複雑さのレベル、時間的パターンにわたって層別評価サンプリングを展開します。
  • D. 高精度エージェント グループと低精度エージェント グループの両方のパフォーマンスをレビューし、ケースの結果を比較し、上位と下位の結果に寄与するパターンを特定します。

When analyzing inconsistent performance across a fleet of customer service agents handling similar queries, which evaluation approach most effectively identifies root causes and optimization opportunities?

  • A. Assess performance data from recently improved agents and highlight strong results, using outcome comparisons to identify areas with the greatest impact on service quality.
  • B. Average performance metrics across all agents as this will smooth individual variations, query distribution differences, and temporal factors affecting agent behavior and accuracy.
  • C. Deploy stratified evaluation sampling across agent variants, query complexity levels, and temporal patterns while tracking decision paths using comparative analytics.
  • D. Review performance across both high- and low-accuracy agent groups, comparing case outcomes and identifying patterns contributing to top and bottom results.

19. NCP-AAI トピック 3 問題 3619. NCP-AAI Topic 3 Question 36

問題Question

LLM-as-a-Judge を使用して RAG パイプラインを評価しています。
人間が作成したテスト ケースのみに依存するのではなく、質問と回答のペアを合成的に生成することの主な利点は何ですか?

  • A. 合成的に生成された質問はより難しく、RAG パイプラインのより深い欠陥が明らかになります。
  • B. 合成生成により、RAG パイプラインの出力を人間が検証する必要がなくなります。
  • C. 合成的に生成された回答は、LLM によって生成された回答よりも本質的に正確です。
  • D. 合成生成により、幅広いシナリオとクエリ タイプにわたる RAG パイプラインの体系的なテストが可能になります。

You are using an LLM-as-a-Judge to evaluate a RAG pipeline.
What is the primary benefit of synthetically generating question-answer pairs, rather than relying solely on human-created test cases?

  • A. Synthetically generated questions are more challenging and reveal deeper flaws in the RAG pipeline.
  • B. Synthetic generation eliminates the need for any human validation of the RAG pipeline’s output.
  • C. Synthetically generated answers are inherently more accurate than those produced by the LLM.
  • D. Synthetic generation allows for systematic testing of the RAG pipeline across a wider range of scenarios and query types.

20. NCP-AAI トピック 3 問題 3820. NCP-AAI Topic 3 Question 38

問題Question

あなたは LLM を利用して、複雑な技術文書を複数の言語に翻訳しています。翻訳にはニュアンスが欠けており、本来の意図を捉えていないことがよくあります。
翻訳の品質を向上させるための最も効果的な戦略は何ですか?

  • A. LLM に重要な用語の用語集、すべての言語の概念、および以前に翻訳されたテキストのデータセットを提供します。
  • B. 翻訳されたテキストのデータセットで LLM をトレーニングします。
  • C. LLM に追加のガイダンスなしで「文書を翻訳する」ためのガイダンスを提供し、訓練された知識を活用できるようにします。
  • D. LLM に、追加のガイダンスなしで「高精度で」翻訳するためのガイダンスを提供し、訓練された知識を活用できるようにします。

You’re utilizing an LLM to translate complex technical documentation into multiple languages. The translations often lack nuance and fail to capture the original intent.
What’s the most effective strategy for improving the quality of the translations?

  • A. Providing the LLM with a glossary of key terms, concepts in all languages and the dataset of previously translated text.
  • B. Training the LLM on a dataset of translated texts.
  • C. Providing the LLM with guidance to “translate the documents” without additional guidance, so it can use trained knowledge.
  • D. Providing the LLM with guidance to translate “with high accuracy” without additional guidance, so it can use trained knowledge.