Kubernetes 运维工程师的面试笔记与经验分享

这位面试者是一位有着5年工作经验的Kubernetes运维工程师。他在这次面试中展示了他的技能和对Kubernetes系统的深入了解。他回答了许多涉及Kubernetes核心概念和功能的问题，包括ScorePlugin、node-score、BalancedAllocationName插件和CalculateScore过程中的问题。他还分享了一些实际项目中的经验和遇到的挑战，显示出他在解决实际问题和面对困难时的能力。此外，他还讨论了Score Scheduler的依赖关系和参数日志level的使用，展现了他对Kubernetes管理的全面理解。

岗位： Kubernetes 运维工程师 从业年限： 5年

简介： Kubernetes 专家，擅长 ScorePlugin 和 node-affinity 的使用，善于利用日志信息分析系统性能，关注参数日志调试。

问题1：如何在 Kubernetes 中使用 ScorePlugin 来计算节点的得分？

考察目标：理解 Kubernetes 中的得分机制以及如何使用 ScorePlugin 进行扩展。

回答： //raw.githubusercontent.com/ score-plugin/score-plugin/master/score-plugin.yaml 命令来完成。 2. 接下来，我们可以定义一个名为 "node-score" 的 metric，用来观察节点的得分。具体来说，在 ScorePlugin 的计算逻辑中，会自动为每个节点计算该 metric 的值。我们可以使用 kubectl get pod -o jsonpath=‘{.metadata.labels}’` 命令来获取每个节点的标签，进而计算得分。 3. 一旦我们得到了每个节点的得分，就可以根据得分对节点进行调度。例如，我们可以优先选择得分较高的节点来执行 pod。这样一来，就可以有效地保证系统的性能和可用性，提高整个集群的运行效率。

问题2：你曾经在一个项目中使用过 BalancedAllocationName 插件吗？请谈谈你的经验。

考察目标：了解被面试人在实际项目中的应用经验，以及对于 Kubernetes 插件的理解。

回答： 在之前的一个项目中，我们遇到了 Kubernetes 集群中节点资源使用不均衡的问题。为解决这个问题，我们采用了 BalancedAllocationName 插件。首先，在 Kubernetes 集群中启用了该插件，然后使用插件提供的 API 接口获取了每个节点的资源使用情况。接着我们对这个数组进行了排序，找出资源使用率最低的节点，并将它们分配给了 highest-priority-worker job。最后，我们在实际部署 pod 时，根据这些节点的得分进行了调度，确保了 pod 能够合理地在这些节点上运行。在这个过程中，我深刻地体会到了 BalancedAllocationName 插件的强大作用，它让我能够更好地管理 Kubernetes 集群中的资源，提高了整个系统的性能和可用性。同时，我也学会了如何在实际工作中应用 Kubernetes 插件，以及如何根据实际情况调整插件的参数，以便更好地解决问题。

问题3：你如何看待 Kubernetes 中的节点得分排序？

考察目标：考察被面试人对 Kubernetes 调度机制的理解。

回答： 我们的应用程序需要部署到多个节点上，但是节点的资源使用情况各不相同，我们需要根据节点的实际情况来决定 Pod 应该调度到哪个节点上运行。这时候，Kubernetes 中的节点得分排序机制就派上用场了。通过计算每个节点的得分，我们可以将 Pod 调度到得分最低的节点上运行，这样就能确保应用程序在资源使用方面得到最好的优化。

总的来说，我认为 Kubernetes 中的节点得分排序机制是一个非常优秀的功能，它在实际的 Kubernetes 应用中起到了非常好的作用。

问题4：当 CalculateScore 过程中出现非法得分时，你会采取什么措施处理？

考察目标：了解被面试人在遇到问题时如何解决。

回答： 在实际工作中，我曾经遇到了一个情况，当 CalculateScore 过程中出现非法得分时，我首先会检查得分计算逻辑，确认是否存在错误或者不合理的计算方式。比如，在我曾经参与的一个项目中，某个节点的得分计算出现了问题，经过仔细检查发现是因为代码中一个变量类型的转换发生了错误。于是，我立即修复了这个问题，重新计算得分，最终成功解决了非法得分的问题。

如果无法找到问题所在，我会查阅相关文档和资料，了解非法得分的可能原因和处理方法。比如，在我曾经参与的一个项目中，由于不同版本的插件之间的兼容性问题，某个节点的得分出现了非法值。为了解决这个问题，我升级了插件版本，并且进行了测试，确保新的版本能够正确地计算得分。

如果以上方法都无法解决问题，我会在社区或者文档中寻求帮助，看看是否有其他人遇到过类似的问题，并参考他们的解决方案。比如，在我最近参与的一个项目中，我发现有一个节点的得分一直偏低，经过调查发现是由于该节点上的某些系统资源配置不足导致的。我在社区中寻求了其他人的建议，并调整了节点的配置，最终成功地解决了这个问题。

总的来说，当遇到非法得分的问题时，我会采取先检查得分计算逻辑，然后查阅相关文档和资料，如果仍然无法解决问题，我会寻求社区或其他人的帮助，以便尽快解决问题并更新我的知识和经验。

问题5：能否举例说明在实际工作中，如何利用 ScorePlugin 的日志信息来分析 Kubernetes 系统的性能？

考察目标：考察被面试人的分析和解决问题的能力。

回答： 在我之前的工作经历中，有一次我所在的团队遇到了一个 Kubernetes 集群的性能问题。我们发现有一个 pod 总是被调度到一个资源使用率较低的节点上，导致整体性能不佳。为了找出问题并提高系统性能，我们利用 ScorePlugin 的日志信息进行了分析。

首先，我们从 ScorePlugin 的日志中发现了该 pod 在节点上的得分较低，这与节点资源使用率较低的情况相吻合。接着，我们进一步分析了 ScorePlugin 的得分计算逻辑，发现在计算过程中存在一些非法得分，这些非法得分不会影响节点的最终得分，但可能会影响到节点的优先级。因此，我们在处理日志信息时，需要将这些非法得分排除，以便更准确地评估节点的性能。

然后，我们通过对 ScorePlugin 的日志进行可视化，发现某个节点的得分一直处于较低水平。我们进一步检查了该节点的资源使用情况，发现其 CPU 和内存使用率都相对较低。这表明可能是该节点的硬件资源充足，但是 ScorePlugin 可能存在某些问题导致其无法充分利用这些资源。为了进一步提高系统的性能，我们对 ScorePlugin 进行了调整，并重新计算节点的得分。

经过这些努力，我们成功地提高了 pod 在高负载率的节点上的运行比例，从而提高了整个集群的性能。在这个过程中，我们不仅运用了 ScorePlugin 的日志信息分析了 Kubernetes 系统的性能，而且通过实际的调整和改进，取得了显著的效果。

问题6：你有没有遇到过在使用 Score Scheduler 时遇到的问题？可以分享一下吗？

考察目标：了解被面试人在实际使用中的问题和挑战。

回答： 在使用 Score Scheduler 的过程中，我遇到了一些问题。比如，当多个 pod 需要调度到同一个节点时，Score Scheduler 可能会优先选择得分最低的节点，这可能导致一些高负载的 pod 无法在期望的节点上运行。为了解决这个问题，我调整了 Score Scheduler 的参数，增加了对于高负载节点的优先级设置，以确保这些 pod 能够得到更好的调度。

还有一个问题是，有时候 CalculateScore 过程中会出现非法得分，这些得分为零分或非常低的分数，会被 ScorePlugin 忽略并继续参与计算。这种情况下，我会编写代码检查和过滤这些非法得分，以确保得分计算的准确性。

总的来说，我认为 Score Scheduler 是一个非常有用的工具，它能够根据节点的实际情况动态调整得分，确保了 pod 能够在资源充足且负载均衡的节点上运行，提高了整个集群的运行效率。同时，Score Scheduler 还提供了丰富的 API，方便我们在监控和管理方面进行深入操作。

问题7：你认为在 Kubernetes 集群中，Score Scheduler 对 nodeaffinity 的依赖是多少？

考察目标：理解被面试人对 Kubernetes 调度机制的理解。

回答： 当我看到这个问题时，我想到了我在一次 Kubernetes 集群管理实践中遇到的情况。在这个实践中，我们的团队需要在多个节点之间分配 Pod，我们需要一种方法来确定哪个节点最适合运行这些 Pod。在这种情况下，我们使用了 nodeaffinity，它可以帮助我们根据节点的特定属性（如 CPU 核心数或内存容量）来调度 Pod。

然而，当我们开始使用 Score Scheduler 时，我们发现它并不依赖于 nodeaffinity。相反，Score Scheduler 使用 ScorePlugin 来计算节点的得分，并据此来调度 Pod。这意味着，只要ScorePlugin能够正确地计算节点的得分，Score Scheduler就可以独立于 nodeaffinity 进行工作。

当然，如果我们需要更精细地控制调度策略，例如根据节点的特定属性进行调度，那么 Score Scheduler 就必须依赖于 nodeaffinity。在这种情况下，Score Scheduler 对 nodeaffinity 的依赖性就更高了。但我认为，对于大多数 Kubernetes 集群管理任务来说，Score Scheduler 对 nodeaffinity 的依赖性并不高。

问题8：如何通过调整参数日志 level 来观察 Score Scheduler 的运行状态？

考察目标：了解被面试人对 Kubernetes 参数日志的理解。

回答： 作为 Kubernetes 运维工程师，我非常注重观察和分析 Score Scheduler 的运行状态，以便及时发现问题并采取相应的措施。首先，我会仔细阅读 Score Scheduler 的日志信息，看看是否有任何错误或警告。如果发现了问题，我会尝试定位问题所在，可能是由于某些 Pod 没有正确地调度，或者是因为 Score Scheduler 的配置存在问题。

如果我认为Score Scheduler 需要进一步调整，我会增加参数日志级别。这样，我就可以看到更多的细节信息，比如 Score Scheduler 内部的运行机制，以及各种事件的发生频率和严重性。增加参数日志级别还可以让我在出现问题时快速定位到具体原因，进一步提高工作效率。

当然，在日常工作中，我也会不断积累经验，根据Score Scheduler 的实际表现和业务需求来调整参数日志级别，确保它的运行状态始终处于最佳。举个例子，如果某个 Pod 总是无法在预期的节点上运行，我会适当减少该节点的参数日志级别，以便让其他 Pod 有更多的机会在该节点上运行，提高整个集群的利用率。

总之，作为一名专业的 Kubernetes 运维工程师，我会密切关注 Score Scheduler 的运行状态，并通过调整参数日志级别等手段来确保其正常运行，提高整个集群的性能。这些实践经验使我能够更好地应对各种 Kubernetes 相关的问题，不断提高我的职业技能水平。

点评：这位被面试人对于 Kubernetes 中的得分机制和 ScorePlugin 的使用有着较为深入的理解和实践经验，特别是在实际项目中利用 ScorePlugin 日志信息来分析 Kubernetes 系统的性能方面展现出了较强的分析和解决问题的能力。同时，他对 Kubernetes 调度机制的理解也比较全面，能够根据具体情况灵活调整参数日志级别，观察和分析 Score Scheduler 的运行状态。这些经验和技能展示出该被面试人具备较强的 Kubernetes 运维能力，有望在实际工作中发挥出色的表现。

Kubernetes 运维工程师的面试笔记与经验分享

问题1：如何在 Kubernetes 中使用 ScorePlugin 来计算节点的得分？

问题2：你曾经在一个项目中使用过 BalancedAllocationName 插件吗？请谈谈你的经验。

问题3：你如何看待 Kubernetes 中的节点得分排序？

问题4：当 CalculateScore 过程中出现非法得分时，你会采取什么措施处理？

问题5：能否举例说明在实际工作中，如何利用 ScorePlugin 的日志信息来分析 Kubernetes 系统的性能？

问题6：你有没有遇到过在使用 Score Scheduler 时遇到的问题？可以分享一下吗？

问题7：你认为在 Kubernetes 集群中，Score Scheduler 对 nodeaffinity 的依赖是多少？

问题8：如何通过调整参数日志 level 来观察 Score Scheduler 的运行状态？

IT赶路人

系统工程师面试笔记：权威可靠数据获取与行业趋势分析

技术文员 – 面试笔记

视频开发工程师的经验分享与技术挑战应对