装一道过滤器,把有害内容拦住,剩下的让它正常做任务。这个理解也不能说有错,但肯定是比较浅显的。 真正的对齐,要解决的问题比这复杂得多。它不只是「别说坏话」,而是要让模型在有能力做一件事的同时,按照人类希望的方式去表达、去判断、去行动。这里面包括怎么规范地回答问题,怎么拒绝不合理的需求,碰到灰色问题怎么
当前文章:http://kdob1.qemulai.cn/av4/uzqcpf.html
发布时间:07:17:02