
快科技5月9日音问,近期有网友发现一个好奇爱慕的欢快:MiniMax 模子似乎无法平时识别马嘉祺三个字。
起首民众都认为仅仅无意出现的小罅隙,但多方实测后发现情况有些离谱:无论切换不同接口、更换使用平台,该问题都能浮现复现。
翻看网友测试截图以及履行调用复返成果能看出,模子其实不错检索到马嘉祺的关联辛劳,也能完好准确输出他的个东说念主经验、关联经历等信息。可只须只须说起真名,模子就会出现翰墨芜杂、浮松改写名字的情况。
浅陋来说,东说念主物配景信息基本无误,对应东说念主物也十足匹配,只须在识别和输出姓名时通常出错。
那么为什么会出现这种情况呢?
本日,MiniMax官微发长文回复M2系列模子无法说出马嘉祺一事,提供了对“嘉祺识别”问题的完好排查经过和工夫念念考。
MiniMax示意,其从分词器版块对王人、embedding统计分离、语义隔邻检索、预试验与后试验模子的few-shot对比实验、后试验数据频次统计以及对全词表lm_head变化幅度的排序扫描等多个维度进行了排查。

最终定位到的原因是:嘉祺在分词器中被统一为一个孤苦token,但该token在后试验数据中出现频次极低,导致模子在后试验中冉冉渐忘了对该token的生成智商。
成立决议方面,MiniMax构造了一份隐秘全词表的合成数据,中枢念念想是:通过一个浅陋的复读任务,为全词表成就一个生成频率的“下限保险”,退守任何token因为十足缺失而退化。
此外,MiniMax示意,将token隐秘度动作后试验数据质料的一项旧例监控见地,不错在早期发现潜在的寥落token退化风险,幸免相似问题在线上复现。

