竹新社
OpenAI董事会特别委员会8日宣布,经过威凯平和而德律师事务所审查和特别委员会建议,董事会对萨姆·奥尔特曼和格雷格·布罗克曼对OpenAI的持续领导充满信心,一致认为两人是合适的领导者。奥尔特曼将重返董事会。此外,该公司还新任命3名董事会成员,作为其扩张承诺的一部分。 威凯平和而德的审查显示,前届董事会与奥尔特曼的关系破裂和失去信任导致先前的解雇决定。前届董事会认为其行动将缓解内部管理挑战,但没有预料到会破坏公司的稳定。而且前届董事会在较短的时间内执行了其决定,没有提前通知利益相关者,也未进行全面调查。…
OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。
(
MIT科技评论)