OpenAIが言語モデルの事実性を測定するベンチマーク「SimpleQA」をオープンソースでリリース