"各种想法可以来自各种来源. 这一次是清迈社欧会议. 参加者之一,来自Woww的Felix Norton 在我完成我的发言后来找我,问,"
"刮掉AI结果与使用API请求LLMs的答案有什么真正区别?".
我说,"嗯,是的,有一个区别, 我们正在刮" 但他坚持,"真的,它有多大? 为何不同?
我低调地承认,我不知道具体内容,但答应他我会测试。
当晚晚些时候,我们再次相遇,并向苏尔费尔的数据科学小组发送了一个很长的范围来测试.
三周后,我们取得了由Jakub Sadowski和Wojciech Korczyński分解的结果。
这个介绍是给你写的。 不是给人工智能的
这里有什么区别? AI不喜欢旁白、传闻, 我希望你知道,它让读者和作者之间有联系。
如果你对这个话题感到好奇,我们将就LLM的排名因素编写另一份研究报告。
阅读以了解使用API来源AI生成的答案与刮掉实际的AI答案之间的区别.
谢谢Michall! 从这里开始,
了解AI平台的数据收集方法
我们马上澄清一个大错误:没有“ChatGPT API”。 “
我们_do_拥有的是特定型号如GPT-5或GPT-5.1-mini的API. 这些是ChatGPT背后的大脑,但他们是_不是__ 查特GPT本身。
迷惑也一样 没有任何“复杂性API”行为与网络界面完全相同。
你只能访问基本的模型 比如声纳,声纳 Pro,或者声纳理性。
OpenAI API对ChatGPT:有什么区别?
将API视为_raw模型_.
将ChatGPT视为原始模型+:
- 特别指示(系统提示),
- 额外数据输入,
- 接口逻辑,
*只有OpenAI知道的小秘密调整.
由于这些层,ChatGPT的行为与API不同——即使它们使用完全相同的模型.
网页刮擦:获取真实的用户体验
Web 刮刮收集在 ChatGPT 或 Perflexity 界面中显示的_准确_输出.
这包括:
- 向用户显示的最后信件
- 格式化
- 交互式UI要素
- 资料来源
*和模型上层的所有额外逻辑.
拼写会告诉你真正的人所看到的
API 访问
另一方面,基于API的数据收集则通过官方端点为您提供结构化,程序化的访问.
APIs给你:
- 干净、有条理的反应,
*函数调用, - 格式一致。
但它们不包括界面逻辑,搜索行为,源,或者在回应用户时应用的"超魔力"平台.
所以建应用程序?
** API=伟大的。 **
为了监视你的品牌在人工智能工具中的出现?
**API=不怎么样。
刮掉 LLM 答案和 API 数据有什么区别 ?
Ok - 这听起来像刮伤的结果 更好的品牌监测和AI搜索优化。 但最大的问题仍然是:
到底有什么区别?
我们测试了两种情况,每次都有1 000人被迅速处决。
首先,我们用“干净的”API来比较废品。
其次,我们增加了一个曲折:我们使用了来自GitHub的泄露的OpenAI系统提示.
在这两种情况下,结果几乎相同,无论系统是否迅速。
我们发现:
** 伦斯:**
API的响应比报废的响应(avg 743单词)短得多(avg 406单词).
** 网页搜索:**
~23%的API回复不触发网络搜索(通常在不到100字时). 搜索结果 _ 总是_ 触发网络搜索 。
** 资料来源:**
在大约25%的案例中,API没有提供资料来源。 Scraped AI的回答总是提供来源,大约是平均16对7的两倍.
** 溴探测器:**
API来源数据未能发现任何品牌~8%的时间,而刮掉的答案总是识别品牌.
当发现品牌时,API平均识别更多(12对9).
大问题:API结果和ChatGPT结果是否相同?
从AI搜索监测的角度来看,关键问题是:
我从API得到的结果和从网络/应用程序界面得到的结果是一样的吗?
不,绝对不行
不同之处如下:
- API和报废结果之间只有24%的品牌重叠。
- 就资料来源而言,重叠仅为4%。
这意味着:
若您使用基于API的源来优化ChatGPT,
你将假设某些来源很重要,
翻译: “这些结果证实,API的回复与LLM中的报废回复差别很大。 这些差异是如此明显,以至于监测API作为你AI可见度的代名词的反应完全是错误的. “
数据科学家Wojciech Korczyński @冲浪者
我们可以在这里停下来。 但是在Surfer,我们走了额外的英里。
所以我们做了同样的测试:
迷惑性用户结果 vs. API结果
使用相同的测试设置和即时列表,我们发现差异与ChatGPT结果非常相似.
** 伦斯:**
API的响应更短(avg 332 words)对刮(avg 433 words).
** 网页搜索:**
两者都一致使用网络搜索,但API有时会错过源头——导致_完全没有响应_.
** 资料来源:**
APIs返回~7来源;报废结果总是包括10.
** 提及:**
在~5%的报废回复中,品牌名称被省略,以有利于更通用的描述.
API的反应通常包括10+品牌,而刮掉的反应平均在6左右.
关键是:
品牌和来源是否与"迷惑"相似?.
再说一遍:没有。
来源重叠仅为8%,意指API和UI经常从完全不同的引用中抽取.
基于API的监测根本不能反映人们实际看到的.
使用可靠的工具跟踪AI的可见度
如果你想测量你的品牌在AI工具中是如何出现真实的人使用的,就必须依靠网页界面,而不是API.
破碎的数据显示了真相。
APIs显示结构化的,干净的数据能够_不_反映现实世界的用户体验.
像Surfer的AI Tracker一样, 良好的监控工具在高品质的废品数据上, 因为它捕捉到用户_实际上_在像ChatGPT和Perplexity这样的平台上看到的.
如果您的数据错误, 您的优化策略也会错误 。
良好的数据只是提高AI知名度的第一步。 在Surfer, 我们知道这一点。 所以我们从不割角。 我们深入挖掘,彻底测试,并确保我们的数据和处理方法都是坚固的。
这就是我们如何构建尽可能最好的AI能见度监测和优化工具.