Scraped AI Answers vs. API Results from LLMs. 互联网档案馆的存檔,存档日期2013-03-02. 有区别吗? [AI搜索研究].

2026年1月12日 19点热度 0人点赞

"各种想法可以来自各种来源. 这一次是清迈社欧会议. 参加者之一,来自Woww的Felix Norton 在我完成我的发言后来找我,问,"

"刮掉AI结果与使用API请求LLMs的答案有什么真正区别?".

我说,"嗯,是的,有一个区别, 我们正在刮" 但他坚持,"真的,它有多大? 为何不同?

我低调地承认,我不知道具体内容,但答应他我会测试。

当晚晚些时候,我们再次相遇,并向苏尔费尔的数据科学小组发送了一个很长的范围来测试.

三周后,我们取得了由Jakub Sadowski和Wojciech Korczyński分解的结果。

这个介绍是给你写的。 不是给人工智能的

这里有什么区别? AI不喜欢旁白、传闻, 我希望你知道,它让读者和作者之间有联系。

如果你对这个话题感到好奇,我们将就LLM的排名因素编写另一份研究报告。

阅读以了解使用API来源AI生成的答案与刮掉实际的AI答案之间的区别.

谢谢Michall! 从这里开始,

了解AI平台的数据收集方法

我们马上澄清一个大错误:没有“ChatGPT API”。 “

我们_do_拥有的是特定型号如GPT-5或GPT-5.1-mini的API. 这些是ChatGPT背后的大脑,但他们是_不是__ 查特GPT本身。

迷惑也一样 没有任何“复杂性API”行为与网络界面完全相同。

你只能访问基本的模型 比如声纳,声纳 Pro,或者声纳理性。

OpenAI API对ChatGPT:有什么区别?

将API视为_raw模型_.

将ChatGPT视为原始模型+:

  • 特别指示(系统提示),
  • 额外数据输入,
  • 接口逻辑,
    *只有OpenAI知道的小秘密调整.

由于这些层,ChatGPT的行为与API不同——即使它们使用完全相同的模型.

网页刮擦:获取真实的用户体验

Web 刮刮收集在 ChatGPT 或 Perflexity 界面中显示的_准确_输出.

这包括:

  • 向用户显示的最后信件
  • 格式化
  • 交互式UI要素
  • 资料来源
    *和模型上层的所有额外逻辑.

拼写会告诉你真正的人所看到的

API 访问

另一方面,基于API的数据收集则通过官方端点为您提供结构化,程序化的访问.

APIs给你:

  • 干净、有条理的反应,
    *函数调用,
  • 格式一致。

但它们不包括界面逻辑,搜索行为,源,或者在回应用户时应用的"超魔力"平台.

所以建应用程序?

** API=伟大的。 **

为了监视你的品牌在人工智能工具中的出现?

**API=不怎么样。

刮掉 LLM 答案和 API 数据有什么区别 ?

Ok - 这听起来像刮伤的结果 更好的品牌监测和AI搜索优化。 但最大的问题仍然是:

到底有什么区别?

我们测试了两种情况,每次都有1 000人被迅速处决。

首先,我们用“干净的”API来比较废品。

其次,我们增加了一个曲折:我们使用了来自GitHub的泄露的OpenAI系统提示.

在这两种情况下,结果几乎相同,无论系统是否迅速。

我们发现:

** 伦斯:**

API的响应比报废的响应(avg 743单词)短得多(avg 406单词).

** 网页搜索:**

~23%的API回复不触发网络搜索(通常在不到100字时). 搜索结果 _ 总是_ 触发网络搜索 。

** 资料来源:**

在大约25%的案例中,API没有提供资料来源。 Scraped AI的回答总是提供来源,大约是平均16对7的两倍.

** 溴探测器:**

API来源数据未能发现任何品牌~8%的时间,而刮掉的答案总是识别品牌.

当发现品牌时,API平均识别更多(12对9).

大问题:API结果和ChatGPT结果是否相同?

从AI搜索监测的角度来看,关键问题是:

我从API得到的结果和从网络/应用程序界面得到的结果是一样的吗?

不,绝对不行

不同之处如下:

  • API和报废结果之间只有24%的品牌重叠。
  • 就资料来源而言,重叠仅为4%。

这意味着:

若您使用基于API的源来优化ChatGPT,
你将假设某些来源很重要,

翻译: “这些结果证实,API的回复与LLM中的报废回复差别很大。 这些差异是如此明显,以至于监测API作为你AI可见度的代名词的反应完全是错误的. “

数据科学家Wojciech Korczyński @冲浪者

我们可以在这里停下来。 但是在Surfer,我们走了额外的英里。
所以我们做了同样的测试:

迷惑性用户结果 vs. API结果

使用相同的测试设置和即时列表,我们发现差异与ChatGPT结果非常相似.

** 伦斯:**

API的响应更短(avg 332 words)对刮(avg 433 words).

** 网页搜索:**

两者都一致使用网络搜索,但API有时会错过源头——导致_完全没有响应_.

** 资料来源:**

APIs返回~7来源;报废结果总是包括10.

** 提及:**

在~5%的报废回复中,品牌名称被省略,以有利于更通用的描述.

API的反应通常包括10+品牌,而刮掉的反应平均在6左右.

关键是:

品牌和来源是否与"迷惑"相似?.
再说一遍:没有。

来源重叠仅为8%,意指API和UI经常从完全不同的引用中抽取.

基于API的监测根本不能反映人们实际看到的.

使用可靠的工具跟踪AI的可见度

如果你想测量你的品牌在AI工具中是如何出现真实的人使用的,就必须依靠网页界面,而不是API.

破碎的数据显示了真相。
APIs显示结构化的,干净的数据能够_不_反映现实世界的用户体验.

像Surfer的AI Tracker一样, 良好的监控工具在高品质的废品数据上, 因为它捕捉到用户_实际上_在像ChatGPT和Perplexity这样的平台上看到的.

如果您的数据错误, 您的优化策略也会错误 。

良好的数据只是提高AI知名度的第一步。 在Surfer, 我们知道这一点。 所以我们从不割角。 我们深入挖掘,彻底测试,并确保我们的数据和处理方法都是坚固的。

这就是我们如何构建尽可能最好的AI能见度监测和优化工具.

SEO优化技术服务(GEO、SEO顾问): 深圳SEO优化、GEO优化排名专家