白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?

大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。

在开始写之前,先说个抱歉。

上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的,最开始上来确实是的。但这几天我去看,有些联网搜索默认是开启了,所以说下抱歉,如图。

白杨SEO的关注朋友,也可以去打开看看是不是这样?可以给我留言。

有些朋友可能会说,DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI大模型默认开不开启联网搜索有什么差别呢?

白杨SEO想说,这个差别大着呢。

我们做AI搜索优化,或者说叫GEO,如果不是联网搜索的情况下,我们很难快速优化进AI大模型结果里。因为AI大模型训练间隔比较久,而且费用也不便宜,要想了解实时性的东西,所以他们只要有,都加上了联网搜索功能。

而对于AI大模型的用户而言,他不可能在提问之前,先去打开联网搜索之类(只有少部分专业的人会去这么做)。

就像我们说做百度、抖音或微信搜一搜关键词搜索排名一样,用户默认会看全部排名,很少去点具体某个垂直下面结果一样,如图:

哈哈哈,看上图,才发现,微信搜一搜直接也把【AI搜索】放在TAG上了,你们看下有没有?

好,我们继续。

正因为大模型如果从原来不是默认开启联网搜索到现在默认开启,那么我们做AISEO即AI搜索优化,不管是做品牌曝光还是引流量还是营销,都有机会了是不是?当然,比如像通义现在还是默认没开启哈~

为什么今天想到分享要说下DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪这个事呢?

一是因为之前我在另外公号分享过《豆包、kimi、deepseek、百度文心一言、腾讯元宝等大模型它们生成内容的引用来源是哪?》这篇后很多人说感兴趣。

二是因为这次去上海做AI搜索优化(GEO)线下培训分享时,有分享了主流的DeepSeek、豆包、Kimi、百度文心一言的内容信息采集来源占比图,当然这只是某个行业的个例,其它可以再测。如图,

我在想不管是做AI搜索优化这行的转行的SEO或者其它行业同行,又或者是想做AI搜索优化的企业,他们是不是都想知道呢,这样更好做好AI搜索优化(GEO)。

所以,除了DeepSeek、豆包、Kimi、百度文心一言,我还加了腾讯元宝,通义(原通义千问,改名缩短了,PC和APP一致),智谱(智谱清言简称),天工(AI搜索引擎工具)等AI生成内容的。

好,我们就一个一个来说一下。

1、DeepSeek AI生成内容信息采集主要来源及占比参考

DeepSeek AI生成内容信息采集主要来源,按照DeepSeek自己的说法是开源数据(MIT协议允许自由使用)、强化学习生成数据、少量标注数据。

你可能没懂,简单说就是互联网上的内容以及它自己再生成的,以及非常少的标注的。但我们能优化的是开源数据。这个主要来源,来自白杨SEO朋友公司客户案例统计如图(他们的业务介绍PPT)

从上图看到主要来源是媒体,这个媒体主要指四大门户以及各种地方网站那种新闻媒体哈。占比第二的UGC平台比如知乎等也很大。第三则是搜索词官网或垂直网站。至于电商这个说一下,因为是行业不同,有些没有这个哈。

所以我们得出结论,要做好DeepSeek的AI搜索优化,主要做好媒体、UGC为主就可以了,当然官网也要发。具体怎么布局SEO搜索关键词之类,看我公众号历史文章有写哈,后续也会慢慢分享出来,不在本文讨论。

2、豆包 AI生成内容信息采集主要来源及占比参考

如图,豆包主要信息采集来源是字节系自己产品(抖音短视频,抖音百科,头条等),另外就是新闻媒体上发的,第三则是官网及其它。占比如图,这里不再详说了。这个也是某个行业哈,其它你可以搜索自己试试。

3、Kimi AI生成内容信息采集主要来源及占比参考

如图,KIMI有意思,70%的内容来源UGC,尤其你看那个知乎占比很大啊,哈哈哈。

为什么呢,你像kimi这类AI大模型平台,跟deepseek一样,他们是没有像百度、腾讯,抖音有自己内容生态源哈。话说回来,知乎也是一个知识宝库呢,哈哈哈。

虽然知乎也有自己的AI大模型【知乎直答】如图,但它的影响力,就如知乎在当下互联网的现状一样,有心无力的,可能比某度还尴尬,唉。

4、百度AI搜索、文心一言 AI生成内容信息采集主要来源及占比参考

百度AI搜索、文心一言,其实这是两个渠道。文心一言是百度AI大模型产品,有网页版,也有APP,APP叫文小言。而百度AI搜索是百度搜索里面AI搜索。虽然跟文心一言模型一致,同时还结合了deepseek的哈,如图。

所以参考百度文心一言的,其实是一样的。主要内容及来源占比如图,参考

所以如果我们要做百度AI搜索或文心一言,主要做百度产品,比如百家号,百科,以及像新媒发软文,以及垂直官网等就可以了。

5、腾讯元宝 AI生成内容信息采集主要来源及占比参考

腾讯元宝AI生成内容信息采集主要来源就是微信生态内容,如公众号文章,视频号内容等,再加上其它新闻媒体,网站内容等,如图。

如果说占比的话,公众号文章占比应该要到50%左右哈。

如果想知道在元宝或微信搜一搜里这个词流量大概有多少,可以看微信指数或腾讯广告里数据,相关看这两篇:

白杨SEO:想做微信搜一搜精准流量,你真正看懂微信指数了吗?

白杨SEO:工具推荐第十七期—搜一搜关键词搜索流量查询工具腾讯广告

6、通义(通义千问)、夸克AI生成内容信息采集主要来源及占比参考

如图,通义AI生成内容信息采集主要来源是各大新闻媒体平台(包含自媒体)比如网易号,腾讯企鹅号,搜狐网,新浪财经等,这类占比60%以上,其它就是官网之类。

当然,如果你搜索不同的词,比如电商类的之类,会来自一些垂直网站,比如站长之家,什么值得买等。当然,大多数还是阿里生态内数据,最近主要在增加这块,比如夸克搜索等。

当然,夸克那个AI跟通义逻辑一样,大家也要重点关注哦,它可能是国内目前AI搜索领域访问量TOP哦,如图。

7、智谱清言 AI生成内容信息采集主要来源及占比参考

智谱数据来源开源模型(如ChatGLM)、合作企业数据(如金融、政务领域)。占比推测:开源数据占40%,合作数据占50%等。如图,

除了合作的以外,另外就是一些第三方自媒体平台。因为智谱在国内AI大模型C端用户认知里不大,所以很多企业没有关注,正常。比如拿你来说,你手机里有下这个APP吗?

8、天工AI AI生成内容信息采集主要来源及占比参考

这个天工AI也是一样,白杨SEO里很多粉丝朋友可能第一次听说它吧?哈哈哈。它默认是联网的哈,如图。

话说它这整个智能体,没有积分还用不了,当然新用户还会送,这样它这个和之前爆火的manus有点像,不再是纯聊天大模型,更像是可以做任务的智能体了,你简单理解就是比大模型还进一步了。

当然这个渠道,以及智能体这种,我们后面再先。如果感兴趣看我之前写过《白杨SEO:一文告诉你智能体Agent是什么、有哪些、用在哪里、哪个好用及搭建流程【收藏】》参考。

今天这篇又快三千字了,希望看完对你做AI搜索优化或者GEO优化有一定帮助。如果你觉得这个分享有价值,请继续关注我,或者分享需要朋友,谢谢。

作者介绍:

白杨SEO,专注SEO研究十年+,全网SEO流量实战派,ai搜索优化研究者。前某公司市场总监,现自由职业,企业顾问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/82703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QML与C++交互2

在QML与C的交互中,主要有两种方式:在C中调用QML的方法和在QML中调用C的方法。以下是具体的实现方法。 在C中调用QML的方法 首先,我们需要在QML文件中定义一个函数,然后在C代码中调用它。 示例 //QML main.qml文件 import QtQu…

OpenGL Chan视频学习-8 How I Deal with Shaders in OpenGL

bilibili视频链接: 【最好的OpenGL教程之一】https://www.bilibili.com/video/BV1MJ411u7Bc?p5&vd_source44b77bde056381262ee55e448b9b1973 函数网站: docs.gl 说明: 1.之后就不再整理具体函数了,网站直接翻译会更直观也…

动态防御新纪元:AI如何重构DDoS攻防成本格局

1. 传统高防IP的静态瓶颈与成本困境 传统高防IP依赖预定义规则库,面对SYN Flood、CC攻击等威胁时,常因规则更新滞后导致误封合法流量。例如,某电商平台曾因静态阈值过滤误封20%的订单接口流量,直接影响营收。以下代码模拟传统方案…

如何实现高性能超低延迟的RTSP或RTMP播放器

随着直播行业的快速发展,RTSP和RTMP协议成为了广泛使用的流媒体传输协议,尤其是在实时视频直播领域,如何构建一个高性能超低延迟的直播播放器,已经成为了决定直播平台成功与否的关键因素之一。作为音视频直播SDK技术老兵&#xff…

UE5 编辑器工具蓝图

文章目录 简述使用方法样例自动生成Actor,并根据模型的包围盒设置Actor的大小批量修改场景中Actor的属性,设置Actor的名字,设置Actor到指定的文件夹 简述 使用编辑器工具好处是可以在非运行时可以对资源或场景做一些操作,例如自动…

解锁5月游戏新体验 高速电脑配置推荐

很多玩家用户会发现一个规律,618大促前很多商家会提前解锁各种福利,5月选购各种电脑配件有时候会更划算!并且,STEAM在5月还有几个年度主题促销,“生物收集游戏节”、“僵尸大战吸血鬼游戏节”等等,配件大促…

干货|VR全景是什么?

VR全景技术解析:概念、特点与用途 VR全景,全称为虚拟现实全景技术(Virtual Reality Panorama Technology),是基于虚拟现实(Virtual Reality,VR)技术的创新展示方式。VR全景技术利用专业的拍摄设…

Nacos适配GaussDB超详细部署流程,通过二进制包、以及 Docker 打通用镜像包部署保姆级教程

1部署openGauss 官方文档下载 https://support.huaweicloud.com/download_gaussdb/index.html 社区地址 安装包下载 本文主要是以部署轻量级为主要教程,系统为openEuler,ip: 192.168.1.15 1.1系统环境准备 操作系统选择 系统AARCH64X86-64openEuler√√CentOS7√Docker…

MySQL 表内容的增删查改 -- CRUD操作,聚合函数,group by 子句

目录 1. Create 1.1 语法 1.2 单行数据 全列插入 1.3 多行数据 指定列插入 1.4 插入数据否则更新数据 1.5 替换 2. Retrieve 2.1 SELECT 列 2.1.1 全列查询 2.1.2 指定列查询 2.1.3 查询字段为表达式 2.1.4 为查询结果指定别名 2.1.5 结构去重 2.2 WHERE 条件 …

LabVIEW累加器标签通道

主要展示了 Accumulator Tag 通道的使用,通过三个并行运行的循环模拟不同数值的多个随机序列,分别以不同频率向累加器写入数值,右侧循环每秒读取累加器值,同时可切换查看每秒内每次事件的平均值,用于演示多线程数据交互…

【iOS】源码阅读(五)——类类的结构分析

文章目录 前言类的分析类的本质objc_class 、objc_object和NSObjectobjc_object:所有对象的基类型objc_class:类的底层结构NSObject:面向用户的根类 小结 指针内存偏移普通指针----值拷贝对象----指针拷贝或引用拷贝用数组指针引出----内存偏…

Baklib构建企业CMS高效协作与安全管控体系

企业CMS高效协作体系构建 基于智能工作流引擎的设计逻辑,现代企业内容管理系统通过预设多节点审核路径与自动化任务分配机制,有效串联市场、技术、法务等跨部门协作链路。系统支持多人同时编辑与版本追溯功能,结合细粒度权限管控模块&#x…

Linux环境变量与地址空间

哈喽,各位Linux初学者们!今天咱们来聊聊Linux中那两个看起来很高大上但实际上跟我们日常使用息息相关的概念:环境变量和地址空间。别被这些术语吓到,我会用最接地气的方式给你解释清楚! 一、环境变量:Linu…

Oracle SHARED POOL的SUB POOL技术

从Oracle 9i开始,SHARED POOL可以分为多个SUB POOL,其数量受以下几个因素影响: 系统CPU的数量。默认情况下,在Oracle中每4个CPU分配一个SUB POOL,最多不能超过7个。 共享池的大小。SUB POOL的最小容量随着Oracle版…

Collection集合遍历的三种方法

1.foreach循环遍历 格式&#xff1a;for&#xff08;元素的数据类型 变量名&#xff1a;数组或集合&#xff09;{ } 2.使用迭代器遍历 方法名称&#xff1a;Iterator<E> iterator&#xff08;&#xff09; 说明&#xff1a;返回集合中的迭代器对象&#xff0c;该迭代…

头歌之动手学人工智能-Pytorch 之autograd

目录 第1关&#xff1a;Variable 任务描述 编程要求 测试说明 没有伟大的愿望&#xff0c;就没有伟大的天才。——巴尔扎克开始你的任务吧&#xff0c;祝你成功&#xff01; 第2关&#xff1a;Variable 属性 任务描述 编程要求 测试说明 真正的科学家应当是个幻想家&a…

篇章二 数据结构——前置知识(二)

目录 1. 包装类 1.1 包装类的概念 1.2 基本数据类型和对应的包装类 1.3 装箱和拆箱 1.4 自动装箱和自动拆箱 1.5 练习 —— 面试题 2. 泛型 2.1 如果没有泛型——会出现什么情况&#xff1f; 2.2 语法 2.3 裸类型 1.没有写<> 但是没有报错为什么&#xff1f; …

Git典型使用场景相关命令

Git典型使用场景相关命令 1 建立本地仓库与远程仓库的联系2 作为开发者参与项目的常用命令2-1 一般步骤2-2 **合并与同步主分支改动**2-3 **查看日志和差异**2-4 **提交后想修改或撤销**2-5 分支管理2-6 清除未被追踪的文件&#xff08;谨慎使用&#xff09; 3 作为远程仓库管理…

redis缓存-更新策略-三大缓存问题

缓存&#xff1a;数据交换的缓冲区&#xff0c;存储的数据的临时地方&#xff0c;读写性能较高。 步骤&#xff1a; 先从redis里面查询 缓存命中&#xff1a;直接返回结果缓存未命中 从数据库里面查询 没有数据&#xff1a;返回null有数据&#xff1a;存到redis里面&#xff…

[TriCore] 01.QEMU 虚拟化 TriCore 架构中的寄存器 指令

目录 1.寄存器宏 - FIELD() 2.寄存器操作 - FIELD_SETTER() & FIELD_GETTER() 3.指令辅助方法 - HELPER() 3.1.辅助宏 3.2.指令示例 3.3.函数调用 4.PSW 寄存器读写 - psw_read() & psw_write() 1.寄存器宏 - FIELD() FIELD() 宏定义寄存器 MASK // include/hw…