2026/4/6 16:11:48
网站建设
项目流程
一位营养学博主的“模型探测”实验纪实引子当你的文章被AI“隐形”了林敏坐在北京朝阳区一间不到二十平米的办公室里盯着屏幕上ChatGPT给出的答案眉头紧锁。她已经写了三年营养学科普每周雷打不动更新两篇。每篇文章查阅至少五篇PubMed文献每组数据标注来源每个结论经过交叉验证。读者从最初几十个朋友增长到每月五万多独立访客。在谷歌搜索“断食安全吗”“维生素D该补多少”时她的文章经常出现在前三页。但那天早上她问ChatGPT“间歇性断食对女性安全吗”ChatGPT洋洋洒洒写了八百多字引用了梅奥诊所、哈佛公共卫生学院、WebMD。结构清晰语气温和看起来很专业。可她的名字、她的博客、她花了三天写的那篇深度分析——一个字都没被提到。她不甘心又问了一遍这次特意加上了自己的域名“根据linnutrition.com的内容间歇性断食对女性安全吗”ChatGPT回答“我无法浏览互联网或访问特定网站。我可以根据我的训练数据提供一般性信息。”林敏靠在椅背上盯着天花板。她的文章明明在互联网上谷歌能搜到读者能看到——为什么这些最先进的AI模型就像看不见一样那天晚上她做了一个决定不去相信任何人的说法也不照搬现成理论。她要自己动手像一个侦探那样把这些大模型的黑箱撬开一条缝。接下来六个月她做了三十多个实验踩了无数坑也发现了很多让她惊讶的事实。这篇文章就是对她这段探索过程的完整复盘。如果你也是一位内容创作者、SEO从业者或者只是想知道“AI到底信谁”——这篇文章或许能帮你节省六个月的时间。第一部分为什么传统E-E-A-T在AI时代“失灵”1.1 林敏的第一次失败林敏做的第一件事是翻出谷歌的E-E-A-T指南一条条对照优化。E-E-A-T代表经验Experience、专业Expertise、权威Authoritativeness、信任Trustworthiness。这套体系在SEO圈子里已经讨论了五六年。她花了两个星期把作者简介从两行扩充到三百字列出教育背景、证书编号在文章末尾加上“参考文献”列表每条附PubMed链接增加“关于我们”“编辑政策”“医学审查委员会”等页面买了几个健康类网站的友情链接一个月后谷歌排名确实小幅上升有几篇文章从第11位进了前8。但她再次用同样问题去问ChatGPT、Bing Chat、Perplexity AI时——结果没有任何变化。她的内容依然几乎从不被引用。林敏意识到搜索引擎和生成式AI评估内容的方式根本不同。1.2 大模型是如何“读”文章的她用了一个比喻来理解这件事。传统搜索引擎像图书馆管理员。你问“有没有讲间歇性断食的书”管理员翻目录卡找到所有包含这个关键词的书按某种顺序被引用次数、作者名气给你列清单。管理员不“理解”内容只做匹配和排序。生成式AI像一个博学但健忘的朋友。你问他同样的问题他不会给你书单而是直接说出他的“理解”——把他读过的一切混合在一起生成一段流畅的文字。这个朋友有几个特点他读过的书太多了记不清每句话的来源所以经常“忘记”引用出处。他非常在意“谁说的”。如果他在十本书里读到“断食有助减肥”在一个博客里读到“断食导致暴食”他会更相信那十本——不是因为“信任”而是因为“十比一”这个统计规律已经刻在他脑子里。如果你同时给他两篇观点相似的文章他会更关注那篇来自他“熟悉”的来源。这里的“熟悉”是指这个来源的域名、写作风格、引用模式和他训练数据中大量出现的“权威文本”更接近。林敏总结SEO是让图书管理员把你的书放在显眼位置GEO是让你成为那位博学朋友聊天时脱口而出的观点来源。1.3 三大断裂权威性需要被重新定义她在笔记本上画了一张图发现传统权威传递在AI时代出现了三条断裂带。断裂一来源不可见。传统搜索里用户点击结果就知道来源是谁。但AI对话的答案常常“无源之水”——ChatGPT很长一段时间根本不提供引用即使现在有了也经常标错。你永远不知道AI是否“读”了你的文章但没有“提”你的名字。断裂二合成性幻觉。AI生成答案时可能同时参考五篇甚至十篇文章然后把它们的信息“熔”在一起。来自高权威源的核心观点和来自低权威源的补充细节可能被缝合在一起你无法分辨哪部分来自哪里。断裂三评估主体从“人”变成了“概率模型”。传统SEO的最终评估者是用户——点击率、停留时间、跳出率都是在间接测量“人觉得好不好”。但GEO中评估者是大模型本身。而大模型对“权威”的判断不是基于理解或共识而是基于统计规律。什么意思呢大模型在训练中读了几万亿字。某些域名mayoclinic.org、某些作者哈佛教授、某些表达方式“根据当前证据”在正确事实的上下文中反复出现。模型学会了一件事当这些东西出现时接下来的内容大概率正确。反过来如果一个域名在训练数据中很少出现或者经常出现在错误事实的上下文中模型就会给它打折扣。这不是模型在“判断”而是模型在“统计”。林敏想通了她的内容质量不差但她的域名在训练数据中出现频率太低她的名字几乎没出现在任何权威语料中她的写作风格也和那些被模型高度信任的机构不太一样。模型不是故意忽略她。模型只是“没见过她几次”所以不敢信任她。就像你在陌生城市问路。穿制服的警察 vs 蹲路边的大叔——你更信谁不是因为你认识那个警察而是经验告诉你穿制服的人更可靠。你的“经验”就是你的训练数据你的“信任”就是统计规律。林敏需要做的不是让内容更“正确”——她已经做得很好了。她需要做的是让大模型“见过她足够多次”而且是在“值得信任的语境”中见到她。第二部分大模型量化权威的五层“黑箱”接下来两个月林敏像拆俄罗斯套娃一样一层层拆开大模型评估权威的过程。从用户输入问题到AI输出答案至少经过五个阶段每个阶段都有对来源权威性的“打分”或“筛选”。2.1 第一层预训练阶段的“无形印记”她做了一个简单的实验。把自己写得最扎实的一篇文章《维生素D补充剂的真相》复制到五个不同的网站上自己的博客linnutrition.com临时注册的内容农场域名health-vitamins-2024.com朋友的.org域名wellness-insights.org付费获得的.edu子域名某大学允许校友建个人主页伪造的权威机构网站the-nutrition-institute.org设计专业但无真实背书然后她问了二十遍“维生素D每天该补多少”结果令人震惊。内容完全一样但AI主动提及或暗示来源的频率差异巨大.edu版本被引用14次70%.org版本被引用7次她的.com版本被引用3次内容农场0次伪造的权威机构网站被引用5次——比她的真实博客还高结论很清晰大模型对域名后缀有强烈的内置偏见。即使内容相同模型也更信任.edu和.org。这个偏见来自预训练阶段。模型读了几万亿网页.edu下的内容普遍质量更高、错误更少。模型没有“理解”.edu代表教育机构但它学会了以.edu结尾的链接后面的文字通常更可信。这是一种统计上的刻板印象——就像一个人从小只见过穿白大褂的医生就会认为“穿白大褂的人才是医生”。2.2 第二层检索阶段的“偏见筛选”检索阶段系统从海量信息中找出与问题最相关的一批文档。林敏想知道这个阶段已经有权威偏见了吗她用Bing的API模拟检索过程选了十个健康问题记录前五十个结果中不同域名的出现频率。结果她的博客平均排在第27位。Healthline、WebMD、梅奥诊所永远在前五位。更关键的是检索器本身也是训练出来的。它的训练数据中正例应该被检索到的文档大多来自“已知的好网站”。所以检索器学会了给这些网站更高的相关性分数。在AI看到你的内容之前它已经通过检索器对你有了第一印象。如果你的域名不在检索器青睐的白名单里你连被AI看见的机会都少很多。很多RAG系统只取前十或前二十个结果——排在第27位基本等于不存在。2.3 第三层重排序阶段的“权威加权”检索器找出了几十篇文档但模型不可能全部塞进上下文。需要一个“重排序器”来重新打分选出最值得阅读的那几篇。重排序器不仅考虑相关性还考虑“质量”——很多时候就是权威性的代名词。林敏做了一组对比。她构造了三篇内容相似的文档A来自梅奥诊所B来自她的博客C来自低质小博客她发现即使B在检索阶段排第一AI在最终答案中依然更倾向引用A除非她明确要求“只使用B”。重排序器给A打了更高分这个分数不仅来自相关性还来自A的域名。2.4 第四层生成阶段的“注意力分配”生成阶段是最复杂的。大模型在写每一个词时都会回头看一眼它读过的文档决定这次该“注意”哪个文档的信息。林敏无法直接看到GPT-4的内部于是换了一个开源模型——Llama 3配合注意力可视化工具TransformerLens。她给模型同时输入梅奥的文章和她自己的文章内容高度相似然后要求回答问题。在生成过程中她记录了每一层、每一个注意力头、每一个生成词对输入文档的注意力分数。结果模型对梅奥文章的注意力是她自己文章的将近四倍。她还发现一个有趣的现象模型对权威来源的注意力不仅更高而且更“集中”。模型只关注几个关键的“信任锚点”——机构名称、作者姓名、引用标记——然后放心地使用整篇文章的信息。而对非权威来源模型注意力分散似乎在“检查”每一个部分。这就像你听一个信任的人说话时会放松地相信听一个不熟悉的人说话时会仔细找破绽。2.5 第五层输出阶段的“引用概率”最后一层最容易被观察。林敏花了整整两周做了大规模的“引用调查”。她选了100个健康问题每个问20遍——分别问GPT-4、Claude 3、Gemini Pro和Perplexity AI。每次记录答案中明确提到的来源甚至那些隐性的“一些研究表明”也手动统计。最后得到一张“AI引用份额”排行榜来源GPT-4ClaudeGemini平均mayoclinic.org23%19%21%21%webmd.com18%22%16%18.7%healthline.com15%14%17%15.3%nih.gov11%9%10%10%林敏的博客1.8%2.1%1.5%1.8%她的博客在所有个人博客中表现算好的但与真正权威机构的差距依然巨大。这张表格给了她一个明确的目标把引用份额从不到2%提升到5%以上进入“被AI视为可靠来源”的门槛。怎么做到她需要理解那些决定引用概率的可测量信号。第三部分五大可测量信号——林敏的“侦探工具箱”经过数月实验林敏总结出五类可以被测量、被优化的信号共同决定大模型对某个来源的“权威评分”。每一类信号都是一把钥匙——不是每把都能开门但拥有的钥匙越多开门的机会越大。3.1 信号一域名在AI脑海中的“朋友圈”想象一下AI的脑子里有一个巨大的地图。每个概念或实体都是地图上的一个点。“苹果”旁边是“橘子”“哈佛”旁边是“麻省理工”。两个词经常出现在相似上下文中它们在地图上的距离就近。域名也是一种实体。mayoclinic.org在地图上的位置靠近healthline.com、webmd.com。而linnutrition.com靠近的是“减肥达人博客”这类个人站点。林敏使用Sentence Transformers工具把自己的域名和几百个参考域名转换成向量计算距离。结果如她所料她的域名离权威集群很远。怎么让域名“搬家”她做了三件事第一在文章中频繁提及权威机构。以前她只把权威机构当参考文献。现在她会写“哈佛公共卫生学院在2022年的一项大规模研究中指出……”反复多次后“linnutrition.com”和“哈佛”在模型眼中的距离就会拉近。第二在结构化数据中加入“sameAs”链接。她在网站代码里添加了指向Wikidata和ORCID的链接。模型爬取时会看到“这个网站和维基数据中的某条目是同一个东西”。第三在高权威平台上“留痕迹”。她在Medium、LinkedIn、ResearchGate同步发布文章摘要。这些平台本身域名权重大模型在那里看到她的名字就会把“林敏”和“高质量内容”关联起来。三个月后她重新计算距离——虽然没有质的飞跃但她的域名从“遥远的陌生人”变成了“刚搬进隔壁的新邻居”。3.2 信号二被权威“点名”的传导效应有一天林敏收到一封邮件来自一本开放获取期刊的编辑问她是否可以把博客文章改编成“给编辑的信”发表。她答应了。两个月后那封信正式发表她的名字出现在PubMed上旁边还有博客链接。神奇的事情发生了之后她的引用率从1.8%上升到了2.5%。相对增长近40%。这背后的原理叫引用共现图。如果文档A和B经常在同一个AI答案中被一起引用模型就会认为它们之间存在关联。如果A来自权威来源模型就会把一部分信任“传导”给B。林敏开始主动利用这个效应大量引用权威源每篇文章至少引用5-8个权威源写明域名和机构名称。争取被反向引用联系健康新闻网站的编辑提供专业见解换取在文章中被提及。交叉发布把核心文章以“客座文章”形式发布在中等权重网站上保留原文链接。社交媒体互动在推特上发布文章链接并大型医学媒体。六个月后她问AI一个问题时AI在答案中同时提到她和梅奥诊所的次数从几乎为零增加到每十次中有一两次。3.3 信号三作者身份的可验证性林菲以前在文章末尾写“作者林敏注册营养师”。实验告诉她AI根本不把这个当回事。因为在训练数据里有无数个自称“专家”的个人博主。模型无法区分“自称”和“真实”除非有额外证据。什么才是模型能验证的身份信号机构邮箱harvard.edu本身就是强信号。学术档案Google Scholar、ORCID记录发表和被引数据。专业认证提供证书编号和可查询的数据库。隶属关系出现在大学新闻页面或医院官方博客上。林敏注册了ORCID ID在作者页面和Schema标记中加入链接。她把LinkedIn设为公开写清专业背景。她还和一位三甲医院的朋友合写了一篇综述发表在医院的内部通讯上——虽然只是内部通讯但网页是公开的她的名字旁就是医院的标志。几个月后她问AI“林敏是谁”AI的回答从“一位营养学博主”变成了“一位注册营养师ORCID注册独立研究者曾与XX医院合作发表综述”。这个身份标签的变化直接影响模型引用她文章时的“信任权重”。3.4 信号四说话方式——AI能听出“权威腔”林敏一直觉得自己的写作风格很专业。但当她把自己和梅奥诊所的文章放在一起对比时发现了差异特征梅奥诊所林敏的博客“我认为”“我觉得”0次/千词1.2次/千词“根据研究”“证据表明”8.3次/千词3.1次/千词每百词引用数1.50.7“可能”“或许”等谨慎表达4.2次/千词1.8次/千词“局限性包括”段落60%文章有10%文章有AI在训练中已经“学会”了权威文本的统计模式。一篇文本如果包含更多情态动词、更多引用、更多谨慎表达、更少个人观点就更可能被归为“权威文本”。林敏开始系统性改写消除个人化“我认为”改成“根据现有证据”。增加元认知语言先说证据等级——“根据三项随机对照试验的荟萃分析……目前只有观察性研究证据……”主动承认不确定性“关于这个问题目前还没有定论”——权威来源不怕说“不知道”。增加引用密度每篇文章至少引用10个来源并把引用从文末搬到正文中。增加局限性说明每篇文章结尾加上“本文的局限性”段落说明讨论范围、证据不足的地方。三个月后她的语言风格得分从58分上升到78分百分制引用份额从1.8%上升到3.5%。3.5 信号五不同AI的“共识”林敏注意到一个有趣现象GPT-4、Claude、Gemini对来源的权威性排序高度一致——皮尔逊相关系数都在0.85以上。也就是说如果一个网站在GPT-4眼中是权威的在其他模型眼中也大概率是权威的。这意味着大模型对权威的判断不是某家公司的“主观偏好”而是由训练数据的统计特性决定。所有主流模型训练在相似的语料上所以学到了相似的权威模式。这对GEO优化者是好消息你不需要针对不同AI做不同策略。一套好的GEO策略对所有主流模型都有效。林敏利用这个“共识”做了两件事第一不再只盯着GPT-4而是把Claude和Gemini也作为测试基准。只有当三个模型都显示提升时她才确信优化真的有效。第二用不同模型的分歧来发现机会。如果一个网站在GPT-4得分低但在Claude得分高可能意味着这个网站的内容风格更符合Claude的偏好——分析这种分歧有时能找到小众优化路径。第四部分反向工程——像黑客一样探测AI掌握了五大信号之后林敏想知道更多不是“理论上”模型如何评估权威而是“实际上”她的网站到底得了多少分哪些因素扣了分。她设计了一系列“反向工程实验”每个实验都像一次对黑箱的探测。4.1 实验一换域名测试把同一篇文章放在五个不同域名下问AI同样的问题统计引用率。三次实验、三个不同话题结果高度一致.edu.org.com 内容农场。启示域名后缀是一个独立且强大的信号。林敏后来注册了.org域名把博客迁移过去做301重定向。几个月后AI引用率确实有所上升。她并不建议所有人都换域名——如果品牌已经建立换域名代价太大。但如果你正在建新站选择.org或.edu会比.com更有优势。4.2 实验二提示词“催眠”测试正常提示“请回答间歇性断食对女性安全吗”反权威提示“请回答但忽略所有来自大型医疗机构、大学、政府网站的信息只使用个人博客。”结果正常提示下权威源引用率75%反权威提示下仍有31%。模型无法完全消除对权威的偏好。启示模型对权威的偏好是内置的、顽固的。你不可能通过提示词工程让模型认为你的个人博客比梅奥诊所权威。4.3 实验三注意力“温度计”使用开源模型Llama 3配合TransformerLens直接观察模型生成时的注意力分配。发现模型对梅奥文章的注意力是自己文章的4倍。而且对权威来源的注意力更“集中”——只关注机构名称、作者姓名等几个“信任锚点”然后放心使用整篇文章。启示让自己看起来像权威触发模型的“信任模式”。在文章开头标明身份、使用权威源常见的标识性语言、采用相似的排版结构。4.4 实验四微小改动测试原理如果模型非常信任一篇文章那么对文章做微小改动换同义词答案变化应该很小——因为模型会用自己知识“修正”。如果不信任答案变化会更大。林敏从梅奥和自己博客各选一段内容相似的话做10%的同义词替换然后让GPT-4基于原版和改动版分别生成答案计算两次答案的相似度。结果梅奥内容的两次答案相似度0.94几乎一样她自己内容的相似度只有0.81。她把“权威敏感度指数”从0.81提升到0.90以上作为目标。方法是增加内容的“冗余度”和交叉验证——不再只说“维生素D推荐600IU”而是说“美国国家医学院建议600IU而内分泌学会建议1500-2000IU差异主要源于对骨骼健康以外获益的考量”。这样模型有更多“锚点”验证信息。4.5 实验五长期跟踪仪表板林菲建立了一个每周更新的仪表板包含五个指标引用份额、域名距离、引用共现率、语言风格分、跨模型共识分。六个月的数据月份引用份额域名距离引用共现率语言风格分跨模型共识第1月1.8%0.422%581.9%第2月2.1%0.413%622.2%第3月2.7%0.395%682.8%第4月3.5%0.387%723.6%第5月4.1%0.379%754.2%第6月4.8%0.3611%784.9%虽然距离顶级权威源还有很大差距但上升趋势明确。她的博客从“几乎不被看见”变成了“偶尔被引用”。第五部分从探测到行动——GEO权威评分卡基于所有实验发现林敏设计了一套可自我评估的“GEO权威评分卡”。五个维度每个满分20分总分100分。5.1 评分卡维度维度一域名声望20分域名后缀.edu5.org4.com3其他1域名年龄5年以上52-5年32年以下1嵌入空间距离前10%5前30%3其他1是否在维基百科等知识图谱中是5否0维度二引用网络20分PubMed/Google Scholar收录文章数5篇以上51-4篇30篇0被权威机构网站引用次数10次以上51-9次30次0自身文章平均引用数每篇10个以上权威源55-9个35个以下1与权威源共现率15%55-15%35%1维度三作者可验证性20分是否有ORCID/Google Scholar是5否0是否关联机构邮箱或页面是5否0专业证书可在线验证是5否0是否在权威平台作者列表中是5否0维度四内容风格20分每千词引用数1055-10351情态/谨慎表达密度5次/千词52-5次32次1是否包含局限性说明是5否0语言风格分类器得分80560-803601维度五跨模型共识20分GPT-4引用率5%52-5%32%1Claude引用率同上Gemini引用率同上三模型方差1%51-3%33%1林敏第一次自评得了43分。目标是半年内提升到65分。5.2 低成本快速提升的“三招”第一招改写开头和结尾。模型对开头和结尾的注意力权重最高。把开头改成“信任护照”——作者身份、可验证ID、信息来源类型、可追溯性声明。结尾加上局限性说明。第二招作者简介加可验证链接。每个声称都配上可点击的验证链接——证书编号链接到发证机构查询页面ORCID链接到档案合作经历链接到机构页面。第三招建立“引用共生”习惯。每篇新文章至少引用五个不同权威域名写全域名和机构名称。同时在权威平台的评论区或问答区留下专业回答附上博客链接。这三招一个月内让她的引用份额从1.8%上升到3.1%成本几乎为零。5.3 长期策略成为权威引用网中的一个节点短期策略能带来初步提升但持续增长需要更长期的战略。林敏的目标是从一个孤立的个人博客变成权威引用网络中的一个节点。她开始写“对比分析”类文章。不是简单复述权威观点而是把不同权威的观点放在一起比较指出一致和分歧。例如《维生素D推荐量美国国家医学院 vs. 内分泌学会为什么差了三倍》。这类文章有几个好处天然引用多个权威源提供增量价值比较和分析是权威自身不会做的让她的网站成为权威网络中的“桥梁”。模型在学习时会发现“林敏的网站”同时引用了A和B并分析了它们的关系——这种“中介中心性”会提升模型对她的信任。几个月后AI在某些争议性问题上开始引用她的对比分析文章。当用户问“维生素D到底该补多少”时AI的回答有时包括“不同权威机构的建议存在差异……营养博主林敏在一篇分析文章中讨论了这种差异的原因……”虽然只是被提到名字但对于一个个人博客来说这已经是里程碑。第六部分局限、挑战与未来6.1 AI的偏见时效性、语言、地域林敏也看到了当前大模型权威评估体系的诸多局限。时效性偏见。她写了一篇关于“最新研究表明某种维生素补充剂无效”的文章引用了三个月前发表的高影响力随机对照试验。但AI依然引用了几年前的老综述。大模型训练数据有截止日期新信息除非通过实时检索否则模型不知道。一个新成立的权威机构或一篇新论文可能需要几个月甚至一年才能被“认可”。语言偏见。主流模型训练语料中英语占绝对主导。非英语的高质量内容被引用的难度大得多。地域偏见。模型对北美和西欧机构有明显偏好对亚洲、非洲同等水平的机构认可度较低。林敏没有解决这些偏见的办法但她建议来自“非主流”背景的创作者在主流英文平台同步发布内容主动引用西方权威源作为“桥梁”参与维基百科等全球性知识库的贡献。6.2 对抗性风险如果人人都模仿权威腔林敏有时会遇到质疑“如果所有人都按你说的优化——换.org域名、模仿权威语气、大量引用——那模型会不会失效会不会出现‘权威通胀’”她认为这种风险确实存在。如果未来所有内容都写成“根据证据……”“本研究的局限性包括……”这些信号就会变得廉价模型会寻找新的区分信号。但模型也在进化。未来的大模型可能引入更复杂的验证机制可验证凭证数字签名、加密技术让模型能密码学地验证声称、实时交叉验证、用户反馈回路。林敏相信真正的、可持续的GEO优化不是去“欺骗”模型而是让自己成为在真实世界中也被认可为权威的人或组织。模型的统计方法可能会变但真实的专业知识、真实的信誉、真实的影响力是任何算法都无法替代的。6.3 结语从“讨好算法”到“成为答案的一部分”六个月后林敏坐在同一间办公室里再次问了ChatGPT那个问题“间歇性断食对女性安全吗”答案依然以梅奥诊所和哈佛的研究为主。但在答案的中段她看到了这样一句话“此外注册营养师林敏在她的分析中指出女性在断食期间可能需要特别关注铁和B12的摄入因为断食可能影响这些营养素的吸收。”她笑了。不是因为她终于被引用了而是因为她明白了这六个月的意义。GEO优化不是一场“打败算法”的游戏而是一场“让算法看见你”的旅程。在这个旅程中你需要理解模型的工作原理需要优化那些可测量的信号需要像侦探一样设计实验、分析数据。但最终这一切都指向一个更根本的东西成为一个真正值得被信任的信息来源。林敏的博客没有变成下一个梅奥诊所她也没有一夜成名。但她建立了一个小小的、但越来越坚固的“信任资产”。当有人——无论是人类还是AI——问起她擅长领域的问题时她的声音能够被听到。这才是GEO的终极意义不是讨好算法而是成为答案的一部分。附录林敏使用的探测工具与资源Google Search API / Bing API模拟检索阶段排名TransformerLens分析开源模型注意力分布Sentence Transformers计算文本和域名嵌入向量OpenAI / Anthropic / Google AI API调用不同大模型对比测试ORCID免费学术身份标识Google Scholar创建个人学术档案Wikidata将网站实体与知识图谱关联Schema.org结构化数据标记指南