国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

當前頭條:“向量數據庫先鋒“Zilliz創(chuàng )始人:大模型時(shí)代,需要新的“存儲基建”

大模型在以“日更”進(jìn)展的同時(shí),不知不覺(jué)也帶來(lái)一股焦慮情緒:估值 130 億美元的 AI 寫(xiě)作工具 Grammarly 在 ChatGPT 發(fā)布后網(wǎng)站用戶(hù)直線(xiàn)下降;AI 聊天機器人獨角獸公司 Character.AI 的自建大模型在 ChatGPT 進(jìn)步之下,被質(zhì)疑能否形成足夠的競爭壁壘 ......


【資料圖】

ChatGPT Plugins插件發(fā)布之后,更多創(chuàng )業(yè)者開(kāi)始擔憂(yōu)大模型的技術(shù)進(jìn)步會(huì )把自己卷入「打擊射程」,瞬時(shí)抹掉自己所在領(lǐng)域的技術(shù)積累和優(yōu)勢。

我們好像陷入了大模型所帶來(lái)的「WTF 綜合癥」——在過(guò)山車(chē)般的技術(shù)加速度中,人們會(huì )在「what the fuck」的驚訝和「what"s the future」的思索之間,反復橫跳。

冷靜下來(lái)思考,在底層大模型的國產(chǎn)化浪潮以及應用層的紅紅火火之外,大模型領(lǐng)域還有什么是值得被關(guān)注的?

向量數據庫(Vector database)在我們與行業(yè)人士的各種交流中屢被提及。它被看做 AI Infra 中的關(guān)鍵一環(huán),這種專(zhuān)門(mén)用于存儲、索引和查詢(xún)嵌入向量的數據庫系統,可以讓大模型更高效率的存儲和讀取知識庫,并且以更低的成本進(jìn)行 finetune(模型微調),還將進(jìn)一步在 AI Native 應用的演進(jìn)中扮演重要作用。

向量數據庫之于大模型的價(jià)值和意義究竟是什么?它會(huì )不會(huì )被大模型本身的進(jìn)步吞掉?圍繞著(zhù)大模型的軟件開(kāi)發(fā)范式將會(huì )被如何構建?向量數據庫能發(fā)揮的作用是什么?

帶著(zhù)這些問(wèn)題,極客公園找到了Zilliz 創(chuàng )始人& CEO 星爵進(jìn)行交流。Zilliz成立于中國上海,總部在美國硅谷,于2019年開(kāi)源了全球首個(gè)向量數據庫產(chǎn)品 Milvus,它在 GitHub 上獲得了超過(guò) 1.8 萬(wàn)顆 Star,在全球擁有超過(guò) 1000 家企業(yè)用戶(hù),成為目前全球最流行的開(kāi)源向量數據庫。而早在 2022 年,Zilliz 就完成了累計超過(guò) 1.03 億美金的 B 輪融資,估值達到驚人的 6 億美金。

圖|Zilliz 在 SIGMOD’21 發(fā)表的論文,Milvus 是全球真正意義的第一款向量數據庫產(chǎn)品

在大模型熱潮之前,整個(gè)向量數據庫市場(chǎng)一年只有幾億美元。直到去年 ChatGPT 推出,如 killer app(殺手級應用)一般拉高了市場(chǎng)天花板,也讓大模型和向量數據庫開(kāi)始真正出圈。

在今年 3 月的 NVIDIA GTC 大會(huì ),黃仁勛首次提及向量數據庫,并強調對于構建專(zhuān)有大型語(yǔ)言模型的組織而言,向量數據庫至關(guān)重要,而 Zilliz 也被官宣是 NVIDIA 的向量存儲的官方合作伙伴。

緊接著(zhù),OpenAI ChatGPT plugins 發(fā)布的官方文章中,Milvus 和 Zilliz Cloud 同時(shí)作為首批插件合作伙伴被提及,成為唯一一家開(kāi)源項目與商業(yè)化云產(chǎn)品同時(shí)入選的向量數據庫公司。而在近一個(gè)月之內,向量數據庫迎來(lái)了融資潮,Qdrant 、Chroma 和 Weaviate 紛紛獲得融資;而?Pinecone?也正式官宣了新的 1 億美金 B 輪融資,估值達到了 7.5 億美元 ?......

圖| Zilliz 創(chuàng )始人 & CEO 星爵


從 3 月 到 5 月,我們與星爵一起見(jiàn)證了向量數據庫從默默無(wú)聞到成為行業(yè)大熱的完整過(guò)程,并和他陸續探討了大模型的演化、向量數據庫的價(jià)值和意義,以及 AI Native 應用演進(jìn)等一系列問(wèn)題。

以下是對話(huà)精選,由極客公園整理:

01?大模型和小模型的混合時(shí)代

極客公園:在你看來(lái)大模型是什么?

星爵:大模型是一個(gè)智能處理器,是一個(gè)大腦。傳統處理器是人工去編排電路,而大模型是用神經(jīng)網(wǎng)絡(luò )去編排電路。

大模型未來(lái)發(fā)展會(huì )更加強大,一方面會(huì )有中央處理的大模型,像 ChatGPT 的云端大腦,后面有數萬(wàn)塊 GPU,它會(huì )奔著(zhù)更大規模、更強能力的方向發(fā)展,但它的缺點(diǎn)也很明顯,能耗和成本也比較高;另外一個(gè)維度,它會(huì )往更高的效率、更低的能耗比方向走,會(huì )有小模型出來(lái),像 Dolly 模型(注:Databricks 發(fā)布的擁有 120 億參數,類(lèi) ChatGPT 開(kāi)源模型),每個(gè)人手提一個(gè)「大腦」。

極客公園:這個(gè)結論是怎么得出來(lái)的?

星爵:我是站在人類(lèi)的科技發(fā)展史去看的,而不是大模型本身。

大模型本質(zhì)是開(kāi)啟了人類(lèi)智能計算的一個(gè)時(shí)代,但是計算能力一定會(huì )分化的,不可能說(shuō)只有一個(gè)。

人類(lèi)的計算最終都是從大分化成小的,「大」不見(jiàn)得是一個(gè)適合所有產(chǎn)品的需求。計算機最開(kāi)始是主機時(shí)代,是在大機房里面的大型機,而現在 ChatGPT 本質(zhì)也是如此。對于這種計算方式來(lái)說(shuō),缺點(diǎn)明顯,響應很慢,吞吐率也不高。

出現小型化的趨勢是因為功能的需求在分化,如果你要辦公,你買(mǎi)一個(gè)上網(wǎng)的筆記本電腦就可以了,不需要一個(gè)超級計算機。

極客公園:會(huì )像主機到微機的時(shí)代演變,有清晰的階段劃分嗎?還是說(shuō)會(huì )是一個(gè)大模型和小模型混合的時(shí)代?

星爵:從大模型到小模型的大量涌現,這個(gè)演進(jìn)其實(shí)就花了 6 個(gè)月,人類(lèi)文明的進(jìn)化已經(jīng)變得更快了?,F在如果你想跑一個(gè)微軟出的 Deep Speed Chat 這種小模型,在筆記本上就行。

你可以認為小模型就相當于現在的 PC,大模型是現在的超級計算機。

我覺(jué)得大模型和小模型兩者會(huì )并存下去。需求分化的本質(zhì)背后,并不是一個(gè)技術(shù)問(wèn)題,而是資源如何最優(yōu)化配置的問(wèn)題。如果說(shuō)集中式的管理是最優(yōu)的話(huà),那么一定會(huì )做集中式的。

極客公園:大模型和向量數據庫是什么關(guān)系?大多數向量數據庫公司其實(shí)在大模型熱潮出現前就有了,比較好奇大模型給向量數據庫帶來(lái)了什么?

星爵:在我看來(lái),大模型是新一代的 AI 處理器,提供的是數據處理能力;那么向量數據庫提供就是 memory,是它的存儲。

向量數據庫之前應用比較分散,ChatGPT 的出現,讓向量數據庫迎來(lái)了killer app 時(shí)刻,一下子把行業(yè)的天花板拉高了幾個(gè)數量級,把向量數據庫面向的開(kāi)發(fā)者從幾萬(wàn)提升到全球幾千萬(wàn)。就像過(guò)去做移動(dòng)開(kāi)發(fā)和應用開(kāi)發(fā),可能大家都會(huì )人手一個(gè) MongoDB 數據庫,以后也會(huì )人手一個(gè)向量數據庫。

極客公園:目前大模型發(fā)展非常迅猛,會(huì )不會(huì )把向量數據庫提供的價(jià)值直接被吞到大模型的體系里?

星爵:不管是大模型還是小模型,它本質(zhì)上是對全世界的知識和運行規則的一個(gè)編碼,是對我們人類(lèi)所有數據的一個(gè)壓縮。

但很難真的把所有數據放到大模型里面。比如有一種觀(guān)點(diǎn),ChatGPT 是一個(gè)相當高效的壓縮編碼方式,但它并不是無(wú)損壓縮,并不能擁有所有知識,這個(gè)過(guò)程必然帶來(lái)熵減和信息損失。如果把所有信息都編碼到神經(jīng)網(wǎng)絡(luò )里面去,那么神經(jīng)網(wǎng)絡(luò )就會(huì )變得特別臃腫,參數規模會(huì )巨大無(wú)比,從而導致運行緩慢。所以不能全放進(jìn)去,這意味著(zhù)它可能需要外部的存儲。

在計算機結構中也有類(lèi)似的情況:CPU 里會(huì )有一個(gè)片上存儲 SRAM,一般會(huì )做得比較小,因為片上存儲的價(jià)格比內存 DRAM 要貴 100 倍,比磁盤(pán)要貴 1 萬(wàn)倍。神經(jīng)網(wǎng)絡(luò )就是大模型的片上存儲,更大規模的模型擁有更多的片上存儲。但是用神經(jīng)網(wǎng)絡(luò )來(lái)存儲數據是相當昂貴的,會(huì )導致網(wǎng)絡(luò )規模的急劇增大,所以大模型也需要一種更高效的數據存儲方式,這就是神經(jīng)網(wǎng)絡(luò )外的片外存儲,向量數據庫就是它的片外存儲。如果運行時(shí)發(fā)現有信息不知道,就到向量數據庫里面來(lái)取。而向量數據庫的存儲成本比存到神經(jīng)網(wǎng)絡(luò )的成本要低2 4 個(gè)數量級。

極客公園:你拿硬件做了類(lèi)比,但是我們也可以看到有芯片公司是在做存算一體的架構,存儲和計算放在一起。

星爵:本質(zhì)上每一種計算都需要存儲,計算和存儲是兩個(gè)最基本的抽象,但它們是可以相互轉化的,可以用存儲換計算,也可以用計算換存儲。在達到一個(gè)更好地投入產(chǎn)出比的過(guò)程中,需要有一個(gè)平衡。

人類(lèi)的第一個(gè)計算機就是存算一體的,后來(lái)為什么要分開(kāi)?因為效率和成本。為什么說(shuō)大模型不能夠完全取代向量數據庫,這是因為向量數據庫的存儲成本比大模型要低一個(gè) 1 千倍到 1 萬(wàn)倍,就看你要不要這么做而已。歷史上,存儲永遠比計算便宜,計算也在降價(jià),但你發(fā)現存儲一直更便宜。

極客公園:但這個(gè)邏輯其實(shí)是硬件的邏輯,軟件也會(huì )如此嗎?

星爵:軟件和硬件是相輔相成,互為支撐的。軟件里為什么要把中間計算過(guò)程保存下來(lái),不重算一次?為什么要做緩存,要保存中間結果?因為保存是為了少算,少算的原因是用空間換時(shí)間,用存儲換計算資源,這在軟件里面是最經(jīng)典的一種設計模式。之所以軟件這么設計,也是硬件特性所決定的:存儲比計算要更便宜。

02?重新理解向量數據庫的價(jià)值

極客公園:最近有個(gè)玩笑說(shuō),上一波投AIGC VC 公司基本上都后悔了,意思是在大模型之下很多應用層公司的壁壘都被抹掉了。私域數據會(huì )不會(huì )是構成競爭力的核心,向量數據庫是不是可以在這個(gè)方向起作用?

星爵:幫助用戶(hù)管理私域數據,確實(shí)是目前向量數據庫提供的核心應用場(chǎng)景。很多公司和個(gè)人不愿意讓大模型拿到自己的數據。

那么我們怎么樣利用向量數據庫和 OpenAI 這種大模型廠(chǎng)商交換數據呢?首先說(shuō)一點(diǎn),大模型本身是可以將互聯(lián)網(wǎng)上的公域數據都爬到,對于私域數據可以用向量數據庫先做好編排,轉成向量數據庫里的向量?,F在要從私域數據的知識庫里要找到問(wèn)題的回答,可以利用向量數據庫的相似查找能力,精確定位到庫里的相關(guān)數據,然后把這幾個(gè)信息編成一個(gè) prompt。

盡管 prompt 的容量理論上可以無(wú)限,但這樣效率太低,并且也難以實(shí)現。通過(guò)以上這樣的方式就可以很容易控制是 2000 個(gè) tokens,或者 8000 個(gè) tokens,把它傳給大模型給出一個(gè)答案。所以說(shuō),通過(guò)向量數據庫可以用私域數據和大模型做一個(gè)增強和互補。

極客公園:大模型不會(huì )把私有數據都拿走?

星爵:國外這一波 AI 起來(lái)之后還有一個(gè)特別好的點(diǎn),就是把隱私數據保護都搞清楚了。

為什么有那么多開(kāi)發(fā)者敢用,那么多百億美金的公司愿把自己的服務(wù)接到 OpenAI 里面去,就是 OpenAI 已經(jīng)保證 ?prompt ?只能作為 input(輸入),不能存、不能訓練、不能學(xué)習。要不然我把數據都給你了,你學(xué)完以后把我踢掉怎么辦。國外已經(jīng)在公有數據和私有數據之間劃出了一個(gè)很大邊界。我相信中國最后也會(huì )立法,走到這一步的。

極客公園:向量數據庫在大模型中還有什么應用?

星爵:短期還有一種應用方式,用向量數據庫給大模型更新數據。

其實(shí)這也是個(gè)成本的考慮,模型的finetune(微調)更新的成本,是遠大于使用向量數據庫數據做存儲。

不管是大模型還是小模型的 finetune 都比較慢。除非你做一個(gè)超級無(wú)敵計算機,實(shí)時(shí)獲取新數據,也實(shí)時(shí)更新模型,但沒(méi)必要。像 ChatGPT 訓練所用的數據是截止到 2021 年 9 月,后面的事情它就不知道了,會(huì )給出錯誤答案。所以通過(guò)用向量數據庫給大模型更新數據,也是可以一定程度上解決大模型「胡言亂語(yǔ)」的問(wèn)題。

極客公園:Zilliz 還推出了GPTCache,要給ChatGPT 做緩存層。這個(gè)怎么理解?

星爵:緩存也是個(gè)很好的應用場(chǎng)景。我們認為全球的CDN 和緩存會(huì )有重做一次的機會(huì )。未來(lái) AI 的公共場(chǎng)景中信息交換的方式會(huì )發(fā)生變化,會(huì )向更智能,更偏向語(yǔ)義這個(gè)方向轉變,并且消化的是更加非結構化的數據。以前的 CDN 是基于精確條件的查詢(xún),現在可以基于一些近似條件的查詢(xún)。未來(lái)需要一個(gè)更智能的一個(gè) CDN,更智能的一個(gè)緩存。

極客公園:最近很火的AutoGPT 和向量數據庫也有關(guān)聯(lián),向量數據庫在其中扮演了什么角色?

星爵:向量數據庫是AutoGPT 中最為核心的組件之一。我們的產(chǎn)品 Milvus 已經(jīng)接入到了 AutoGPT 中,這給我們帶來(lái)了很大的流量。你可以這樣理解,AutoGPT 等于ChatGPT 加上向量數據庫。通過(guò)向量數據庫讓 AutoGPT 具備了長(cháng)期記憶能力,它知道之前搜的是什么,把歷史全部記進(jìn)去了,不然每次查詢(xún)是沒(méi)有上下文的。

極客公園:斯坦福大學(xué)和谷歌聯(lián)手發(fā)布的論文《Generative Agents: Interactive Simulacra of Human Behavior》也引起了行業(yè)強烈關(guān)注,實(shí)驗構建了一個(gè)虛擬小鎮,小鎮有25 個(gè)有「記憶」的虛擬人,他們可以結合自己的「人設」,在社交活動(dòng)中產(chǎn)生不同的決策和行為,這讓我們看到了現實(shí)版的《西部世界》構建的可能性。這個(gè)實(shí)驗里面非常重要的是虛擬人的記憶機制,向量數據庫能做嗎?

圖|虛擬小鎮

星爵:能。AutoGPT 加一個(gè)人物的頭像,就可以打造一個(gè)最簡(jiǎn)單的智能 Avatar。以后各種智能體都要有個(gè)記憶,而記憶是向量數據庫來(lái)提供,這個(gè)想象空間蠻大的。那它可能是個(gè)什么機會(huì )呢?還真不好去定義,人類(lèi)歷史上首次出現擁有獨立記憶體的虛擬人,這是一個(gè)歷史性的機會(huì ),對向量數據庫的需求會(huì )有幾萬(wàn)倍的增長(cháng)。

這本質(zhì)上還是使用向量數據庫作為大模型的 memory,應用在了虛擬智能體這個(gè)場(chǎng)景。我覺(jué)得慢慢地大家在達成共識,只要做大模型的應用,就會(huì )用向量數據庫來(lái)做記憶體。

極客公園:大模型要想處理復雜任務(wù),首先要有記憶能力,然后基于記憶(上下文)做推理,而向量數據便是記憶體。那是只有向量數據庫就夠了,還是需要再加一些其他的?

星爵:基本就夠了。因為所有大模型和 AI 里面的數據交換都是用向量。這個(gè)本質(zhì)上是說(shuō)片外跟片內的存儲數據的交換格式是統一的。這也就是說(shuō)為什么不能拿 Oracle 去做智能體的記憶;ChatGPT 也沒(méi)有選 MongoDB,也沒(méi)有選 Oracle,因為它們都是不適合大模型的。

極客公園:是不是可以這樣理解,把大模型看成是一個(gè)基于自然語(yǔ)言編程的新型計算機,向量數據是它最原生的數據,向量數據庫是它最原生的數據庫,這其實(shí)是一個(gè)完整的體系?

星爵:是的。神經(jīng)網(wǎng)絡(luò )的確是向量,因為它所有的信息傳輸都是向量,每一層的參數也都是向量。所以能看成是個(gè)以向量(embedding)為基礎架構的一套新的計算體系結構。

這個(gè)體系結構簡(jiǎn)單說(shuō)來(lái)就是「CVP Stack」。其中「C」是 ChatGPT 這類(lèi)大模型,負責向量的計算;「V」是向量數據庫(vector database),負責向量的存儲;「P」是 Prompt Engineering,負責向量的交互。

03?AI Native 時(shí)代的應用演進(jìn)

極客公園:對于AI Native 時(shí)代的應用開(kāi)發(fā)來(lái)說(shuō),什么變得更重要了?什么不重要了?

星爵:在大模型開(kāi)發(fā)時(shí)代,我率先提出了前面提到的「CVP Stack」概念,現在也逐漸被廣泛接受了。

這里要特別指出的是,我對于「P」的定義和理解會(huì )更加開(kāi)放一些,不限于 prompt engineering。它本質(zhì)上是個(gè)創(chuàng )造的過(guò)程,而不是說(shuō)簡(jiǎn)單的寫(xiě) prompt?!窹」的核心是提問(wèn)能力,或者說(shuō)是找到需求、找到市場(chǎng)的一個(gè)能力,比如說(shuō)你如何設計你的用戶(hù)流程,如何找到一個(gè)好的商業(yè)化落地的場(chǎng)景,這都是包含在「P」中。

對于現在的開(kāi)發(fā)者來(lái)說(shuō),不管你是產(chǎn)品經(jīng)理還是前端工程師,用 ChatGPT 加上向量數據庫,寫(xiě)好 prompt,再用 LangChain 把項目串起來(lái),基本用上一周就可以寫(xiě)個(gè)應用出來(lái),這極大地降低了大模型應用的開(kāi)發(fā)成本。

極客公園:面向大模型時(shí)代,你對Zilliz 這家公司更準確的定義是什么?

星爵:我們是一家 DB for AI 的公司,大概 3 年前,我們發(fā)了這個(gè)領(lǐng)域第一篇 SIGMOD 論文的時(shí)候,提出了這個(gè)概念,但它是一個(gè)學(xué)術(shù)界的講法。如果按照更好理解的方式,我們其實(shí)的是一個(gè) AI Native 的數據庫公司。

過(guò)去10 年最大的機會(huì )是做Cloud Native(云原生)的Data Infra,產(chǎn)生了Snowflake 這樣的巨頭;未來(lái)10 年最大的機會(huì )是做AI NativeAI 原生)的Data Infra,像 Zilliz 這樣的向量數據庫公司將會(huì )迎來(lái)歷史性機遇。

極客公園:這一波大模型創(chuàng )業(yè),應用層創(chuàng )業(yè)者被問(wèn)得最多的是,怎么去建立自己的競爭壁壘,而不被大模型本身的進(jìn)步「淹死」?你怎么看壁壘這個(gè)問(wèn)題?

星爵:應用層其實(shí)是有壁壘,技術(shù)壁壘變低了,那么其他的壁壘就變高了,我覺(jué)得創(chuàng )意和運營(yíng)變得更重要了。

極客公園:與中國關(guān)注應用層和大模型層不同,美國在AI Infra 上迎來(lái)了開(kāi)源的繁榮,AI Infra 的競爭格局會(huì )是怎么樣?中國接下來(lái)在AI Infra 上有什么值得期待的嗎?

星爵:Infra 是一個(gè)贏(yíng)者通吃的市場(chǎng),像 Snowflake 在云原生數據庫領(lǐng)域就是一馬當先。

我覺(jué)得中國在這一塊還沒(méi)開(kāi)始,中國大模型比國外大概落后了半年。Infra 的話(huà),我覺(jué)得中國可能還會(huì )落后半年到 1 年。我覺(jué)得 AI Infra 在接下來(lái)的半年里會(huì )有一個(gè)史無(wú)前例的快速發(fā)展。

04?爆火背后的堅持和運氣

極客公園:3 月的NVIDIA GTC 大會(huì )上,黃仁勛強調向量數據庫對于大模型至關(guān)重要,還宣布了你們是NVIDIA 的向量數據庫的合作伙伴。這中間發(fā)生了什么故事?

圖|NVIDIA GTC 大會(huì ),黃仁勛首次提及向量數據庫,并強調對于構建專(zhuān)有大型語(yǔ)言模型的組織而言,向量數據庫至關(guān)重要

星爵:我們在創(chuàng )業(yè)之初就堅定地認為 AI 時(shí)代的計算一定是異構的,也一直在堅持包括 GPU 加速在內的異構計算的技術(shù)路線(xiàn)。

NVIDIA 是在去年下半年看到整個(gè) AI 的發(fā)展趨勢中,向量數據的處理會(huì )越來(lái)越重要,非常希望更多的企業(yè)能夠把 GPU 加速用起來(lái)。他們在全球范圍內調研和接觸向量數據庫領(lǐng)域的公司和團隊,但也發(fā)現真正能夠在異構計算上面有布局、有實(shí)力的只有我們一家。

NVIDIA 在深入地了解我們之后,也成為了我們 Milvus 開(kāi)源社區里一個(gè)很重要的貢獻者。除了共同發(fā)布 GPU 加速向量數據庫,NVIDIA 還派了幾名的工程師專(zhuān)門(mén)給 Milvus 貢獻代碼。

此外,NVIDIA 還有一個(gè)用 GPU 加速的開(kāi)源推薦系統框架 Merlin,它把 Milvus 也做成 Merlin 中的一個(gè)關(guān)鍵部件,幫推薦系統去管理下面的數據?,F在 NVIDIA 不僅僅是我們的合作伙伴,同時(shí)也成為我們的一個(gè)大用戶(hù)。

極客公園:OpenAI 又是什么樣的故事?我看到在公布ChatGPT plugins 發(fā)布的官方文章中,Milvus Zilliz 是首批的合作伙伴,貢獻了向量數據庫插件。

圖|OpenAI 發(fā)布 ChatGPT plugins 的官方文章中,Zilliz 的產(chǎn)品被提及了兩次

星爵:OpenAI 的話(huà)就更加簡(jiǎn)單了,一年前就已經(jīng)有一些合作了。他們和我們說(shuō)要做一個(gè)平臺,就是 ChatGPT plugins,看到我們的向量數據庫是全球最流行和最具開(kāi)發(fā)者社區影響力的,因此希望加入。最開(kāi)始我們的心態(tài)很平和,覺(jué)得是基礎的開(kāi)源兼容合作。但 plugins 發(fā)布后,我們獲得了來(lái)自大模型領(lǐng)域開(kāi)發(fā)者和 GPT 用戶(hù)群體的空前關(guān)注,這個(gè)是我始料未及的。

極客公園:既然向量數據庫這么重要,會(huì )不會(huì )擔心國內別人再做一個(gè)向量數據庫?

星爵:說(shuō)實(shí)話(huà)我們很歡迎,因為向量數據庫還處于發(fā)展的早期階段,還需要更多的市場(chǎng)教育。

極客公園:對于「為什么是你們」這個(gè)問(wèn)題,你是怎么思考的?

星爵:我也想不到今年會(huì )有機會(huì )和大家都去談向量數據庫。之前我每年都跟別人講,向量數據庫是接下來(lái)特別牛逼的事情,但大部分人聽(tīng)完之后說(shuō),有趣,你有這個(gè)想法和愿景,就好好干。

現在回頭看,沒(méi)有堅定的愿景和長(cháng)期主義的堅持,我們不可能走到現在。

當然,一個(gè)成功的企業(yè)也需要有些好的運氣。比如說(shuō),我們歷史上每次融資都能夠遇到一些擁有相同愿景、堅持長(cháng)期主義的投資人。我們今年開(kāi)始準備做商業(yè)化,剛好遇到大模型的「iPhone 時(shí)刻」,一下子把我們推到了聚光燈下。之前有人會(huì )懷疑我們的商業(yè)化潛力,但現在有人和我說(shuō) Zilliz 想不掙錢(qián)都很難。

很多時(shí)候,你堅持在做一些難的事情,但是很多時(shí)間點(diǎn)你沒(méi)有趕上,你可能會(huì )死。因為其實(shí)很多優(yōu)秀的企業(yè)也是這么死掉的,盡管它的產(chǎn)品和技術(shù)很好,但它跟市場(chǎng)經(jīng)濟發(fā)展的趨勢不吻合,跟用戶(hù)需求爆發(fā)的時(shí)間點(diǎn)不吻合。

對于可以掌控的,那我們就拼命去做成功的必要條件;而有些是無(wú)法控制的,對我們來(lái)說(shuō)的話(huà),很感恩這種運氣。

極客公園:所以你是怎么看自己的?是長(cháng)期主義的勝利者?

星爵:幸存者更恰當一些。

極客公園:大模型給向量數據庫帶來(lái)的是什么程度的加速?

星爵:是指數級的增長(cháng),過(guò)去 6 個(gè)月開(kāi)發(fā)者的增長(cháng)量大概能頂得上我們過(guò)去三年的。

這是一個(gè)向量數據庫開(kāi)始瘋狂增長(cháng)的時(shí)代,也是 AI-native 數據庫未來(lái)十年高速增長(cháng)的開(kāi)端。

本文作者:王式,來(lái)源:極客公園,原文標題:《對話(huà) Zilliz 星爵:大模型時(shí)代,需要新的「存儲基建」》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: