ChatGPT引爆「向量數據庫」賽道!兩家公司共獲10億元融資-全球看點(diǎn)
4月22日,向量數據庫平臺(vector database)Weaviate宣布獲得5000萬(wàn)美元(約3.5億元)B輪融資,由Index Ventures領(lǐng)投,Battery Ventures等跟投。
【資料圖】
4月28日,向量數據庫平臺Pinecone宣布獲得1億美元(約7億元)B輪融資,由Andreessen Horowitz領(lǐng)投,ICONIQ Growth等跟投。
最近,為ChatGPT等生成式AI應用提供向量搜索、向量數據存儲、向量嵌入等功能的向量數據庫賽道突然走紅,兩家初創(chuàng )公司Pinecone和Weaviate的融資時(shí)間僅間隔6天,其火爆程度可見(jiàn)一斑。
Pinecone聯(lián)合創(chuàng )始人兼首席執行官Edo Liberty則直言,如果沒(méi)有ChatGPT的出現,我們根本不可能獲得巨額融資。
事實(shí)上,在ChatGPT火爆出圈之前向量數據庫非常小眾,而Pinecone和Weaviate皆創(chuàng )立于2019年無(wú)論是融資還是營(yíng)收并不如意,因為,大型科技巨頭具備自研能力無(wú)需使用第三方產(chǎn)品,例如,微軟將向量搜索技術(shù)應用在Bing中。
現在,大量開(kāi)發(fā)者涌向生成式AI應用開(kāi)發(fā)領(lǐng)域,這使得蟄伏4年的兩家向量數據庫廠(chǎng)商終于迎來(lái)了曙光,其用戶(hù)數量呈指數級增長(cháng),也是獲得巨額投資的重要原因之一。
當創(chuàng )業(yè)者的目光聚焦在類(lèi)ChatGPT大語(yǔ)言模型、應用、衍生產(chǎn)品時(shí),為其提供“后勤服務(wù)”的向量數據庫拓寬了生成式AI細分創(chuàng )業(yè)賽道,并成為下一代生成式AI應用的主要數據庫存儲。
不過(guò),目前向量數據庫存儲只有大型科技巨頭才能使用,而Pinecone和Weaviate希望簡(jiǎn)化使用流程降低成本,使得中小型企業(yè)、個(gè)人開(kāi)發(fā)者也能使用向量數據庫。
微軟專(zhuān)家介紹向量搜索
此外,根據 IDC調查數據顯示,全球在A(yíng)I技術(shù)和服務(wù)上的支出2023年將達到1540億美元,到2026年將超過(guò)3000億美元。其中,向量數據庫為AI的開(kāi)發(fā)、增強內容生成的準確性提供了重要技術(shù)支撐。
下面「AIGC開(kāi)放社區」將為大家介紹向量數據庫技術(shù)概念、與ChatGPT等大語(yǔ)言模型的關(guān)系、技術(shù)特征、場(chǎng)景化落地以及Pinecone和Weaviate這兩家典型廠(chǎng)商的介紹。
什么是向量數據庫
筆者查詢(xún)了國外大量權威的論文、專(zhuān)業(yè)技術(shù)網(wǎng)站,甚至詢(xún)問(wèn)了ChatGPT,它們對向量數據庫的技術(shù)概念解釋非常復雜難以理解。所以,就用通俗易懂的方式為大家介紹向量數據庫概念。
簡(jiǎn)單來(lái)說(shuō),向量數據庫用來(lái)存儲非結構化數據,例如,文檔、圖片、視頻、音頻和純文本等,在保證100%信息完整的情況下,通過(guò)向量嵌入函數來(lái)精準描寫(xiě)這些非結構化數據的特征,從而提供查詢(xún)、刪除、修改、元數據過(guò)濾等操作。而像SQL、Mysql這樣傳統的數據庫根本無(wú)法完成這些操作。
從向量數據庫的技術(shù)特性不難看出,這是專(zhuān)門(mén)為ChatGPT等生成式AI應用量身定制,例如,讓ChatGPT用莎士比亞的語(yǔ)氣生成一段詩(shī)句,ChatGPT通過(guò)向量數據庫的相似搜索功能,可以增強內容輸出的準確性。
因此,向量數據庫在大語(yǔ)言模型、計算機視覺(jué)、推薦系統以及其他需要語(yǔ)義理解和數據匹配的領(lǐng)域得到廣泛應用。
向量數據庫主要功能和用例
向量數據庫除了存儲數據之外,還提供了語(yǔ)義搜索、圖像/音頻/視頻/等非結構化數據相似度搜索、排名和推薦引擎、支持大規模數據、索引與壓縮技術(shù)、分布式架構等功能。
語(yǔ)義搜索:通常搜索文本和文檔可以用兩種方式完成,詞法搜索和精準的單詞或字符串匹配。向量數據庫的語(yǔ)義搜索可以理解文本、句子和整個(gè)文檔字符串的含義和上下文,從而提供更準確和相關(guān)的搜索結果。
圖像/音頻/視頻/等非結構化數據相似度搜索:圖像、音頻、視頻和其他非結構化數據集,在傳統數據庫中進(jìn)行分類(lèi)存儲非常具有挑戰性,通常需要將關(guān)鍵字、描述和元數據手動(dòng)應用于每個(gè)對象。
向量數據庫的相似性搜索功能,如余弦相似性、歐氏距離等度量來(lái)衡量向量間的相似性。這使得用戶(hù)在處理如圖像識別、推薦系統等變得非常高效。
排名和推薦引擎:該功能對于電商、搜索引擎來(lái)說(shuō)非常有用,例如,微軟的Bing,網(wǎng)易云音樂(lè )的推薦都應用了該技術(shù)。該功能主要基于用戶(hù)最近匹配項查找相似項目,使向量數據庫為用戶(hù)提供相關(guān)的最佳內容選擇,并且可以根據相似性分數對項目進(jìn)行排名。
支持大規模數據:向量數據庫具有良好的擴展性,能夠支持大規模的向量數據存儲和檢索。這對于處理海量數據的大語(yǔ)言模型、機器學(xué)習、數據科研等非常有用。
索引與壓縮技術(shù):為了提高搜索速度和降低存儲成本,向量數據庫通常采用先進(jìn)的索引和壓縮技術(shù)。這些技術(shù)可以有效地降低數據的存儲空間,提高查詢(xún)速度,并降低內存占用。
分布式架構:為了實(shí)現高可用性和容錯能力,向量數據庫采用分布式架構。這使得用戶(hù)可以在多個(gè)計算節點(diǎn)上分布存儲和處理數據,提高系統的整體性能。
Pinecone和Weaviate簡(jiǎn)單介紹
根據公開(kāi)資料顯示,Pinecone創(chuàng )立于2019年總部位于美國紐約,主要提供向量數據庫服務(wù)。Pinecone曾在2021年1月27日,獲得1000萬(wàn)美元種子輪融資;2022年3月29日獲得2800萬(wàn)美元A輪融資。開(kāi)發(fā)者通過(guò)API就能輕松將向量搜索功能添加到應用程序中。官網(wǎng)地址:https://www.pinecone.io/
Weaviate創(chuàng )立于2019年總部位于荷蘭阿姆斯特丹,是一家開(kāi)源向量數據庫服務(wù)商。Weaviate主要提供的服務(wù)包括:向量搜索、混合搜索、生成搜索等服務(wù)。開(kāi)源地址:https://github.com/weaviate/weaviate
本文來(lái)源:?AIGC開(kāi)放社區,原標題:《ChatGPT引爆「向量數據庫」賽道!兩家公司共獲10億元融資》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: