#RAGFlow
Explore tagged Tumblr posts
Link
看看網頁版全文 ⇨ 雜談:到底要怎麼使用RAGFlow呢? / TALK: RAGFlow Drained All My Resources https://blog.pulipuli.info/2025/03/talk-ragflow-drained-all-my-resources.html 由於這次RAGFlow看起來又無法順利完成任務了,我還是來記錄一下目前的狀況吧。 ---- # 專注做好RAG的RAGFlow / RAGFlow: Focusing on RAG。 https://ragflow.io/ 在眾多LLM DevOps的方案中,RAGFlow也絕對可以算得上是重量級的那邊。 相較於其他方案,RAGFlow一直積極加入各種能夠改進RAG的特殊技術,使得它在RAG的應用方面出類拔萃。 RAGFlow的主要特色包括了: 1. 文件複雜排版分析功能:能夠解讀表格,甚至能分析PDF裡面圖片的文字。 2. 分層摘要RAPTOR。能改善RAG用分段(chunking)切斷資訊的問題。 3. 結合知識圖譜的GraphRAG跟LightRAG。讓回答著重與命名實體,而且還可能找到詞彙之間的隱含關係。 4. 能作為Dify外部知識庫使用。 不過,除了第四點之外,要做到前三項功能,目前看起來還有很多問題需要克服。 # 硬體要求 / Hardware Requirements。 由於運作RAGFlow會使用OCR來分析文件的排版,記憶體最好是給到16GB之多,硬碟空間也需要準備50GB。 這真的是重量級的方案。 如果這些準備好的話,要做到分析複雜排版文件的這件事情就不是很難了。 只要做到這個程度,RAGFlow就能在回答引用時顯示來源的文件位置。 這樣幫助就很大了呢。 # 大量請求的難題 / The Challenge of Numerous Requests。 相較於排版分析是RAGFlow組件中的功能,RAPTOR跟Knowledge Graph都要搭配大型語言模型才能解析跟查詢資料。 而RAGFlow在處理資料的時候會在短時間內發送大量的API請求,很容易就被rate limit限流。 既然直接連接LLM API會因為太多請求而被限流,我就試著改轉接到Dify上,並在API請求的時候加上排隊等候的機制。 Dify裡面雖然可以寫程式碼,但他其實也是在沙盒裡面運作的程式,還是有著不少的限制。 其中一個限制就是不能讓我直接修改系統上的檔案。 因此如果要在Dify內用程式讀寫資料,用HTTP請求傳送可能是比較好的做法。 這些做法花了很多時間調整。 調整了老半天,總算能夠讓它正常運作。 不過過了一陣子,LLM API連回應沒有反應了。 我猜想可能是連接的Gemini API已經超過用量而被禁止吧。 ---- 繼續閱讀 ⇨ 雜談:到底要怎麼使用RAGFlow呢? / TALK: RAGFlow Drained All My Resources https://blog.pulipuli.info/2025/03/talk-ragflow-drained-all-my-resources.html
0 notes
Link
In the ever-evolving landscape of artificial intelligence, businesses face the perpetual challenge of harnessing vast amounts of unstructured data. Meet RAGFlow, a groundbreaking open-source AI project that promises to revolutionize how companies ex #AI #ML #Automation
0 notes
Text
RAGFlow is an open-source RAG engine based on OCR and document parsing
https://github.com/infiniflow/ragflow
0 notes