#RAGFlow | Explore Tumblr posts and blogs

pulipuli · 3 months ago

Link

看看網頁版全文 ⇨ 雜談：到底要怎麼使用RAGFlow呢？ / TALK: RAGFlow Drained All My Resources https://blog.pulipuli.info/2025/03/talk-ragflow-drained-all-my-resources.html 由於這次RAGFlow看起來又無法順利完成任務了，我還是來記錄一下目前的狀況吧。 ---- # 專注做好RAG的RAGFlow / RAGFlow: Focusing on RAG。 https://ragflow.io/ 在眾多LLM DevOps的方案中，RAGFlow也絕對可以算得上是重量級的那邊。相較於其他方案，RAGFlow一直積極加入各種能夠改進RAG的特殊技術，使得它在RAG的應用方面出類拔萃。 RAGFlow的主要特色包括了： 1. 文件複雜排版分析功能：能夠解讀表格，甚至能分析PDF裡面圖片的文字。 2. 分層摘要RAPTOR。能改善RAG用分段(chunking)切斷資訊的問題。 3. 結合知識圖譜的GraphRAG跟LightRAG。讓回答著重與命名實體，而且還可能找到詞彙之間的隱含關係。 4. 能作為Dify外部知識庫使用。不過，除了第四點之外，要做到前三項功能，目前看起來還有很多問題需要克服。 # 硬體要求 / Hardware Requirements。由於運作RAGFlow會使用OCR來分析文件的排版，記憶體最好是給到16GB之多，硬碟空間也需要準備50GB。這真的是重量級的方案。如果這些準備好的話，要做到分析複雜排版文件的這件事情就不是很難了。只要做到這個程度，RAGFlow就能在回答引用時顯示來源的文件位置。這樣幫助就很大了呢。 # 大量請求的難題 / The Challenge of Numerous Requests。相較於排版分析是RAGFlow組件中的功能，RAPTOR跟Knowledge Graph都要搭配大型語言模型才能解析跟查詢資料。而RAGFlow在處理資料的時候會在短時間內發送大量的API請求，很容易就被rate limit限流。既然直接連接LLM API會因為太多請求而被限流，我就試著改轉接到Dify上，並在API請求的時候加上排隊等候的機制。 Dify裡面雖然可以寫程式碼，但他其實也是在沙盒裡面運作的程式，還是有著不少的限制。其中一個限制就是不能讓我直接修改系統上的檔案。因此如果要在Dify內用程式讀寫資料，用HTTP請求傳送可能是比較好的做法。這些做法花了很多時間調整。調整了老半天，總算能夠讓它正常運作。不過過了一陣子，LLM API連回應沒有反應了。我猜想可能是連接的Gemini API已經超過用量而被禁止吧。 ---- 繼續閱讀 ⇨ 雜談：到底要怎麼使用RAGFlow呢？ / TALK: RAGFlow Drained All My Resources https://blog.pulipuli.info/2025/03/talk-ragflow-drained-all-my-resources.html

#LLM #RAG #RAGFlow #Talk

0 notes

ai-news · 1 year ago

Link

In the ever-evolving landscape of artificial intelligence, businesses face the perpetual challenge of harnessing vast amounts of unstructured data. Meet RAGFlow, a groundbreaking open-source AI project that promises to revolutionize how companies ex #AI #ML #Automation

#Blockchain #Crypto

0 notes

hackernewsrobot · 1 year ago

Text

RAGFlow is an open-source RAG engine based on OCR and document parsing

https://github.com/infiniflow/ragflow

0 notes