웹 스크래핑에서 HTML을 Markdown으로 변환해야 하는 이유는 무엇인가요?

HTML을 Markdown으로 변환하면 텍스트를 간소화하여 GPT-3가 콘텐츠를 이해하고 처리하기 쉬워집니다. 또한 API 호출 비용을 줄이기 위해 사용되는 토큰 수를 줄입니다.

텍스트 데이터를 처리하기 전에 왜 청크(chunk)로 나누어야 할까요?

텍스트 데이터를 청크로 나누면 모델이 정보를 처리하기 쉬워집니다. 구조화된 markdown 파일이 매우 많은 경우, 한 청크는 하위 섹션에 해당할 수 있습니다. markdown이 HTML에서 유도된 경우, 덜 구조화된 상태일 경우, 고정된 청크 크기에 의존합니다.

파인콘 AI 해석: 시맨틱 검색의 가능성 해독

Q: 벡터 데이터베이스란 무엇인가요?

벡터 데이터베이스는 벡터를 효율적으로 저장하고 쿼리하는 데 특화된 것입니다. 고차원 공간에서 유사한 벡터를 검색할 수 있도록 해줍니다. Pinecone은 이러한 벡터 데이터베이스의 한 예시입니다.

Q: Pinecone은 지식 기반 챗봇 개발에 어떻게 도움이 되나요?

Pinecone은 벡터 데이터베이스로서 고차원의 벡터를 효율적으로 저장하고 검색할 수 있습니다. 챗봇 개발 과정에서 생성된 임베딩(embeddings)의 저장 및 검색을 지원합니다.

Name: Akira Sakamoto

Updated on 2023. 8. 19.

현대 디지털 생태계에서 방대한 양의 데이터를 처리할 때 데이터 저장 및 검색에 대한 견고하고 효율적인 시스템을 갖는 것이 매우 중요합니다. 이때 파인콘 AI가 큰 역할을 합니다. 벡터 데이터베이스의 핵심 기능과 정교한 통합 기능을 갖춘 파인콘은 데이터와 상호 작용하는 방식을 재정의하고 있습니다. 파인콘의 기능과 시맨틱 검색 방법에 대해 자세히 살펴보겠습니다.

파인콘의 벡터 데이터베이스 시스템 이해하기

전통적인 데이터베이스와 달리, 파인콘의 고유한 벡터 데이터베이스는 데이터 처리에 혁신적인 접근 방식을 제공합니다. 이 핵심 기능은 사용자가 다양한 소스에서 데이터를 업로드하여 이 벡터 데이터베이스에 저장할 수 있도록 하며, 강력한 시맨틱 검색 기능을 제공합니다. 이는 키워드 기반 검색보다 더 적합하고 정확한 결과를 제공하므로 전통적인 방식에서 큰 개선이 이루어졌습니다.

또한 파인콘은 데이터 리포지토리 이상의 지능형 시스템으로 데이터의 문맥과 의미를 이해할 수 있습니다. 이 데이터의 시맨틱 이해 또는 '자연어 처리 모델에서의 벡터 임베딩'은 챗봇, 추천 시스템 등 다양한 응용 분야에서 게임 체인저가 됩니다.

파인콘의 통합 능력의 역할

파인콘의 능력은 OpenAI, Haystack, co: here 등 최첨단 기술과 호환되는 데 크게 기인합니다. 이러한 통합을 통해 데이터 작업을 사용자 지정하고 더 정교한 결과를 생성하는 것이 쉬워집니다. 인간과 같은 텍스트를 생성하기 위해 OpenAI의 언어 모델을 사용하거나 정보 검색을 향상시키기 위한 Haystack 기능을 활용하는 것과 같은 작업이 가능합니다.

더 나은 이해를 위해 파인콘에서 데이터 통합 및 검색 과정을 자세히 살펴보겠습니다.

간단한 데모로 파인콘 수행

Pinecone 클라이언트를 설치한 후 API 키와 환경 설정으로 초기화해야합니다. 이 API 키는 간소화 된 Pinecone 관리 콘솔 내에서 관리됩니다. Pinecone 클라이언트 초기화는 다음과 같을 수 있습니다.

pip install pinecone-client
import pinecone
pinecone.init(api_key="xxxxxxxx-xxxx-xxxx-xxx-xxxx", environment="us-west1-gcp")

벡터 데이터베이스 또는 Pinecone에서 '인덱스'라고 부르는 것을 만드는 것은 몇 줄의 코드로 이루어집니다. 예를 들어, 'pod1'이라는 인덱스를 생성하고 이에 대한 벡터 데이터를 입력하는 것은 다음과 같습니다.

index=pinecone.Index(index_name="pod1")
import pandas as pd
df = pd.DataFrame(
     data={
         "id": ["A", "B", "B", "C", "D", "E"],
         "vector":[
           [1.,1.,1.],
           [1.,2.,3.],
           [2.,1.,1.],
           [3.,2.,1.],
           [2.,2.,2.]]
     })
index.upsert(vectors=zip(df.id,df.vector))
index.describe_index_stats()

는 인덱스에 저장된 데이터의 통계 정보를 반환합니다. 벡터 데이터베이스에서 쿼리 또는 '질의'를 수행하여 벡터의 상위 k개 일치 항목을 검색할 수 있습니다. 쿼리는 검색 결과의 관련성을 나타내는 점수 및 값들을 반환합니다. 다음 샘플 코드는 쿼리를 수행하고 상위 k개의 결과를 반환합니다. Pinecone을 사용하여 데이터를 처리하는 것이 얼마나 쉽고 강력한지 간단히 살펴볼 수 있습니다. Pinecone의 다양한 기능을 사용하는 방법을 더 깊이 이해함으로써 데이터 관리 영역을 혁신할 수 있는 잠재력이 드러납니다. 강력한 벡터 데이터베이스, 강력한 통합 기능 및 직관적인 관리 콘솔은 데이터 중심 프로젝트에 권장되는 강력한 도구입니다. Pinecone AI를 사용하면 더 정확하고 관련성이 높으며 지능적인 데이터 작업을 수행할 수 있습니다.

지식 기반 챗봇 구성 요소 빌드

웹 스크래퍼

우리의 첫 번째 구성 요소는 웹 스크래퍼입니다. 웹 스크래퍼를 만들기 위해 headless Chrome 또는 Chromium 브라우저를 제어하기 위한 높은 수준의 API를 제공하는 Node.js 라이브러리인 Puppeteer를 사용합니다. 다음은 Puppeteer를 사용하여 웹 페이지에서 콘텐츠를 스크랩하는 샘플 함수입니다.

async function scrape_researchr_page(url: string, browser: Browser): Promise<string> {
    const page = await browser.newPage();
    await page.setJavaScriptEnabled(false);
    await page.goto(url);
 
    const element = await page.waitForSelector('#content > div.row > div', {
        timeout: 100
    });
 
    // ... more code here ...
 
    return turndownService.turndown(html_of_element);
}

이 함수는 HTML 콘텐츠를 스크랩한 다음 turndown 라이브러리를 사용하여 HTML을 Markdown으로 변환합니다. 이는 GPT(나중에 사용할 인공지능)가 HTML보다 Markdown을 더 잘 이해하기 때문입니다.

텍스트 분리기

다음으로 Markdown 텍스트를 langchain/text_splitter 패키지의 MarkdownTextSplitter 클래스를 사용하여 더 작은 청크로 분할합니다.

const textSplitter = new MarkdownTextSplitter({
    chunkSize: 1000,
    chunkOverlap: 20
});
const chunks = await textSplitter.splitText(markdowns.join('\n\n'));

임베딩 생성기

OpenAI의 Embedding API와 langchain/embeddings 패키지의 OpenAIEmbeddings 클래스를 사용하여 텍스트 청크의 임베딩을 생성합니다.

const embeddingModel = new OpenAIEmbeddings({ maxConcurrency: 5 });

Pinecone Vector Store

우리의 embeddings을 효율적으로 저장하고 검색하기 위해, 우리는 벡터 데이터베이스로 Pinecone을 사용합니다:

import {PineconeClient} from "@pinecone-database/pinecone";
 
const client = new PineconeClient();
await client.init({
    apiKey: PINECONE_API_KEY,
    environment: PINECONE_ENVIRONMENT,
});
 
export const pineconeIndex = client.Index(PINECONE_INDEX);

Langchain LLM

마지막으로, 우리는 많은 언어 모델 (LLM)과 Pinecone 벡터 데이터베이스를 결합하여 벡터 데이터베이스 내용을 기반으로 질문에 대답하기 위해 사용합니다:

const model = new ChatOpenAI({ temperature: 0.9, openAIApiKey: OPENAI_API_KEY, modelName: 'gpt-3.5-turbo' });
 
const chain = VectorDBQAChain.fromLLM(model, vectorStore, {
k: 5,
returnSourceDocuments: true
});

이러한 구성요소로 SvelteKit 엔드포인트를 만들어 사용자 요청을 처리합니다:

export const POST = (async ({ request }) => {
    //... request handling code here...
}) satisfies RequestHandler;

이 튜토리얼을 통해, Pinecone, OpenAI Embedding API 및 langchain.js와 함께 지식 기반 챗봇을 구현할 수 있다는 것을 알아보았습니다. 이용 가능한 것은 Pinecone의 다양성은 물론, 고급 AI 애플리케이션에 사용할 수 있음을 강조합니다.

결론

AI 기술이 계속 발전함에 따라, 챗봇이 고객 참여를 증진하고 지루한 작업을 자동화하는 데 중요한 역할을 할 것으로 예상됩니다. Pinecone, OpenAI의 Embedding API 및 Langchain.js의 능력을 활용하여, 고객의 질문에 대한 높은 품질의 문맥에 맞춘 정확한 응답을 제공하는 지식 기반 챗봇을 구축할 수 있습니다. 처음에는 구현이 복잡해 보이더라도,이 단계별 가이드를 따르면 프로세스를 쉽게 할 수 있습니다. 이 디지털 시대에서 AI의 가능성을 탐색하고, 혁신을 추구합시다.

자주 묻는 질문

Q: 벡터 데이터베이스란 무엇인가요?

A: 벡터 데이터베이스는 벡터를 효율적으로 저장하고 조회할 수 있도록 설계되었습니다. 고차원 공간에서 유사한 벡터를 검색할 수 있도록 합니다. 이 튜토리얼에서는 Pinecone이라는 벡터 데이터베이스를 사용합니다.

Q: 웹 스크래핑에서 HTML을 Markdown으로 변환하는 이유는 무엇인가요?

A: HTML을 마크다운으로 변환하면 GPT-3가 내용을 이해하고 처리하기 쉽게 텍스트를 단순화합니다. 또한 API 호출 비용을 줄이기 위해 사용되는 토큰 수를 줄입니다.

Q: 데이터 처리 전 텍스트 데이터를 청크(chunk)하는 이유는 무엇인가요?

A: 청크 처리 된 텍스트 데이터는 모델이 정보를 처리하기 쉽도록 만듭니다. 구조화 된 마크다운 파일이 매우 구조화 된 경우 하나의 청크는 하나의 자식 섹션을 나타낼 수 있습니다. 마크다운이 HTML에서 나와 덜 구조화 된 경우, 우리는 고정 크기 청크에 의존합니다.

Q: Pinecone은 지식 기반 챗봇 개발에 어떻게 도움이 되나요?

A: Pinecone은 벡터 데이터베이스로 작동하여 고차원 벡터를 효율적으로 저장하고 검색합니다. 생성 된 임베딩을 챗봇 개발 과정에서 저장 및 검색하는 데 도움이 됩니다.### Q: langchain.js가 이 챗봇에 기여하는 방식은 무엇인가요? A: Langchain.js는 Large Language Model (LLM) 프레임워크를 위한 JavaScript 라이브러리입니다. Pinecone과 OpenAI와 함께 작업하는 것을 더욱 쉽게 만들며, 챗봇에 질문-답변 기능을 제공하는 데 기여합니다.