AI12 Autoregressive Search Engines: Generating Substrings as Document Identifiers (SEAL) Abstract Autoregressive langaugae models are emerging as the de-facto standard for generating answer Previous work on retriever partition the search space autoregressively generating its unique identifier This work generating and score ngrams mapped to candidate passages Apply Autoregressive Model on retrieval 1 Intro Surfacing knowledge from large corpora requires search engine + machine reader.. 2022. 9. 24. FM-index part4. Wavelet Tree in FM-index 앞선 3개의 포스트를 통해 BWT, FM-index, 그리고 wavelet tree에 대해 살펴보았습니다. 이 포스트에서는 마지막으로 wavelet tree 가 어떻게 FM-index에 사용되는지 알아보겠습니다. FM-index 에서의 Wavelet Tree 아래와 같은 활용법이 있습니다. 첫번째로 BWT 의 결과를 Wavelet Tree 로서 저장합니다. Wavelet Tree 의 통해 FM-index 에서 필요한 LF-Mapping (Matrix) 를 사용하지 않아도 됩니다. e.g.) s = "abaaba", BWT(S) = abba$aa 를 Wavelet tree 표시 FM-index part3. Wavelet Tree 에서 설명했듯이, 적당한 형태로 abba&aa 를 partition 해 주어서.. 2022. 9. 21. FM-index part3. Wavelet Tree SEAL(Search Engines with Autoregressive LMs) 에 필요한 FM-index의 wavelet tree를 설명합니다. What is Wavelet Tree? wavelet tree 란 이진 트리의 형태로 문자열을 저장하기 위한 데이터 구조입니다. access, rank, select 3가지 형태의 함수(query)가 존재합니다. wavelet tree 만들기 먼저 문자열을 0, 1 로 partition 합니다. 예제에서는 m,i 는 0 으로, p,s는 1로 적당히 partition 합니다. 1에서의 partition을 바탕으로 0 은 left node, 1은 right node로 분할합니다. leaf node가 하나의 문자로만 나타날때까지 1 과 2 을 반복합니다. left .. 2022. 9. 19. FM-index part2. FM-index SEAL(Search Engines with Autoregressive LMs) 에 필요한 FM-index What is FM-index? FM index는 Burrows-Wheeler Transformation 을 기반으로 하는 압축된 전체 텍스트 하위 문자열 인덱스입니다. 쉽게 풀어쓰자면, 주어진 시퀀스에서 sub-string를 빠르게 search 해주는 방법입니다. 중요 index = First & Last Column of BWT 사실 First Column은 Last Colmn 을 정렬한 값과 동일합니다. (BWT의 정의에 의해) 하지만 First Column 의 경우 연속된 문자들의 값이기 때문에 integer 로서 표현하여, 저장공간을 줄일 수 있는 관계로 따로 생성해줍니다. BANANA 에.. 2022. 9. 16. FM-index part1. BWT (Burrows Wheeler Transformation) SEAL(Search Engines with Autoregressive LMs) 에 필요한 BWT What is BWT? Michael Burrows, David Wheeler in 1994 while Burrows 가 1994년에 고안한 압축 기법이다. 하지만 단순히 압축기법에 그치지 않고, 긴 seqeunce 에 대해, sub-string 빠르게 query 할수 있는 FM-index 기법에 중요한 개념이다. 생성 방법) 1. 'BANANA$' 를 cyclic shift 를 통해 n(텍스트의 크기)개 생성 2. 알파벳 순으로 정렬 (이때 $ 가장 낮은 순위) 3. 정렬를 하고 나서 마지막 column을 L(ast), 첫번째 column을 F(irst)라고 할때, L column 이 BWT(string).. 2022. 9. 15. Generative Multi-hop Retrieval Abstract What is Multi-hop retrieval? Task of retrieving a series of multiple documents that together provide sufficient evidence to answer a natural language query. Problems to solve Number of hops increases -> reformulated query (usually concatenation of previous retrieval & query) increasingly depends on the documents retrieved in its previous hops it further tigthens the embedding bottleneck.. 2022. 9. 12. Prompt Injection: Parameterization of Fixed Inputs 새 창에서 열기 2022. 8. 22. Fusion In Decoder : Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering Fusion In Decoder : Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering Paper : https://arxiv.org/pdf/2007.01282.pdf Abstract Generative models for open domain question answering have proven to be competitive, without resorting to external knowledge. While promising, this approach requires to use models with billions of parameters, which are expensive to train .. 2022. 6. 23. DPR: Dense Passage Retrieval for Open-Domain Question Answering DPR: Dense Passage Retrieval for Open-Domain Question Answering Code : https://github.com/facebookresearch/DPR Paper : https://arxiv.org/pdf/2004.04906.pdf Abstract Open-domain question answering relies on efficient passage retrieval to select candidate contexts, where traditional sparse vector space models, such as TF-IDF or BM25, are the de facto method. In this work, we show that retrieval ca.. 2022. 5. 2. 이전 1 2 다음