Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos
3 participantes
Página 2 de 2
Página 2 de 2 • 1, 2
Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos
Oi prof. Marcos,
É isso mesmo, o final que não consigo resolver, transformar em um data.frame, porque eu não sei como dizer pro R que eu quero que ele coloque cada informação que está separada entre "£" em uma coluna.
Eu removi os caracteres estranhos "\r\n" e substituí por "£" e agora tenho:
[[1]]
[1] " £66 £1££60 £4/AL £2476£95.82 £££05/12/2016£13:30££AL £Rio Largo£"
[[2]]
[1] " £66 £2££60 £6/AL £3491£209.14 £££05/12/2016£15:32££AL £São Sebastião£"
[[264]]
[1] " £61 £28££60 £4/BA £8164£163.28 £££07/07/2016£09:40££BA £Conceição do Jacuípe£"
Os padrões se repetem em todas as páginas, acrescentei aí em cima as mesmas informações da última página, apenas para mostrar que segue assim até o final.
Eu usei a função gsub para substituir as informações que eu não vou usar no documento e fiz uma coisa bem tosca que foi repetir esse comando várias vezes para substituir os espaços duplos por espaços simples, porque isso tava interferindo na padronização das posições das informações que eu quero separar. Depois usei denovo para tirar esses cracteres "\r\n" que eu nem tinha percebido que tinha sobrado. Foi tosco, mas funcionou e fiquei feliz com isso! Aliás essa minha explicação tá tão tosca que eu nem sei se vai dar pra entender
Eu procurei informações na ajuda da função data.frame pra descobrir como eu poderia aplicá-la nos meus dados, mas não consegui entender quais argumentos preciso usar pra isso dar certo.
É isso mesmo, o final que não consigo resolver, transformar em um data.frame, porque eu não sei como dizer pro R que eu quero que ele coloque cada informação que está separada entre "£" em uma coluna.
Eu removi os caracteres estranhos "\r\n" e substituí por "£" e agora tenho:
[[1]]
[1] " £66 £1££60 £4/AL £2476£95.82 £££05/12/2016£13:30££AL £Rio Largo£"
[[2]]
[1] " £66 £2££60 £6/AL £3491£209.14 £££05/12/2016£15:32££AL £São Sebastião£"
[[264]]
[1] " £61 £28££60 £4/BA £8164£163.28 £££07/07/2016£09:40££BA £Conceição do Jacuípe£"
Os padrões se repetem em todas as páginas, acrescentei aí em cima as mesmas informações da última página, apenas para mostrar que segue assim até o final.
Eu usei a função gsub para substituir as informações que eu não vou usar no documento e fiz uma coisa bem tosca que foi repetir esse comando várias vezes para substituir os espaços duplos por espaços simples, porque isso tava interferindo na padronização das posições das informações que eu quero separar. Depois usei denovo para tirar esses cracteres "\r\n" que eu nem tinha percebido que tinha sobrado. Foi tosco, mas funcionou e fiquei feliz com isso! Aliás essa minha explicação tá tão tosca que eu nem sei se vai dar pra entender
Eu procurei informações na ajuda da função data.frame pra descobrir como eu poderia aplicá-la nos meus dados, mas não consegui entender quais argumentos preciso usar pra isso dar certo.
vivi.eilers- Mensagens : 7
Data de inscrição : 18/10/2017
Idade : 41
Localização : Aberdeen
Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos
Acho que repetir o gsbu era exatamente o que eu faria, rsrsrs. Por mais tosco que seja, o que importa é funcionar e ser fácil repetir de novo se necessário.
Mas então, me explique o que você tem no final, para descobrirmos como fazer virar um data frame. Se entendi, você termina com uma lista, e a questão é apenas convertê-la, então não deve ser complicado (espero).
Cada elemento da lista funciona como um "sub-objeto", e você pode acessar cada um com um lista[[i]].
Vamos nos falando, certo?
Mas então, me explique o que você tem no final, para descobrirmos como fazer virar um data frame. Se entendi, você termina com uma lista, e a questão é apenas convertê-la, então não deve ser complicado (espero).
Cada elemento da lista funciona como um "sub-objeto", e você pode acessar cada um com um lista[[i]].
Vamos nos falando, certo?
Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos
Oi prof. Marcos,
Estou de feliz de voltar aqui para contar que deu certo!!!!
No final eu fiquei com uma lista, onde cada elemento, ou sub-objeto, eu queria que virasse uma linha em uma tabela. Mas eu tb queria separar em colunas as informações delimitadas entre os separadores "£" em cada elemento da minha lista.
O que eu fiz foi criar uma matriz para armazenar os meu dados, colocando cada elemento em uma linha da matriz usando a função array e usando a função strsplit para que cada informação entre os meus separadores "£" fosse reconhecida individualmente para ocupar uma linha da coluna da matriz cada uma.
Não sei se minha explicação está boa, então vou copiar esse pedaço do script, pq já to achando a linguagem do R mais fácil do que falar português
data<-matrix("NA",264,60)
temp<-array("NA",264)
for(i in 1:264) {
temp[i]<-strsplit(txt[[i]],"£")
for(j in 1:60){
data[i,j]<-temp[[i]][j]
}
}
Não sei se era a melhor forma de fazer, mas no fim deu certo e eu exportei para o Excel onde eu to juntando a minha montanha de dados que estou extraindo dos arquivos pdf com outra montanha de dados de arquivos em Excel, para no final analisar tudo junto!
Muito obrigada pelas dicas e pela interação!
Estou de feliz de voltar aqui para contar que deu certo!!!!
No final eu fiquei com uma lista, onde cada elemento, ou sub-objeto, eu queria que virasse uma linha em uma tabela. Mas eu tb queria separar em colunas as informações delimitadas entre os separadores "£" em cada elemento da minha lista.
O que eu fiz foi criar uma matriz para armazenar os meu dados, colocando cada elemento em uma linha da matriz usando a função array e usando a função strsplit para que cada informação entre os meus separadores "£" fosse reconhecida individualmente para ocupar uma linha da coluna da matriz cada uma.
Não sei se minha explicação está boa, então vou copiar esse pedaço do script, pq já to achando a linguagem do R mais fácil do que falar português
data<-matrix("NA",264,60)
temp<-array("NA",264)
for(i in 1:264) {
temp[i]<-strsplit(txt[[i]],"£")
for(j in 1:60){
data[i,j]<-temp[[i]][j]
}
}
Não sei se era a melhor forma de fazer, mas no fim deu certo e eu exportei para o Excel onde eu to juntando a minha montanha de dados que estou extraindo dos arquivos pdf com outra montanha de dados de arquivos em Excel, para no final analisar tudo junto!
Muito obrigada pelas dicas e pela interação!
vivi.eilers- Mensagens : 7
Data de inscrição : 18/10/2017
Idade : 41
Localização : Aberdeen
Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos
Fantástico, Viviane!
Acho que foi uma solução eficiente.
Se tiver mais problemas, seguimos conversando aqui, ok?
Abraços!
Acho que foi uma solução eficiente.
Se tiver mais problemas, seguimos conversando aqui, ok?
Abraços!
Página 2 de 2 • 1, 2
Tópicos semelhantes
» Erros na leitura de arquivos | Usuários Mac
» variável explanatória com muitos empates
» Ausência de arquivos para acompanhar a aula.
» Erro na leitura de dados
» Dúvida na leitura de arquivo txt
» variável explanatória com muitos empates
» Ausência de arquivos para acompanhar a aula.
» Erro na leitura de dados
» Dúvida na leitura de arquivo txt
Página 2 de 2
Permissões neste sub-fórum
Não podes responder a tópicos