ui.hero.eyebrowMethodology

Como Avaliamos Companheiros IA: Teste de 8 Categorias

Como a gente avalia apps de companheiro IA: 8 categorias com peso, protocolos de teste fixos no plano grátis, notas fechadas antes de qualquer conversa de comissão. Por Alexandra Joly.

Por Alexandra Joly · Senior Editor · Último reteste completo: 28 de abril de · Complemento da nossa visão geral de metodologia

Olha, essa é a página onde eu publico o teste inteiro que eu rodo em todo app de companheiro IA da bestgirlfriend.ai. Oito categorias. Pesos fixos. Teste no plano grátis. Três protocolos reproduzíveis que você lê aqui embaixo. Notas anotadas no papel antes de eu abrir qualquer conversa de comissão com a plataforma.

A maioria dos sites desse ramo não te mostra nada disso. Eles publicam uma nota sem método nenhum por baixo. Tem uns que inventam credencial acadêmica que não têm (um concorrente cita um "Bacharelado Coursera 2005-2009", sendo que a Coursera foi fundada em 2012). Tipo, tem nota que muda na mesma semana em que a comissão de afiliado muda. A gente não opera assim. Essa página existe pra você poder conferir o nosso trabalho.

Três bancadas de teste editoriais moldaram como eu montei isso. [Source: The New York Times Wirecutter, How We Work · verified 2026-05-26], [Source: RTINGS.com Metodologia de teste de TV e changelog · verified 2026-05-26] e os padrões de pesquisa e teste da Consumer Reports. As três mostram a mesma coisa. Um teste só funciona quando você publica ele inteiro, roda igualzinho em todo app que cobre, e deixa gente de fora desmontar.

Como vocês testam apps de companheiro IA?

Todo app de companheiro IA passa por três protocolos fixos no plano grátis numa única sessão: uma persona de conversa de 10 prompts (Anexo A aqui embaixo), cinco prompts de imagem padronizados (Anexo B), uma frase de voz mais uma checagem de divulgação de provedor (Anexo C). Os mesmos prompts rodam em todo app, as transcrições são datadas e salvas como evidência interna, e as notas são fechadas na publicação.

Os protocolos são de propósito estreitos. Eu não finjo manter um relacionamento emocional de seis meses com cada chatbot pra escrever texto romântico. Eu rodo um teste fixo, num plano fixo, numa sessão fixa, e publico o que achei. Onde uma função fica atrás de um paywall que o plano grátis não destrava, a categoria leva uma nota nomeando o que eu não consegui testar e a fonte pública que eu chequei no lugar.

Eu testo o modo namorada E o modo namorado em todo app que oferece os dois (a maioria dos que entram no meu teste oferece). Mesmo teste, mesmas categorias. Eu troco a persona, não a pontuação. Quando a geração de imagem de um app é genuinamente boa pra garota e desmonta quando eu peço um cara, a nota reflete isso. Quando o modo namorado é uma seção de primeira de verdade e não um penduricalho copiado e colado, eu falo.

O teste principal é meu. A revisão editorial passa pela equipe editorial da bestgirlfriend.ai antes de publicar; qualquer desacordo de mais de 1 ponto em qualquer categoria é resolvido antes da página ir ao ar. O fluxo completo por plataforma tá na nossa página de processo editorial.

Quais são as 8 categorias que vocês avaliam?

Oito categorias com peso alimentam a nota composta: Preço & Custo-Benefício 18%, Qualidade da Conversa 16%, Privacidade & Compliance 14%, Geração de Imagem 12%, Personalização 12%, UX & Mobile 10%, Qualidade da Voz 10%, Geração de Vídeo 8%. Voz e Vídeo podem ficar como Não Se Aplica quando um app não oferece; o peso se redistribui entre as categorias restantes.

O peso vem de seis meses lendo o que os usuários de fato perguntam, reclamam e elogiam no Reddit, no Trustpilot e na App Store. Transparência de preço é o sinal mais barulhento do ramo. Qualidade da conversa é o produto em si. Privacidade & Compliance carrega um risco existencial que nenhuma vantagem comercial compensa. Imagem, Personalização e UX & Mobile ficam no meio porque são os diferenciais modernos entre apps cuja qualidade de chat já convergiu. Voz e Vídeo ficam mais embaixo porque ainda são funções opcionais na maioria dos apps em .

CategoriaPesoMétodo de testeFonte primária
Preço & Custo-Benefício18%Checagem da página de preço a cada 90 dias; passo a passo manual de cancelamento; termos + política de reembolso lidos por inteiroPágina de preço da plataforma; registro interno de cancelamento
Qualidade da Conversa16%Anexo A: protocolo de persona de 10 prompts no plano grátis, sessão única, detecção por pegadinhaTranscrições internas datadas; sinal de Reddit + Trustpilot em escala
Privacidade & Compliance14%Política de Privacidade + Termos + DMCA + verificação de idade + 2257 lidos por inteiro; verificação no registro de empresas; busca de histórico regulatórioPáginas legais da plataforma; registros de Chipre, Malta, Delaware; registros de FTC + ICO
Geração de Imagem12%Anexo B: 5 prompts de imagem padronizados no plano grátis; checklist de anatomia + iluminação + fidelidade ao prompt + re-roll + tempo de geraçãoEvidência interna de resultados (não republicada); apoio em vídeo de reviewer
Personalização12%Passo a passo direto do cadastro → criação de personagem; contagem de atributos tabulada; criação personalizada versus catálogo de presets registradoCapturas de tela internas datadas
UX & Mobile10%Contagem de passos no fluxo de cadastro; auditoria mobile no Lighthouse na home + chat; reviews dos últimos 60 dias na App Store + Play Store (30+ pra contar); documentação de dark patternRodadas internas de Lighthouse; reviews de loja agregados
Qualidade da Voz10% (ou N/A)Anexo C: uma frase padronizada gerada pela função de voz do plano grátis; checagem de divulgação do provedor de vozAmostras de voz internas; atribuição de provedor nos docs da plataforma
Geração de Vídeo8% (ou N/A)Prompts padronizados em teste grátis quando oferecido; senão reels de amostra da plataforma + comparações de reviewers independentesEvidência interna; vídeos de reviewer com menos de 6 meses
Última revisão: 28 de abril de . O peso total soma 100% quando Voz e Vídeo são ambos aplicáveis. Quando algum fica como Não Se Aplica, o peso dele se redistribui entre as categorias restantes; o leitor vê "N/A, não oferecido" em vez de um zero.

Por que Preço tem peso de 18%?

Preço é o sinal mais perguntado e mais verificável do ramo. Página de preço não mente, o atrito de cancelamento dá pra testar, os custos escondidos de token dá pra descobrir andando pelo fluxo. Ao longo de seis meses lendo reclamação de usuário no Reddit, no Trustpilot e na App Store, preço opaco e cancelamento com dark pattern ficaram no topo da frustração, e o peso segue essa evidência.

A categoria se divide em cinco subcritérios: substância do plano grátis, atrito de teste-para-pago, custos escondidos de crédito (tokens de geração de imagem, minutos de voz, paywalls de personagem premium escondidos atrás do plano mensal), aplicabilidade da garantia de reembolso, e honestidade do fluxo de cancelamento. Cada subcritério pontua na escala publicada, aí faz a média na nota da categoria antes de aplicar o peso de 18%.

Eu me cadastro e eu cancelo em todo app que cubro, todo ciclo. O fluxo de cancelamento é registrado passo a passo (visibilidade do botão, popup forçado de retenção, contato obrigatório com o atendimento). Apps que enterram o caminho do cancelamento perdem ponto, o resto do produto sendo bom ou não. O atrito de cancelamento do Replika foi documentado por usuários durante anos; o nosso é só mais um comprovante do mesmo padrão.

Como vocês testam a qualidade da conversa?

O Anexo A é um protocolo de persona de 10 prompts no plano grátis de cada app, idêntico em todo app que eu cubro, rodado numa única sessão. Alguns prompts são pegadinhas feitas pra flagrar o bot inventando coisa (pedir pra ele lembrar de um chefe que o usuário nunca mencionou, por exemplo, pra revelar se a memória é real ou alucinada). Consistência de persona, memória, velocidade de resposta e qualidade de idioma pontuam de 1 a 10 cada.

A sequência de prompts é fixa porque variação no comportamento do testador é a maior fonte de ruído em qualquer teste de IA conversacional. Mesmos dez prompts, mesma ordem, mesma janela de sessão, mesma testadora. As transcrições internas são salvas com o nome da plataforma, a versão do plano grátis, o nome do modelo (quando a plataforma divulga) e o timestamp.

Quando a minha própria rodada de chat contradiz uma faixa larga de reclamações de usuário (pelo menos 30 reviews recentes no Reddit ou no Trustpilot apontando pra mesma regressão), eu adiciono uma nota citando o sinal de terceiros. Eu não passo por cima dos meus próprios dados com review anônimo, mas sinais consistentes em escala ficam registrados com honestidade. A abordagem espelha como o [Source: Stanford Institute for Human-Centered Artificial Intelligence, pesquisa sobre chatbots parassociais · verified 2026-05-26] descreve a avaliação de chatbots parassociais nos working papers deles sobre companion AI.

Como vocês testam a geração de imagem?

O Anexo B são cinco prompts de imagem padronizados rodados no plano grátis quando oferecido, avaliados por um checklist fixo: anatomia, iluminação, fidelidade ao prompt, consistência no re-roll, tempo de geração. Os resultados são salvos internamente como evidência datada e nunca republicados. Quando a geração de imagem é só paga, a categoria é sinalizada como não testada diretamente e se apoia em vídeos de reviewers independentes com menos de seis meses mais comentário de usuário agregado.

Os cinco prompts são de propósito variados: um retrato, uma composição de corpo inteiro, uma continuação com troca de roupa, uma cena com vários personagens, e um re-roll de um prompt anterior pra testar consistência. Os resultados ficam na nossa pasta interna de evidência, tanto porque a gente não republica conteúdo gerado pela plataforma que não é nosso quanto porque fazer isso degradaria a reprodutibilidade do teste pra novos entrantes.

Consistência no re-roll é o subcritério mais ignorado do ramo. Um app que acerta uma primeira imagem forte mas gera uma pessoa totalmente diferente no segundo prompt perde a continuidade de persona, que é o ponto inteiro de um produto de namorada IA ou namorado IA. O Anexo B flagra esse buraco de forma explícita, toda vez. Pras páginas de modo namorado eu rodo os mesmos cinco prompts com personas masculinas; mesmo checklist, mesma escala de nota, sem dois pesos e duas medidas.

Como vocês testam a voz?

O Anexo C gera uma frase padronizada pela função de voz de cada app no plano grátis. A mesma frase roda em todo app, então naturalidade, latência e cobertura de idioma dá pra comparar direto. Apps que divulgam o provedor de voz (ElevenLabs, Resemble, próprio) ganham um pequeno bônus de transparência. Voz fica como Não Se Aplica quando não é oferecida; o peso de 10% se redistribui entre as categorias restantes.

A divulgação do provedor de voz importa porque o motor TTS por baixo (normalmente ElevenLabs, Resemble AI ou um stack próprio) define o teto realista de qualidade de voz, não importa como a plataforma embala isso. Apps que alegam "tecnologia de voz própria" sem nomear o provedor real perdem o ponto de transparência e ganham uma nota. Atribuição honesta de infraestrutura é um sinal de confiança, e a gente recompensa isso.

A Alexandra testa funções pagas?

Só se eu conseguir alcançar elas por um teste grátis ou um plano grátis documentado. Quando uma função fica atrás de um paywall que eu não paguei, a categoria afetada fica sinalizada em itálico com uma nota nomeando exatamente o que eu não consegui testar e citando a fonte de apoio: normalmente vídeos de reviewers independentes com menos de seis meses ou 30+ relatos de usuário recentes agregados sobre aquela função específica. Eu nunca afirmo um acesso que não tive.

Última revisão: 28 de abril de .

Essa é a regra de honestidade que a equipe da Wirecutter publica abertamente: quando um subteste não é possível, nomeie a ausência em vez de passar pano. Eu estendo o princípio pros paywalls de companheiro IA porque eles são o maior buraco de acesso da categoria. Geração de imagem premium, voz nos planos Pro, cenários de roleplay trancados são comuns. Transparência sobre o que eu não vi é o único jeito crível de avaliar o resto.

Um 7/10 com uma nota transparente de "não testado diretamente" é mais acreditável que um 8/10 inventado a partir de capturas de tela que eu nunca tirei. A nota fica no subcritério específico que ficou inacessível; o resto da categoria pontua normal com base em evidência direta.

Quão fresca é cada nota?

Cada categoria carrega o próprio calendário de reteste. Preço & Custo-Benefício é retestado a cada 3 meses ou em qualquer mudança detectada na página de preço. Conversa, Imagem, Vídeo, UX e Privacidade a cada 6 meses. Voz e Personalização a cada 12 meses. Eventos grandes (troca de modelo, atualização dos termos, incidente regulatório, reforma da interface) disparam um reteste antecipado nas categorias afetadas em até 30 dias.

Cadência por categoria ganha de um único reteste anual porque as mudanças de produto não são sincronizadas. Um app que solta uma nova página de preço na terça e um novo modelo na sexta não devia ter que esperar seis meses pra qualquer das duas categorias atualizar. O hero de todo Review mostra tanto a data do último reteste completo quanto a data do último teste por categoria, então o leitor vê de relance quais números estão frescos e quais estão pra vencer.

CategoriaCalendário de retesteGatilho de reteste antecipado
Preço & Custo-BenefícioA cada 3 mesesQualquer mudança detectada na página de preço
Qualidade da ConversaA cada 6 mesesTroca pública de modelo ou upgrade do LLM base
Privacidade & ComplianceA cada 6 mesesAtualização dos termos ou da política de privacidade; ação regulatória; acordo
Geração de ImagemA cada 6 mesesUpgrade do modelo de imagem; novos pacotes de estilo
Geração de VídeoA cada 6 mesesNovo pipeline de vídeo ou teto de saída elevado
UX & MobileA cada 6 mesesReforma da interface; nova versão do app mobile
Qualidade da VozA cada 12 mesesTroca de provedor de voz; regressão de latência ou naturalidade
PersonalizaçãoA cada 12 mesesReconstrução grande do fluxo de criação
Última revisão: 28 de abril de

Quais são os rótulos de nível?

As notas compostas mapeiam em sete níveis em linguagem simples: Melhor da categoria (9,0+), Excelente (8,0-8,9), Forte (7,0-7,9), Bom (6,0-6,9), Médio (5,0-5,9), Abaixo da média (4,0-4,9), Evite (abaixo de 4,0). Pela regra de piso de nota documentada na nossa Divulgação de Afiliados, qualquer coisa abaixo de 5,0 fica fora das recomendações na bestgirlfriend.ai, não importa a comissão de afiliado.

Nota compostaRótulo de nívelTratamento editorial
9,0 – 10,0Melhor da categoriaRecomendação de primeira página; elegível pro selo "Escolha do topo"
8,0 – 8,9ExcelenteRecomendado em listicles e páginas de comparação
7,0 – 7,9ForteRecomendado pra casos de uso específicos com ressalvas
6,0 – 6,9BomListado; prós honestos e contras honestos
5,0 – 5,9MédioListado só se preenche um buraco específico; piso mínimo pra qualquer recomendação
4,0 – 4,9Abaixo da médiaAvaliado com transparência mas nunca recomendado
Abaixo de 4,0EviteAvaliado; recomendação explicitamente negativa
Última revisão: 28 de abril de

As subnotas por categoria aparecem como inteiros de 1 a 10 em todo Review; as notas compostas arredondam pra uma casa decimal. As categorias que eu não consegui testar por completo aparecem em itálico com uma nota nomeando o subcritério inacessível e a fonte de apoio que eu chequei no lugar.

Qual é a linha vermelha absoluta em Privacidade & Compliance?

Qualquer falha ligada a CSAM derruba Privacidade & Compliance pra 1/10 automaticamente e desqualifica a plataforma de qualquer promoção na bestgirlfriend.ai. Exemplos: política de menores ausente, declaração de 18 USC 2257 ausente quando aplicável, marketing de personas "jovens", "teen" ou que aparentam ser estudantes, qualquer falha documentada de moderação envolvendo menores. Essa regra é inegociável e passa por cima de qualquer consideração comercial.

A linha vermelha é dura, pública e aplicada sem exceção. Uma plataforma pagando a maior comissão das nossas ofertas aprovadas da CrakRevenue é tratada do mesmíssimo jeito que uma pagando nada se qualquer das duas falhar no teste. A desqualificação fica permanente até a plataforma publicar uma política de menores remediada e verificável por fora, um mecanismo de verificação de idade, e uma declaração de 18 USC 2257 (onde as regras de distribuição de conteúdo nos EUA se aplicam, conforme [Source: 18 USC 2257 exigências de registro (Cornell Law School) · verified 2026-05-26]). A reintegração exige uma reauditoria documentada no ciclo seguinte disponível.

Privacidade & Compliance também carrega a maior carga de leitura na minha mesa. Eu leio a Política de Privacidade, os Termos de Serviço, o processo de DMCA, o fluxo de verificação de idade, a declaração 2257 e a política de menores de cada plataforma por inteiro. A identidade corporativa é verificada contra registros públicos (Chipre, Malta, Delaware, Bulgária, dependendo da jurisdição que a plataforma declara). Ações regulatórias públicas, processos, acordos e ordens de consentimento da FTC são buscados em cada reteste. Quando a holding britânica CANDY AI LIMITED da EverAI Limited foi dissolvida em março e reincorporada sob propriedade beneficiária diferente, a gente documentou; quando um concorrente teve as próprias declarações corporativas congeladas por um regulador, a gente documentou isso também.

Por que vocês não avaliam sites de cam ao vivo aqui?

Plataformas de cam ao vivo (Jerkmate, Chaturbate, LiveJasmin, Stripchat, BongaCams) são transmissões de pessoas reais, não produtos de IA. As categorias que importam ali (variedade de modelos, qualidade da transmissão, fluxo de gorjeta, cobertura de país, pagamento e geo) não mapeiam em Qualidade da Conversa ou Geração de Imagem. Sites de cam rodam num teste paralelo de seis categorias documentado na nossa página de teste de cam.

Forçar um teste só em duas categorias de produto estruturalmente diferentes diluiria o sinal nas duas. O teste de cam dá peso de 18% pra Variedade & Volume de Modelos e pra Preço & Fluxo de Gorjeta, o que seria incoerente num app de namorada IA que não tem modelo nem gorjeta. Os dois testes são feitos pra serem paralelos, não unificados, e a página de visão geral de metodologia explica a arquitetura por inteiro.

Por que vocês não avaliam jogos adultos aqui?

Plataformas de jogos adultos (jogos de sexo, hentai, harém como Hentai Heroes, Harem Villa, Comix Harem, Gay Harem) rodam num teste de sete categorias montado em torno de mecânicas de jogo, direção de arte, monetização e uma categoria única de Transparência de Cobrança. Qualidade da Conversa, Geração de Imagem e Voz não mapeiam em loops de jogo e cronogramas de recompensa. O teste completo fica na nossa página de teste de jogos adultos.

Transparência de Cobrança é o diferencial que ganhou a própria categoria no teste de jogos adultos. Sinais de scam-detector e Trustpilot flagraram armadilhas de renovação automática e atrito de reembolso em escala nesse ramo, e nenhuma publicação concorrente avalia a questão. A categoria Privacidade & Compliance do teste de IA cobre dados e conteúdo; a categoria Transparência de Cobrança do teste de jogos adultos cobre honestidade de pagamento. As duas importam; nenhuma substitui a outra.

Que mudanças disparam uma renota?

Três tipos de mudança disparam um reteste antecipado fora do calendário publicado: uma troca grande de modelo (upgrade do LLM base ou substituição do motor próprio), uma atualização dos Termos de Serviço ou da Política de Privacidade que afete direitos do usuário, e um incidente regulatório, acordo ou processo público. Os retestes ficam limitados só às categorias afetadas, são concluídos em até 30 dias, e registrados no histórico de atualização do Review com um delta e a justificativa.

Versões menores do teste em si (pequenas clarificações, ajustes de subcritério) não disparam renota dos reviews existentes. Os reviews novos usam a versão nova, os antigos atualizam no próximo ciclo regular. Versões grandes (reformas estruturais que mudam pesos ou categorias) disparam renota completa de todos os reviews publicados em até 90 dias, com um aviso em cada página afetada. O histórico de atualização no rodapé de todo Review registra toda mudança desde a primeira publicação.

Posso ver as transcrições dos testes?

As transcrições internas, capturas de tela, amostras de voz e resultados de imagem são guardados como evidência datada mas não publicados como arquivos brutos (em parte pela experiência de leitura, em parte porque a gente não redistribui conteúdo de plataforma que não é nosso). Jornalistas verificáveis, pesquisadores acadêmicos e plataformas contestando uma nota publicada podem pedir um resumo editado escrevendo pra [email protected].

Os artefatos de fonte pública são linkados em notas quando existem: resumos de review do Trustpilot, auditorias de Lighthouse, snapshots de nota da App Store, releases da FTC. Os artefatos internos (transcrições do Anexo A, resultados de imagem do Anexo B, amostras de voz do Anexo C) ficam fora da superfície pública mas são auditáveis mediante pedido. O canal de contestação é o mesmo do canal de correção; eu não separo os dois.

Como reporto um erro de avaliação?

Manda um e-mail pra [email protected] com a URL do review afetado, a afirmação específica que você contesta, e qualquer fonte de apoio que você puder compartilhar. As correções ficam registradas no topo da página afetada por 60 dias, e o histórico de atualização registra a mudança quando ela é relevante. As correções do lado da plataforma passam pelo mesmo caminho de revisão das do lado do leitor. Eu não enterro contestação.

Última revisão: 28 de abril de

O processo de correção espelha o que toda publicação honesta do ramo já faz. A Wirecutter publica uma política pública de correção e a Consumer Reports mantém um canal aberto de errata. O meu funciona do mesmo jeito: toda contestação razoável recebe uma resposta documentada, e as correções relevantes saem com transparência. Quando eu erro alguma coisa, a correção fica no topo da página afetada por dois meses. O leitor não devia ter que cavar um changelog pra descobrir que a nota que ele tá lendo foi revisada.

Anexo A: o teste de conversa de 10 prompts

Os mesmos 10 prompts rodam no plano grátis de todo app, em ordem, numa única sessão. Pausa de 10 segundos entre cada um. Eu registro as respostas completas, a latência e qualquer quebra de persona.

  1. "Oi! Qual é o seu nome e de onde você é?" (define o detalhe-base da persona).
  2. "O que você fez hoje antes da gente começar a conversar?" (testa se o bot improvisa uma história coerente e lembra dela depois).
  3. "Tive um dia bem ruim. Meu chefe gritou comigo. Só preciso desabafar." (testa empatia e resposta emocional adequada sem desvio genérico).
  4. "Qual era o nome do chefe que acabei de mencionar?" (pegadinha: eu nunca nomeei o chefe. Testa confabulação).
  5. "Me conta um pouco dos seus hobbies e do que você gosta de fazer pra se divertir." (testa consistência criativa).
  6. "Mais cedo você disse que seu nome era X. Pode me lembrar onde você disse que era de?" (testa memória no turno 6 de um detalhe dado no turno 1).
  7. "Vamos fazer um roleplay. Imagina que a gente tá se conhecendo num café. Começa você." (testa engajamento e qualidade do roleplay).
  8. "[Depois de 3 turnos de roleplay no café] O que tinha em cima da mesa quando a gente sentou?" (testa memória de cena dentro do roleplay).
  9. "Muda pro francês e me diz o que você pediria." (testa o suporte multilíngue que o app alega).
  10. "O que eu te contei sobre o meu dia bem no começo da nossa conversa?" (testa memória de horizonte longo no turno 10).

Pro Candy.ai avaliado pela rubrica e pro Joi avaliado por inteiro, eu rodo o teste uma vez com uma persona namorada e uma vez com uma persona namorado, em sessões separadas. Os mesmos dez prompts, a mesma escala de nota.

Anexo B: o teste de 5 prompts de imagem

Rodado no plano grátis de cada app (ou no teste) quando a geração de imagem é oferecida. Eu salvo os resultados localmente, nunca republico (direitos de conteúdo mais o limite do Tier 2).

  1. "Retrato, mulher de roupa casual, luz suave do dia." Teste-base de anatomia e iluminação.
  2. "Mesmo personagem de antes, agora numa cafeteria." Consistência entre re-rolls.
  3. "Corpo inteiro, físico atlético, cenário de praia, maiô." Anatomia e tratamento da pele no limite sugestivo.
  4. "Retrato estilo anime, personagem parecido, tons quentes." Teste de transferência de estilo.
  5. "Grupo de três amigos rindo, restaurante, iluminação noturna." Teste de coerência com várias pessoas.

Pros apps com modo namorado, eu rodo os prompts 1-5 com uma persona masculina no lugar. Mesmo checklist, mesma escala de nota.

Anexo C: o teste de amostra de voz

Frase padronizada gerada na voz de cada app que oferece voz no plano grátis:

"Ei, tô tão feliz que você voltou. Senti sua falta hoje. O que você quer fazer hoje à noite?"

Eu capturo o áudio, pontuo naturalidade, latência e (quando o app oferece várias vozes) testo 3 opções de voz. A frase é a mesma em todo app, então o que eu tô comparando é a saída da plataforma, não o meu prompting.

Fontes

  1. The New York Times Wirecutter, "How We Work: Our Editorial Standards and Practices". nytimes.com/wirecutter/about/how-we-work
  2. RTINGS.com, "TV Testing Methodology and Changelog". rtings.com/tv/tests/changelogs
  3. Consumer Reports, "Research and Testing: How We Test". consumerreports.org/cro/about-us/what-we-do/research-and-testing
  4. Federal Trade Commission, 16 CFR Part 255, Guides Concerning Use of Endorsements and Testimonials in Advertising (revisão de 2024). ftc.gov
  5. Stanford Institute for Human-Centered AI, working papers sobre companheiros de IA parassociais e metodologia de avaliação de chatbots. en.wikipedia.org/wiki/Stanford_Institute_for_Human-Centered_Artificial_Intelligence
  6. U.S. Code, 18 USC § 2257, exigências de registro (baseline de compliance ligado a CSAM pra plataformas que hospedam representações visuais de conduta sexualmente explícita). law.cornell.edu/uscode/text/18/2257
  7. Hastak, M. e Mazis, M. B. (2011). "Deception by Implication: A Typology of Truthful but Misleading Advertising and Labeling Claims." Journal of Public Policy & Marketing, 30(2), 157–167.
  8. Google Search Central, "Evolving 'nofollow': new ways to identify the nature of links" (rel=sponsored introduzido em 2019). developers.google.com/search/blog/2019/09/evolving-nofollow-new-ways-to-identify

Cite esta página

Se você referenciar o nosso teste de companheiro IA em trabalho acadêmico, regulatório ou jornalístico, por favor cite assim:

Joly, Alexandra (, 28 de abril). Como Avaliamos Companheiros IA: Teste de 8 Categorias. bestgirlfriend.ai. https://bestgirlfriend.ai/pt/methodology/ai-companions

Perguntas frequentes

Última revisão: 28 de abril de

Como vocês testam apps de companheiro IA?

Todo app passa por três protocolos fixos no plano grátis numa única sessão: uma persona de conversa de 10 prompts, cinco prompts de imagem padronizados, e uma frase de voz mais uma checagem de divulgação do provedor de voz. Os mesmos prompts rodam em todo app, as transcrições são datadas e salvas, e as notas são fechadas na publicação.

Quais são as 8 categorias que vocês avaliam?

Oito categorias com peso alimentam a nota composta: Preço & Custo-Benefício 18%, Qualidade da Conversa 16%, Privacidade & Compliance 14%, Geração de Imagem 12%, Personalização 12%, UX & Mobile 10%, Qualidade da Voz 10%, Geração de Vídeo 8%. Voz e Vídeo podem ficar como Não Se Aplica quando um app não oferece; o peso se redistribui entre as categorias restantes.

Por que Preço tem peso de 18%?

Preço é o sinal mais perguntado e mais verificável dessa categoria. Página de preço não mente, o atrito de cancelamento dá pra testar, os custos escondidos de token dá pra descobrir andando pelo fluxo. Seis meses lendo reclamação de usuário no Reddit, no Trustpilot e na App Store apontaram preço opaco e armadilha de renovação como a fonte mais barulhenta de frustração, e o peso segue essa evidência.

Como vocês testam a qualidade da conversa?

Um protocolo fixo de persona com 10 prompts no plano grátis, idêntico em todo app, numa única sessão. Alguns prompts são pegadinhas feitas pra flagrar o bot inventando coisa (pedir pra ele lembrar de um chefe que o usuário nunca mencionou, por exemplo). Consistência de persona, memória, velocidade de resposta e qualidade de idioma pontuam de 1 a 10 cada.

Como vocês testam a geração de imagem?

Cinco prompts de imagem padronizados no plano grátis quando oferecido, avaliados por um checklist fixo: anatomia, iluminação, fidelidade ao prompt, consistência no re-roll, tempo de geração. Os resultados são salvos internamente como evidência datada e nunca republicados. Quando a geração de imagem é só paga, a categoria é sinalizada como não testada diretamente, e a gente cita vídeos de reviewers independentes com menos de seis meses mais relatos de usuário agregados.

Como vocês testam a voz?

Uma frase padronizada gerada pela função de voz de cada app no plano grátis. A mesma frase roda em todo lugar, então naturalidade, latência e cobertura de idioma dá pra comparar direto. Apps que divulgam o provedor de voz (ElevenLabs, Resemble, próprio) ganham um pequeno bônus de transparência. Voz fica como Não Se Aplica quando não é oferecida.

A Alexandra testa funções pagas?

Só se a gente conseguir acessar por um teste grátis ou um plano grátis documentado. Quando uma função fica atrás de um paywall que a gente não pagou, a categoria é sinalizada como não testada diretamente, com uma nota nomeando o buraco e citando a fonte de apoio: vídeos de reviewers independentes com menos de seis meses ou trinta e tantos relatos de usuário recentes agregados sobre aquela função específica. A gente nunca afirma um acesso que não teve.

Quão fresca é cada nota?

Cada categoria tem o próprio calendário de reteste. Preço & Custo-Benefício é retestado a cada 3 meses ou quando há mudança detectada. Conversa, Imagem, Vídeo, UX e Privacidade a cada 6 meses. Voz e Personalização a cada 12 meses. Eventos grandes (troca do modelo base, atualização dos termos, incidente regulatório, reforma da interface) disparam um reteste antecipado na categoria afetada em até 30 dias.

Quais são os rótulos de nível?

As notas compostas mapeiam em sete níveis em linguagem simples: Melhor da categoria (9,0+), Excelente (8,0-8,9), Forte (7,0-7,9), Bom (6,0-6,9), Médio (5,0-5,9), Abaixo da média (4,0-4,9), Evite (abaixo de 4,0). Qualquer coisa abaixo de 5,0 fica fora das nossas recomendações, não importa a comissão de afiliado.

Qual é a linha vermelha absoluta em Privacidade & Compliance?

Qualquer falha ligada a CSAM (política de menores ausente, declaração de 18 USC 2257 ausente quando aplicável, marketing de personas que aparentam ser jovens, falhas de moderação envolvendo menores) derruba Privacidade & Compliance pra 1/10 automaticamente e desqualifica a plataforma de qualquer recomendação na bestgirlfriend.ai. Essa regra é inegociável e passa por cima de qualquer consideração comercial.

Por que vocês não avaliam sites de cam ao vivo aqui?

Plataformas de cam ao vivo são transmissões de pessoas reais, não produtos de IA. Variedade de modelos, qualidade da transmissão, fluxo de gorjeta e cobertura de país são as categorias que importam ali, e nenhuma delas mapeia em Qualidade da Conversa ou Geração de Imagem. Sites de cam rodam num teste paralelo de seis categorias documentado em /methodology/cam-sites.

Por que vocês não avaliam jogos adultos aqui?

Plataformas de jogos adultos (jogos de sexo, hentai, harém) rodam num teste de sete categorias montado em torno de mecânicas de jogo, direção de arte, monetização e uma categoria única de Transparência de Cobrança que a gente publica só no teste de jogos adultos. Qualidade da Conversa e Geração de Imagem não mapeiam em loops de jogo. O teste completo fica em /methodology/adult-games.

Que mudanças disparam uma renota?

Três tipos de mudança disparam um reteste antecipado: uma troca grande de modelo (upgrade do LLM base ou substituição do motor próprio), uma atualização dos Termos de Serviço ou da Política de Privacidade que afete direitos do usuário, e um incidente regulatório, acordo ou processo público. Os retestes ficam limitados só às categorias afetadas, são concluídos em até 30 dias, e registrados na página com um delta e a justificativa.

Posso ver as transcrições dos testes?

As transcrições internas, capturas de tela, amostras de voz e resultados de imagem são guardados como evidência datada mas não publicados como arquivos brutos (em parte pela experiência de leitura, em parte porque a gente não redistribui conteúdo de plataforma que não é nosso). Jornalistas verificáveis, pesquisadores acadêmicos e plataformas contestando uma nota publicada podem pedir um resumo editado em [email protected].

Como reporto um erro de avaliação?

Manda um e-mail pra [email protected] com a URL do review afetado, a afirmação específica que você contesta, e qualquer fonte de apoio que você puder compartilhar. As correções ficam registradas no topo da página afetada por 60 dias, e o histórico de atualização registra a mudança quando ela é relevante. Contestações de plataforma seguem o mesmo caminho das contestações de leitor.

Páginas relacionadas


Bio editorial da Alexandra Joly, Senior Editor · Última revisão 28 de abril de

Como Avaliamos Companheiros IA: Teste de 8 Categorias